Danh mục

Một đề xuất mở rộng Mutual information cho trường hợp 3 biến

Số trang: 12      Loại file: pdf      Dung lượng: 331.86 KB      Lượt xem: 14      Lượt tải: 0    
Thư viện của tui

Hỗ trợ phí lưu trữ khi tải xuống: 1,000 VND Tải xuống file đầy đủ (12 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này, chúng tôi đề xuất công thức mở rộng MI cho trường hợp ba biến, đồng thời chúng tôi cũng đưa ra một cách biểu diễn trực quan mới cho MI của hai biến và ba biến. Từ biểu diễn trực quan này, chúng tôi có thể lý giải được sự phụ thuộc của các biến, giống như sự đa dạng của các mối quan hệ trong thế giới thực.
Nội dung trích xuất từ tài liệu:
Một đề xuất mở rộng Mutual information cho trường hợp 3 biến JOURNAL OF SCIENCE OF HNUE FIT., 2011, Vol. 56, pp. 17-28 MỘT ĐỀ XUẤT MỞ RỘNG MUTUAL INFORMATION CHO TRƯỜNG HỢP 3 BIẾN Nguyễn Quỳnh Diệp(∗) , Phạm Thọ Hoàn Nguyễn Tô Sơn và Trần Đăng Hưng Khoa Công nghệ Thông tin - Trường Đại học Sư phạm Hà Nội (∗) E-mail: diepnq@hnue.edu.vn Tóm tắt. Trong lý thuyết thông tin và xác suất thống kê, độ đo Mutual Information (MI) là một độ đo dùng để đo sự phụ thuộc thông tin giữa hai hay nhiều biến ngẫu nhiên. Đối với trường hợp hai biến, ta có thể dễ dàng tính toán và diễn giải ý nghĩa của M I. Tuy nhiên, khi mở rộng định nghĩa M I cho nhiều biến thì rất phức tạp, diễn giải các định nghĩa mở rộng này còn rất nhiều tranh cãi. Cho đến nay, mặc dù đã có một số mở rộng của M I cho trường hợp nhiều biến và cũng có một số cách biểu diễn trực quan độ đo M I. Song, các cách biểu diễn này tỏ ra không phù hợp. Trong bài báo này, chúng tôi đề xuất công thức mở rộng M I cho trường hợp ba biến, đồng thời chúng tôi cũng đưa ra một cách biểu diễn trực quan mới cho M I của hai biến và ba biến. Từ biểu diễn trực quan này, chúng tôi có thể lý giải được sự phụ thuộc của các biến, giống như sự đa dạng của các mối quan hệ trong thế giới thực.1. Mở đầu Để kiểm tra các biến (thuộc tính) X1 , X2 , ..., Xn có độc lập với nhau không tachỉ cần kiểm tra đẳng thức xác suất P (X1 , X2 , ..., Xn ) = P (X1 )P (X2 )...P (Xn ). Cácbiến là độc lập nếu đẳng thức xảy ra, còn nếu không thì sẽ có sự phụ thuộc nào đógiữa các biến. Tuy nhiên, ngay cả khi đã biết rằng tồn tại sự phụ thuộc giữa cácbiến nhưng làm thế nào để biết được sự phụ thuộc đó là gì và mức độ sự phụ thuộcđó là như thế nào thì vẫn là một bài toán mở. Hệ số tương quan Pearson (P C) [11, 12] trong xác suất thống kê là một độđo có khả năng đo được mức độ phụ thuộc tuyến tính giữa các biến, nhưng nókhông thể xác định được sự phụ thuộc phi tuyến. Độ đo thông tin sự phụ thuộc(Mutual Information-MI ) trong lý thuyết thông tin có thể đánh giá được mức độsự phụ thuộc (tuyến tính hoặc phi tuyến) giữa hai biến [16]. Độ đo MI và tiếp cậnlý thuyết thông tin tỏ ra là một tiếp cận tổng quát và hợp lý cho khai phá các sựphụ thuộc trong dữ liệu. Tuy nhiên, hiện tại độ đo MI mới chỉ được ứng dụng phổbiến trong trường hợp 2 biến, giúp nghiên cứu sự phụ thuộc 2 chiều giữa hai thànhphần dữ liệu. 17 Nguyễn Quỳnh Diệp, Phạm Thọ Hoàn, Nguyễn Tô Sơn và Trần Đăng Hưng Trong bài báo này, chúng tôi trình bày một cách diễn giải mới về mức độ sựphụ thuộc giữa hai biến nhờ công thức định nghĩa MI và đề xuất một cách biểudiễn trực quan mới cho MI của hai biến. Trên cơ sở đó, chúng tôi đưa ra công thứcmở rộng MI, đồng thời biểu diễn trực quan cho MI trong trường hợp ba biến.2. Nội dung nghiên cứu2.1. Mutual Information của hai biến2.1.1. Công thức MI của hai biến Mutual Information của hai biến ngẫu nhiên là một đại lượng dùng để đo sựphụ thuộc thông tin giữa hai biến. Độ phụ thuộc thông tin của hai biến ngẫu nhiênrời rạc được định nghĩa như sau: XX pX,Y (x, y) MI(X, Y ) = pX,Y (x, y) log (2.1) x∈X y∈Y pX (x)pY (y) Trong đó, pX,Y (x, y) là hàm phân bố xác suất đồng thời của X và Y , cònpX (x) và pY (y) là hàm phân bố xác suất lề tương ứng của X và Y . Trong trườnghợp các biến liên tục, độ đo phụ thuộc thông tin được xác định như sau: Z Z pX,Y (x, y) MI(X, Y ) = pX,Y (x, y) log dxdy (2.2) pX (x)pY (y)Trong đó, pX,Y (x, y) là hàm mật độ xác suất đồng thời của X và Y , pX (x) và pY (y)là hàm mật độ xác suất lề của X và Y . Nếu X và Y độc lập thì MI(X, Y ) = 0; nếuchúng phụ thuộc thì MI(X, Y ) tiến đến vô cực. Độ đo MI của hai biến X và Y , ký hiệu là MI (2) (X, Y ) có thể được giải thíchtheo entropy thông tin như sau [13]: MI (2) (X, Y ) = H(X) + H(Y ) − H(X, Y ) (2.3) Từ công thức (2.3), chúng ta thấy độ đo MI có thể được định lượng dựa trênentropy, entropy được định lượng dựa trên hàm mật độ. Nếu dữ liệu là rời rạc thì cóthể dễ dàng ước lượng hàm mật độ dựa trên thống kê tần suất. Trong trường hợpdữ liệu liên tục, bài toán ước lượng MI trở nên khó khăn hơn.2.1.2. Một số cách biểu diễn trực quan MI của hai biến Biểu đồ Venn là một trong các cách biểu diễn trực q ...

Tài liệu được xem nhiều: