Danh mục

Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến

Số trang: 10      Loại file: pdf      Dung lượng: 308.50 KB      Lượt xem: 11      Lượt tải: 0    
Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: 5,000 VND Tải xuống file đầy đủ (10 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này, theo hướng tiếp cận của Lí thuyết thông tin, chúng tôi đề xuất một mở rộng của độ đo thông tin tương hỗ có điều kiện trong trường hợp nhiều biến. Sau đó, chúng tôi giới thiệu một phương pháp mới sử dụng cả hai độ đo là độ đo thông tin tương hỗ (MI) và độ đo thông tin tương hỗ có điều kiện (CMI) để phát hiện các mối quan hệ giữa các gen, từ đó tái tạo mạng điều khiển gen.
Nội dung trích xuất từ tài liệu:
Mở rộng độ đo thông tin tương hỗ có điều kiện cho trường hợp nhiều biến JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol. 58, pp. 3-12 This paper is available online at http://stdb.hnue.edu.vn MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ CÓ ĐIỀU KIỆN CHO TRƯỜNG HỢP NHIỀU BIẾN Nguyễn Quỳnh Diệp∗ , Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn và Trần Đăng Hưng Khoa Công nghệ Thông tin, Trường Đại học Sư Phạm Hà Nội ∗ E-mail: diepnq@hnue.edu.vn Tóm tắt. Phân tích dữ liệu biểu hiện gen là một trong những thao tác quan trọng để tìm ra chức năng của các phần tử sinh học. Để có thể hiểu được cơ chế phức tạp của hệ thống sinh học, việc tái tạo mạng điều khiển gen (Gene Regulatory Networks-GRNs) là một nhiệm vụ hết sức quan trọng và đã trở thành một vấn đề thách thức. Trong bài báo này, chúng tôi đề xuất một mở rộng độ đo thông tin tương hỗ có điều kiện (Conditional Mutual Information-CMI) cho trường hợp nhiều biến. Sau đó, chúng tôi trình bày thuật toán Path Consistency Algorithm-PCA. Đây là một phương pháp mới để tái tạo GRNs từ dữ liệu biểu hiện gen bằng cách sử dụng thông tin tương hỗ (MI) và thông tin tương hỗ có điều kiện (CMI). Trong thuật toán này, sự phụ thuộc có điều kiện giữa một cặp gen được biểu diễn bằng CMI giữa chúng. Kết quả thử nghiệm đã xác nhận hiệu quả của phương pháp PCA-CMI tốt hơn so với các phương pháp trước đây. Từ khóa: Phần tử sinh học, mở rộng độ đo, thông tin tương hỗ có điều kiện, phương pháp PCA-CMI.1. Mở đầu Trong lĩnh vực sinh học phân tử, việc tìm hiểu về tương tác giữa các phân tử của hệthống sinh học là hết sức quan trọng, đây có thể được xem như là mục tiêu cuối cùng củadi truyền học. Mặc dù, toàn bộ hệ gen của con người đã được nghiên cứu và sắp xếp theotrình tự, nhưng hiểu biết về mạng điều khiển gen ở người còn rất hạn chế. Hiện nay, có nhiều phương pháp tiếp cận để tái tạo mạng điều khiển gen GRNs từdữ liệu biểu hiện gen như: Mô hình đồ thị, chẳng hạn như đồ thị Gauss [9]; mạng Bayes[10]; Phương trình vi phân, tích phân [1, 6]; Phương pháp hồi quy, quy hoạch tuyến tính[2, 8]; Lí thuyết thông tin [3, 4]. Mặc dù, nhiều giải thuật xây dựng mạng đã được côngbố nhưng vẫn còn một số hạn chế. Trong bài báo này, theo hướng tiếp cận của Lí thuyết thông tin, chúng tôi đề xuấtmột mở rộng của độ đo thông tin tương hỗ có điều kiện trong trường hợp nhiều biến. Sauđó, chúng tôi giới thiệu một phương pháp mới sử dụng cả hai độ đo là độ đo thông tin 3 Nguyễn Quỳnh Diệp, Nguyễn Thị Bích Ngọc, Phạm Thọ Hoàn, Trần Đăng Hưngtương hỗ (MI) và độ đo thông tin tương hỗ có điều kiện (CMI) để phát hiện các mối quanhệ giữa các gen, từ đó tái tạo mạng điều khiển gen. Chúng tôi đã tiến hành thực nghiệm trên dữ liệu của loài men nấmvới kích thước 10. Kết quả cho thấy mạng xây dựng được nhờ phương phápnày tương đối khớp với mạng thực.2. Nội dung nghiên cứu2.1. Một số khái niệm cơ bản2.1.1. Entropy của một biến Một khái niệm cơ bản của Lí thuyết thông tin là Entropy. Entropy của một biếnngẫu nhiên X, kí hiệu là H(X), chỉ độ bất định hay lượng thông tin về biến X. Nếu X là một biến ứng với một tập biến cố rời rạc thì entropy của X được tính theocông thức sau [15]: X 1 X H(X) = p(x)log =− p(x)logp(x) (2.1) x p(x) x Trong đó, p(x) là hàm phân phối xác suất của biến ngẫu nhiên X.2.1.2. Entropy đồng thời Giả sử, cho cặp biến ngẫu nhiên X và Y . Khi đó, entropy của X và Y được địnhnghĩa như sau: X 1 X H(X, Y ) = p(x, y)log =− p(x, y)logp(x, y) (2.2) x,y p(x, y) x,y Trong đó, p(x, y) là phân phối đồng thời của hai biến X và Y .2.1.3. Entropy có điều kiện Cho biến ngẫu nhiên Y . Entropy có điều kiện H(X|Y ) đo lượng thông tin khôngchắc chắn của biến ngẫu nhiên X khi đã biết Y và được tính theo công thức: X X H(X | Y ) = − p(y) p(x | y)logp(x | y) y x X p(x, y) = − p(x, y)log (2.3) x,y p(y) Trong đó, p(x | y) là xác suất có điều kiện của ...

Tài liệu được xem nhiều: