PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES TỪ SỐ LIỆU RỜI RẠC
Số trang: 10
Loại file: pdf
Dung lượng: 262.03 KB
Lượt xem: 17
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo trình bày bài toán phân loại bằng phương pháp Bayes từ số liệu rời rạc, quachương trình ước lượng hàm mật độ xác suất, phân loại một phần tử mới và tinh sai sốBayes được viết trên phần mềm Matlab. Các chương trình này được sử dụng để thực hiệncho các ứng dụng cụ thể từ số liệu rời rạc thực tế.
Nội dung trích xuất từ tài liệu:
PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES TỪ SỐ LIỆU RỜI RẠCTạp chí Khoa học 2012:23b 69-78 Trường Đại học Cần Thơ PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES TỪ SỐ LIỆU RỜI RẠC Võ Văn Tài1 ABSTRACTThe paper represents classification problem by Bayesian method from discrete datathrough program estimating n – dimenstion probability density function, classifing a newelement and calculating Bayes error which are written on Matlab software. Theprograms are used to for specific applied from real discrete data.Keywords: Bayes method, Bayes error, classification, probability density functionTitle: Classification by Bayesian method from discrete data TÓM TẮTBài báo trình bày bài toán phân loại bằng phương pháp Bayes từ số liệu rời rạc, quachương trình ước lượng hàm mật độ xác suất, phân loại một phần tử mới và tinh sai sốBayes được viết trên phần mềm Matlab. Các chương trình này được sử dụng để thực hiệncho các ứng dụng cụ thể từ số liệu rời rạc thực tế.Từ khóa: Phương pháp Bayes, sai số Bayes, phân loại, hàm mật độ xác suất1 GIỚI THIỆUPhân loại là việc gán một phần tử mới thích hợp nhất vào các tổng thể đã được biếttrước dựa vào biến quan sát của nó. Đây là một hướng phát triển quan trọng củanhận dạng không được giám sát của thống kê. Bài toán phân loại được ứng dụngrộng rãi trong nhiều lĩnh vực khác nhau, đặc biệt trong xã hội, sinh học và y học.Hiện tại có ba phương pháp chính được đưa ra để giải quyết bài toán phân loại:phương pháp Fisher, phương pháp hồi quy logistic và phương pháp Bayes [2], [3],[10]. Phương pháp hồi quy logistic được sử dụng phổ biến nhất hiện nay, nhưng nóchỉ áp dụng cho dữ liệu rời rạc và chỉ phân loại cho hai tổng thể. Phương phápFisher cũng áp dụng cho dữ liệu rời rạc, mặc dù có thể phân loại cho hai hay nhiềuhơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thểbằng nhau. Phương pháp Bayes có thể phân loại cho hai và nhiều hơn hai tổng thể,được xem có nhiều ưu điểm nhất vì nó đã đạt được mục tiêu về mặt lý thuyết chobài toán phân loại. Các kết quả nghiên cứu mới trong những năm gần đây về bàitoán phân loại chủ yếu tập trung xung quanh phương pháp Bayes. Một ưu điểm nổibật của phương pháp này là tính được xác suất sai lầm trong phân loại mà nó đượcgọi là sai số Bayes. Sai số Bayes đã được chứng minh là xác suất sai lầm nhỏ nhấttrong bài toán phân loại. Một số kết quả mới rất có ý nghĩa về phương pháp Bayesđã được trình bày trong những năm gần đây bởi các bài báo [6], [7], [8].Một cản trở lớn của việc áp dụng thực tế bài toán phân loại bằng phương phápBayes trong những lĩnh vực cụ thể là vấn đề tính toán. Phương pháp Bayes dựatrên cơ sở hàm mật độ xác suất đã biết, tuy nhiên số liệu thực tế là số liệu rời rạc,1 Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ 69Tạp chí Khoa học 2012:23b 69-78 Trường Đại học Cần Thơvì vậy để phân loại bằng phương pháp Bayes có ý nghĩa thực tế việc đầu tiên làphải ước lượng hàm mật độ xác suất. Vấn đề tính sai số Bayes, phân loại một phầntử mới còn rất nhiều khó khăn khi gặp số liệu lớn của thực tế. Trong bài viết này,chúng tôi quan tâm đến lý thuyết tính toán các vấn đề liên quan đến phân loại bằngphương pháp Bayes từ số liệu rời rạc. Đặc biệt đưa ra một công thức tương đươngcủa sai số Bayes mà nó rất thuận lợi cho việc tính toán. Các lý thuyết liên quan đếnviệc tính toán này sẽ được cụ thể hóa bằng các chương trình được viết trên phầnmềm Matlab. Các chương trình này sẽ được sử dụng để áp dụng cho bài toán phânloại từ các số liệu rời rạc thực tế trong lĩnh vực sinh học và y học.2 PHƯƠNG PHÁP BAYES2.1 Phân loại một phần tử mớiCho k tổng thể w1, w2, ..., wk có biến quan sát với hàm mật độ xác suất được xácđịnh là f1(x), f2(x), …, fk(x) và xác suất tiên nghệm cho các tổng thể lần lượt làq1 , q2 ,..., qk , q1 q2 . ... qk 1 . Ta có nguyên tắc phân loại một phần tử mới vớibiến quan sát x bằng phương pháp Bayes như sau: Nếu g max ( x) q j f j ( x) thì xếp phần tử mới vào w j , (1)Trong đó: qi là xác suất tiên nghiệm của tổng thể thứ i, g i ( x) qi f i ( x) và g max ( x) maxg1 ( x), g 2 ( x),..., g k ( x).2.2 Sai số bayesa) Trường hợp hai tổng thể Trong trường hợp không quan tâm đến xác suất tiên nghiệm q của w1 , ta có: 1 = P(w2|w1) = qf x dx : xác suất phân loại một phần tử vào w2 n 1 khi nó R2 thuộc w1 . 2 = P(w1|w2) = (1 ...
Nội dung trích xuất từ tài liệu:
PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES TỪ SỐ LIỆU RỜI RẠCTạp chí Khoa học 2012:23b 69-78 Trường Đại học Cần Thơ PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES TỪ SỐ LIỆU RỜI RẠC Võ Văn Tài1 ABSTRACTThe paper represents classification problem by Bayesian method from discrete datathrough program estimating n – dimenstion probability density function, classifing a newelement and calculating Bayes error which are written on Matlab software. Theprograms are used to for specific applied from real discrete data.Keywords: Bayes method, Bayes error, classification, probability density functionTitle: Classification by Bayesian method from discrete data TÓM TẮTBài báo trình bày bài toán phân loại bằng phương pháp Bayes từ số liệu rời rạc, quachương trình ước lượng hàm mật độ xác suất, phân loại một phần tử mới và tinh sai sốBayes được viết trên phần mềm Matlab. Các chương trình này được sử dụng để thực hiệncho các ứng dụng cụ thể từ số liệu rời rạc thực tế.Từ khóa: Phương pháp Bayes, sai số Bayes, phân loại, hàm mật độ xác suất1 GIỚI THIỆUPhân loại là việc gán một phần tử mới thích hợp nhất vào các tổng thể đã được biếttrước dựa vào biến quan sát của nó. Đây là một hướng phát triển quan trọng củanhận dạng không được giám sát của thống kê. Bài toán phân loại được ứng dụngrộng rãi trong nhiều lĩnh vực khác nhau, đặc biệt trong xã hội, sinh học và y học.Hiện tại có ba phương pháp chính được đưa ra để giải quyết bài toán phân loại:phương pháp Fisher, phương pháp hồi quy logistic và phương pháp Bayes [2], [3],[10]. Phương pháp hồi quy logistic được sử dụng phổ biến nhất hiện nay, nhưng nóchỉ áp dụng cho dữ liệu rời rạc và chỉ phân loại cho hai tổng thể. Phương phápFisher cũng áp dụng cho dữ liệu rời rạc, mặc dù có thể phân loại cho hai hay nhiềuhơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thểbằng nhau. Phương pháp Bayes có thể phân loại cho hai và nhiều hơn hai tổng thể,được xem có nhiều ưu điểm nhất vì nó đã đạt được mục tiêu về mặt lý thuyết chobài toán phân loại. Các kết quả nghiên cứu mới trong những năm gần đây về bàitoán phân loại chủ yếu tập trung xung quanh phương pháp Bayes. Một ưu điểm nổibật của phương pháp này là tính được xác suất sai lầm trong phân loại mà nó đượcgọi là sai số Bayes. Sai số Bayes đã được chứng minh là xác suất sai lầm nhỏ nhấttrong bài toán phân loại. Một số kết quả mới rất có ý nghĩa về phương pháp Bayesđã được trình bày trong những năm gần đây bởi các bài báo [6], [7], [8].Một cản trở lớn của việc áp dụng thực tế bài toán phân loại bằng phương phápBayes trong những lĩnh vực cụ thể là vấn đề tính toán. Phương pháp Bayes dựatrên cơ sở hàm mật độ xác suất đã biết, tuy nhiên số liệu thực tế là số liệu rời rạc,1 Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ 69Tạp chí Khoa học 2012:23b 69-78 Trường Đại học Cần Thơvì vậy để phân loại bằng phương pháp Bayes có ý nghĩa thực tế việc đầu tiên làphải ước lượng hàm mật độ xác suất. Vấn đề tính sai số Bayes, phân loại một phầntử mới còn rất nhiều khó khăn khi gặp số liệu lớn của thực tế. Trong bài viết này,chúng tôi quan tâm đến lý thuyết tính toán các vấn đề liên quan đến phân loại bằngphương pháp Bayes từ số liệu rời rạc. Đặc biệt đưa ra một công thức tương đươngcủa sai số Bayes mà nó rất thuận lợi cho việc tính toán. Các lý thuyết liên quan đếnviệc tính toán này sẽ được cụ thể hóa bằng các chương trình được viết trên phầnmềm Matlab. Các chương trình này sẽ được sử dụng để áp dụng cho bài toán phânloại từ các số liệu rời rạc thực tế trong lĩnh vực sinh học và y học.2 PHƯƠNG PHÁP BAYES2.1 Phân loại một phần tử mớiCho k tổng thể w1, w2, ..., wk có biến quan sát với hàm mật độ xác suất được xácđịnh là f1(x), f2(x), …, fk(x) và xác suất tiên nghệm cho các tổng thể lần lượt làq1 , q2 ,..., qk , q1 q2 . ... qk 1 . Ta có nguyên tắc phân loại một phần tử mới vớibiến quan sát x bằng phương pháp Bayes như sau: Nếu g max ( x) q j f j ( x) thì xếp phần tử mới vào w j , (1)Trong đó: qi là xác suất tiên nghiệm của tổng thể thứ i, g i ( x) qi f i ( x) và g max ( x) maxg1 ( x), g 2 ( x),..., g k ( x).2.2 Sai số bayesa) Trường hợp hai tổng thể Trong trường hợp không quan tâm đến xác suất tiên nghiệm q của w1 , ta có: 1 = P(w2|w1) = qf x dx : xác suất phân loại một phần tử vào w2 n 1 khi nó R2 thuộc w1 . 2 = P(w1|w2) = (1 ...
Tìm kiếm theo từ khóa liên quan:
nghiên cứu khoa học báo cáo khoa học tạp chí khoa học Phương pháp Bayes sai số Bayes hàm mật độ xác suấtGợi ý tài liệu liên quan:
-
Đề tài nghiên cứu khoa học: Kỹ năng quản lý thời gian của sinh viên trường Đại học Nội vụ Hà Nội
80 trang 1552 4 0 -
Tiểu luận: Phương pháp Nghiên cứu Khoa học trong kinh doanh
27 trang 492 0 0 -
57 trang 339 0 0
-
33 trang 332 0 0
-
63 trang 314 0 0
-
6 trang 298 0 0
-
Thống kê tiền tệ theo tiêu chuẩn quốc tế và thực trạng thống kê tiền tệ tại Việt Nam
7 trang 272 0 0 -
Tiểu luận môn Phương Pháp Nghiên Cứu Khoa Học Thiên văn vô tuyến
105 trang 270 0 0 -
95 trang 269 1 0
-
Phương pháp nghiên cứu trong kinh doanh
82 trang 267 0 0