Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề
Số trang: 3
Loại file: pdf
Dung lượng: 285.07 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS).
Nội dung trích xuất từ tài liệu:
Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MÔ HÌNH CHỦ ĐỀ Bùi Thị Thanh Xuân Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn 1. GIỚI THIỆU trong tập các văn bản. Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là Mô hình chủ đề đã và đang rất phổ biến và một phân phối của tất cả các từ trong tập từ có ứng dụng trong lĩnh vực khai phá dữ liệu điển. Mỗi văn bản trong tập corpus được xem văn bản. Khi làm việc với mô hình chủ đề, như một túi các từ, các từ sinh ra là tổ hợp việc giải hiệu quả bài toán suy diễn hậu của các chủ đề mà tác giả muốn viết. Mỗi chủ nghiệm cho mỗi văn bản đóng vai trò quan đề là phân phối của các từ trong tập từ điển. trọng. Tuy nhiên, bài toán suy diễn hậu Mô hình sinh được mô tả như sau: nghiệm này thường đưa về một bài toán tối Với mỗi topic trong tập {1, 2…K}, lấy ưu không lồi thuộc lớp bài toán NP-Hard [6]. Để giải bài toán suy diễn hậu nghiệm trong mẫu k~Dir(. mô hình chủ đề, có nhiều phương pháp đã Sinh văn bản có độ dài : được đề xuất như: phương pháp biến phân - Lấy mẫu ~Dir( Variational Bayes (VB)[1], collapsed - Với mỗi từ wn trong N từ: variational Bayes (CVB)[3] hay phương pháp + Chọn topic zn~Multinomial( collapsed Gibbs sampling (CGS) [4],... Tuy + Chọn từ wn với xác suất p(wn| β zn ) nhiên, theo tìm hiểu của tác giả, các phương Trong [5], khi làm việc với mô hình LDA, pháp này thường không đảm bảo về chất các tác giả đưa ra bài toán suy diễn cho văn lượng mô hình cũng như tốc độ hội tụ của bản d là: thuật toán. Chúng tôi tiếp cận giải bài toán * argmaxθΔK f(θ) suy diễn hậu nghiệm dưới cách nhìn của tối ưu không lồi. Sử dụng các biên ngẫu nhiên và với K K phân phối xác suất Bernoulli, chúng tôi đề f(θ) = d j log k kj ( 1 ) log k xuất thuật toán GOP giải hiệu quả bài toán j k 1 k 1 suy diễn hậu nghiệm với mô hình chủ đề, từ Đặt: đó phát triển thuật toán học ngẫu nhiên mô K g1( ) = d j log k kj , hình chủ đề từ bộ sưu tập văn bản lớn. Chúng j k 1 tôi tiến hành thử nghiệm trên hai bộ dữ liệu K g 2 ( ) = ( - 1) logk . lớn là New York Times và Pubmed với ngôn k 1 ngữ lập trình Python. Thông qua các kết quả Như vậy: f(g1 g2 thực nghiệm cho thấy cách tiếp cận của Trong LDA, với dữ liệu thực tế thì tham chúng tôi thường hiệu quả hơn các phương số < 1 nên g1 là hàm lõm, g2 là hàm lồi, pháp trước đó. nên f( có dạng hàm không lồi DC (Difference of Convex Functions). Do đó bài 2. NỘI DUNG NGHIÊN CỨU toán tìm cực trị của f( là bài toán NP-khó Trong mô hình chủ đề ẩn LDA [1], tác giả [6], không có các thuật toán lặp xác định giải Blei đưa ra giả thuyết về cấu trúc ẩn chứa quyết hiệu quả bài toán tối ưu cho f(. Do đó 125 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 ý tưởng của phương pháp giải xấp xỉ ngẫu Tương tự như xây dựng dãy hàm chuỗi nhiên được đưa vào sử dụng để giải bài toán Ft sử dụng phân phối Becnoulli để thay suy diễn hậu nghiệm. đổi trọng số đóng góp của hai thành phần Tác giả trong [5] đã đề xuất thuật toán OPE g1 và g2 thông qua tham số xác suất p, để giải bài toán suy diễn véc tơ tỉ lệ chủ đề d chúng tôi tiến hành xây dựng hai dãy hàm cho từng văn bản d, sau đó OPE được sử dụng ngẫu nhiên Lt bắt đầu từ g1 xuất phát trong Online-OPE học mô hình LDA. từ bên dưới, dãy Ut bắt đầu từ g1 xuất Tại mỗi bước lặp t, thuật toán OPE chọn phát từ bên trên của hàm f và cùng hội tụ theo ngẫu nghiên g1 hoặc g2 với xác suất ...
Nội dung trích xuất từ tài liệu:
Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MÔ HÌNH CHỦ ĐỀ Bùi Thị Thanh Xuân Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn 1. GIỚI THIỆU trong tập các văn bản. Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là Mô hình chủ đề đã và đang rất phổ biến và một phân phối của tất cả các từ trong tập từ có ứng dụng trong lĩnh vực khai phá dữ liệu điển. Mỗi văn bản trong tập corpus được xem văn bản. Khi làm việc với mô hình chủ đề, như một túi các từ, các từ sinh ra là tổ hợp việc giải hiệu quả bài toán suy diễn hậu của các chủ đề mà tác giả muốn viết. Mỗi chủ nghiệm cho mỗi văn bản đóng vai trò quan đề là phân phối của các từ trong tập từ điển. trọng. Tuy nhiên, bài toán suy diễn hậu Mô hình sinh được mô tả như sau: nghiệm này thường đưa về một bài toán tối Với mỗi topic trong tập {1, 2…K}, lấy ưu không lồi thuộc lớp bài toán NP-Hard [6]. Để giải bài toán suy diễn hậu nghiệm trong mẫu k~Dir(. mô hình chủ đề, có nhiều phương pháp đã Sinh văn bản có độ dài : được đề xuất như: phương pháp biến phân - Lấy mẫu ~Dir( Variational Bayes (VB)[1], collapsed - Với mỗi từ wn trong N từ: variational Bayes (CVB)[3] hay phương pháp + Chọn topic zn~Multinomial( collapsed Gibbs sampling (CGS) [4],... Tuy + Chọn từ wn với xác suất p(wn| β zn ) nhiên, theo tìm hiểu của tác giả, các phương Trong [5], khi làm việc với mô hình LDA, pháp này thường không đảm bảo về chất các tác giả đưa ra bài toán suy diễn cho văn lượng mô hình cũng như tốc độ hội tụ của bản d là: thuật toán. Chúng tôi tiếp cận giải bài toán * argmaxθΔK f(θ) suy diễn hậu nghiệm dưới cách nhìn của tối ưu không lồi. Sử dụng các biên ngẫu nhiên và với K K phân phối xác suất Bernoulli, chúng tôi đề f(θ) = d j log k kj ( 1 ) log k xuất thuật toán GOP giải hiệu quả bài toán j k 1 k 1 suy diễn hậu nghiệm với mô hình chủ đề, từ Đặt: đó phát triển thuật toán học ngẫu nhiên mô K g1( ) = d j log k kj , hình chủ đề từ bộ sưu tập văn bản lớn. Chúng j k 1 tôi tiến hành thử nghiệm trên hai bộ dữ liệu K g 2 ( ) = ( - 1) logk . lớn là New York Times và Pubmed với ngôn k 1 ngữ lập trình Python. Thông qua các kết quả Như vậy: f(g1 g2 thực nghiệm cho thấy cách tiếp cận của Trong LDA, với dữ liệu thực tế thì tham chúng tôi thường hiệu quả hơn các phương số < 1 nên g1 là hàm lõm, g2 là hàm lồi, pháp trước đó. nên f( có dạng hàm không lồi DC (Difference of Convex Functions). Do đó bài 2. NỘI DUNG NGHIÊN CỨU toán tìm cực trị của f( là bài toán NP-khó Trong mô hình chủ đề ẩn LDA [1], tác giả [6], không có các thuật toán lặp xác định giải Blei đưa ra giả thuyết về cấu trúc ẩn chứa quyết hiệu quả bài toán tối ưu cho f(. Do đó 125 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 ý tưởng của phương pháp giải xấp xỉ ngẫu Tương tự như xây dựng dãy hàm chuỗi nhiên được đưa vào sử dụng để giải bài toán Ft sử dụng phân phối Becnoulli để thay suy diễn hậu nghiệm. đổi trọng số đóng góp của hai thành phần Tác giả trong [5] đã đề xuất thuật toán OPE g1 và g2 thông qua tham số xác suất p, để giải bài toán suy diễn véc tơ tỉ lệ chủ đề d chúng tôi tiến hành xây dựng hai dãy hàm cho từng văn bản d, sau đó OPE được sử dụng ngẫu nhiên Lt bắt đầu từ g1 xuất phát trong Online-OPE học mô hình LDA. từ bên dưới, dãy Ut bắt đầu từ g1 xuất Tại mỗi bước lặp t, thuật toán OPE chọn phát từ bên trên của hàm f và cùng hội tụ theo ngẫu nghiên g1 hoặc g2 với xác suất ...
Tìm kiếm theo từ khóa liên quan:
Mô hình chủ đề Bài toán suy diễn hậu nghiệm Bài toán tối ưu không lồi Bài toán NP-Hard Phương pháp biến phân Variational BayesGợi ý tài liệu liên quan:
-
Gợi ý sản phẩm với tiếp cận khai phá quan điểm
10 trang 22 0 0 -
Phân loại văn bản tiếng việt dựa trên mô hình chủ đề và lý thuyết Naive Bayes
7 trang 15 0 0 -
Luận án Tiến sĩ Toán học: Một số lớp bài toán tối ưu không lồi - Thuật toán và ứng dụng
110 trang 11 0 0 -
Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề
6 trang 11 0 0 -
27 trang 9 0 0
-
Phân loại văn bản tiếng Việt dựa trên mô hình chủ đề
6 trang 8 0 0 -
131 trang 7 0 0
-
Điều kiện tối ưu cho hầu tựa ε-nghiệm của bài toán tối ưu không lồi với vô hạn ràng buộc
7 trang 6 0 0