Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đề
Số trang: 6
Loại file: pdf
Dung lượng: 475.50 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài toán suy diễn hậu nghiệm cho mỗi văn bản đóng vai trò quan trọng trong mô hình chủ đề. Tuy nhiên, trong quá trình giải bài toán suy diễn này thường đưa về dưới dạng một bài toán tối ưu không lồi với dữ liệu lớn, do đó nó thường là bài toán NP-khó.
Nội dung trích xuất từ tài liệu:
Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đềISSN: 1859-2171TNU Journal of Science and Technology200(07): 69 - 74CẢI TIẾN THUẬT TOÁN TỐI ƯUGIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM VỚI MÔ HÌNH CHỦ ĐỀDương Thị Nhung, Bùi Thị Thanh Xuân*Trường Đại học Công nghệ thông tin và truyền thông - ĐH Thái NguyênTÓM TẮTBài toán suy diễn hậu nghiệm cho mỗi văn bản đóng vai trò quan trọng trong mô hình chủ đề. Tuynhiên, trong quá trình giải bài toán suy diễn này thường đưa về dưới dạng một bài toán tối ưukhông lồi với dữ liệu lớn, do đó nó thường là bài toán NP-khó. Có nhiều phương pháp được đềxuất để giải xấp xỉ bài toán suy diễn hậu nghiệm như phương pháp Variational Bayes (VB),collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS),... Tuynhiên các phương pháp này hầu hết không đảm bảo về chất lượng cũng như tốc độ hội tụ của thuậttoán. Với ý tưởng sử dụng thuật toán Online Frank-Wolfe (OFW) và thuật toán Online Maximuma Posterior Estimation (OPE), chúng tôi đề xuất hai thuật toán cải tiến có hiệu quả giải bài toán suydiễn hậu nghiệm với mô hình chủ đề, đó là IOPE1, IOPE2. Bằng việc sử dụng biên ngẫu nhiên,xấp xỉ ngẫu nhiên và phân phối ngẫu nhiên như phân phối Uniform, phân phối Bernoulli, các đềxuất của chúng tôi được sử dụng để phát triển các phương pháp mới có hiệu quả để học các môhình chủ đề từ bộ sưu tập văn bản lớn. Các kết quả thực nghiệm cho thấy các phương pháp tiếpcận của chúng tôi thường hiệu quả hơn các phương pháp trước đó.Từ khóa: Suy diễn hậu nghiệm, OPE, Online Frank-Wolfe, mô hình chủ đề, học trực tuyến, xấp xỉngẫu nhiên.Ngày nhận bài: 11/3/2019;Ngày hoàn thiện: 03/4/2019;Ngày duyệt đăng: 07/5/2019IMPROVEMENT OPTIMIZATION ALGORITHMS APPLIED FOR SOLVINGTHE POSTERIOR INFERENCE PROBLEM IN TOPIC MODELSDuong Thi Nhung, Bui Thi Thanh Xuan*University of Information and Communication Technology - TNUABSTRACTThe posterior inference problem for individual text plays an important role in the topic models.However, in solving this problem, it is usually given as a nonconvex optimization problem withthe large datasets, so it is often NP-hard. There are many methods proposed to approximate theposterior inference problem such as Variational Bayes (VB), collapsed variational Bayes (CVB) orcollapsed Gibbs sampling (CGS) methods, but these methods do not guarantee the quality orconvergence rate. Using the idea of Online Frank-Wolfe algorithm (OFW) and Online Maximum aPosteriori Estimation (OPE) algorithm, we propose two efficient algorithms for solving theposterior inference problem in the topic models which are IOPE1 and IOPE2. Using stochasticbounds, stochastic approximation and probability distributions such as uniform distribution,Bernoulli distribution, our improvements are used to develop new effective method for learningLDA from large text collections. Experimental results show that our approaches are often moreeffective than OPE.Keywords: OPE, Online Frank-Wolfe, topic models, online learning, stochastic approximation,nonconvex optimization.Received: 11/3/2019; Revised: 03/4/2019; Approved: 07/5/2019* Corresponding author: Tel: 0902 001581; Email: bttxuan@ictu.edu.vnhttp://jst.tnu.edu.vn; Email: jst@tnu.edu.vn69Dương Thị Nhung và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN1. Mô hình chủ đề và bài toán suy diễnhậu nghiệmTrong mô hình chủ đề Latent DirichletAllocation (LDA) [1], mỗi văn bản được biểudiễn theo dạng “bag of word”, tức là mỗi vănbản coi như một túi từ, thứ tự các từ trong vănbản không quan trọng.200(07): 69 - 74Trong [6], khi làm việc với mô hình LDA, cáctác giả đưa ra bài toán suy diễn cho văn bản d là:
Nội dung trích xuất từ tài liệu:
Cải tiến thuật toán tối ưu giải bài toán suy diễn hậu nghiệm với mô hình chủ đềISSN: 1859-2171TNU Journal of Science and Technology200(07): 69 - 74CẢI TIẾN THUẬT TOÁN TỐI ƯUGIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM VỚI MÔ HÌNH CHỦ ĐỀDương Thị Nhung, Bùi Thị Thanh Xuân*Trường Đại học Công nghệ thông tin và truyền thông - ĐH Thái NguyênTÓM TẮTBài toán suy diễn hậu nghiệm cho mỗi văn bản đóng vai trò quan trọng trong mô hình chủ đề. Tuynhiên, trong quá trình giải bài toán suy diễn này thường đưa về dưới dạng một bài toán tối ưukhông lồi với dữ liệu lớn, do đó nó thường là bài toán NP-khó. Có nhiều phương pháp được đềxuất để giải xấp xỉ bài toán suy diễn hậu nghiệm như phương pháp Variational Bayes (VB),collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS),... Tuynhiên các phương pháp này hầu hết không đảm bảo về chất lượng cũng như tốc độ hội tụ của thuậttoán. Với ý tưởng sử dụng thuật toán Online Frank-Wolfe (OFW) và thuật toán Online Maximuma Posterior Estimation (OPE), chúng tôi đề xuất hai thuật toán cải tiến có hiệu quả giải bài toán suydiễn hậu nghiệm với mô hình chủ đề, đó là IOPE1, IOPE2. Bằng việc sử dụng biên ngẫu nhiên,xấp xỉ ngẫu nhiên và phân phối ngẫu nhiên như phân phối Uniform, phân phối Bernoulli, các đềxuất của chúng tôi được sử dụng để phát triển các phương pháp mới có hiệu quả để học các môhình chủ đề từ bộ sưu tập văn bản lớn. Các kết quả thực nghiệm cho thấy các phương pháp tiếpcận của chúng tôi thường hiệu quả hơn các phương pháp trước đó.Từ khóa: Suy diễn hậu nghiệm, OPE, Online Frank-Wolfe, mô hình chủ đề, học trực tuyến, xấp xỉngẫu nhiên.Ngày nhận bài: 11/3/2019;Ngày hoàn thiện: 03/4/2019;Ngày duyệt đăng: 07/5/2019IMPROVEMENT OPTIMIZATION ALGORITHMS APPLIED FOR SOLVINGTHE POSTERIOR INFERENCE PROBLEM IN TOPIC MODELSDuong Thi Nhung, Bui Thi Thanh Xuan*University of Information and Communication Technology - TNUABSTRACTThe posterior inference problem for individual text plays an important role in the topic models.However, in solving this problem, it is usually given as a nonconvex optimization problem withthe large datasets, so it is often NP-hard. There are many methods proposed to approximate theposterior inference problem such as Variational Bayes (VB), collapsed variational Bayes (CVB) orcollapsed Gibbs sampling (CGS) methods, but these methods do not guarantee the quality orconvergence rate. Using the idea of Online Frank-Wolfe algorithm (OFW) and Online Maximum aPosteriori Estimation (OPE) algorithm, we propose two efficient algorithms for solving theposterior inference problem in the topic models which are IOPE1 and IOPE2. Using stochasticbounds, stochastic approximation and probability distributions such as uniform distribution,Bernoulli distribution, our improvements are used to develop new effective method for learningLDA from large text collections. Experimental results show that our approaches are often moreeffective than OPE.Keywords: OPE, Online Frank-Wolfe, topic models, online learning, stochastic approximation,nonconvex optimization.Received: 11/3/2019; Revised: 03/4/2019; Approved: 07/5/2019* Corresponding author: Tel: 0902 001581; Email: bttxuan@ictu.edu.vnhttp://jst.tnu.edu.vn; Email: jst@tnu.edu.vn69Dương Thị Nhung và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆ ĐHTN1. Mô hình chủ đề và bài toán suy diễnhậu nghiệmTrong mô hình chủ đề Latent DirichletAllocation (LDA) [1], mỗi văn bản được biểudiễn theo dạng “bag of word”, tức là mỗi vănbản coi như một túi từ, thứ tự các từ trong vănbản không quan trọng.200(07): 69 - 74Trong [6], khi làm việc với mô hình LDA, cáctác giả đưa ra bài toán suy diễn cho văn bản d là:
Tìm kiếm theo từ khóa liên quan:
Suy diễn hậu nghiệm Online Frank-Wolfe Mô hình chủ đề Học trực tuyến Xấp xỉngẫu nhiên Thuật toán Online Maximuma Posterior EstimationGợi ý tài liệu liên quan:
-
KYHTKH CAP KHOA - KHOA SU PHAM (NAM 2022) - 08
12 trang 36 0 0 -
Saeculum - chu kỳ thời gian và gợi ý cho giáo dục đại học
8 trang 27 0 0 -
Gợi ý sản phẩm với tiếp cận khai phá quan điểm
10 trang 22 0 0 -
Thúc đẩy sự hứng thú của sinh viên khi tham gia học tiếng Anh trực tuyến
8 trang 20 0 0 -
26 trang 20 0 0
-
Kỹ năng học trực tuyến hiệu quả cho sinh viên
5 trang 18 0 0 -
Phản hồi của sinh viên chuyên ngữ tiếng Anh về việc học kỹ năng nói qua nền tảng Zoom Meetings
15 trang 17 0 0 -
8 trang 17 0 0
-
Các nhân tố ảnh hưởng đến việc tham gia học trực tuyến của sinh viên kế toán
12 trang 17 0 0 -
Nâng cao chất lượng học trực tuyến cho sinh viên trường Đại học Hà Tĩnh
4 trang 15 0 0