Sử dụng ngẫu nhiên hóa để nâng cao chất lượng mô hình CTMP

Số trang: 3 Loại file: pdf Dung lượng: 608.97 KB Lượt xem: 7 Lượt tải: 0

Jamona

Phí lưu trữ: miễn phí

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Với những thành công của việc ngẫu nhiên trong học máy, chúng tôi có ý tưởng sử dụng chiến lược ngẫu nhiên khi thiết kế thuật toán học tham số nhằm nâng cao chất lượng học của CTMP so với mô hình gốc ban đầu. Minh họa sự hiệu quả của cải tiến, chúng tôi tiến hành thực nghiệm trên hai bộ dữ liệu CiteUlike và Movielens 1M.
Nội dung trích xuất từ tài liệu:
Sử dụng ngẫu nhiên hóa để nâng cao chất lượng mô hình CTMP Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 SỬ DỤNG NGẪU NHIÊN HÓA ĐỂ NÂNG CAO CHẤT LƯỢNG MÔ HÌNH CTMP Bùi Thị Thanh Xuân Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn1. GIỚI THIỆU Xếp hạng được biểu thị bằng ma trận R  {ruj }U  J cho biết xếp hạng mà người dùng Hệ thống gợi ý (Recommendation System)đã và đang được ứng dụng trong rất nhiều lĩnh u đã đưa ra cho mục j. Mỗi xếp hạng ruj cóvực khác nhau như thương mại điện tử, giải trí thể có giá trị 1 (cho biết rằng người dùng u(gợi ý phim ảnh, bài hát,…), giáo dục đào tạo thích sản phẩm j) hoặc 0 (chỉ ra rằng người(gợi ý nguồn tài nguyên học tập, nghiên dùng u không thích điều đó hoặc đơn giản làcứu,..). Mô hình CTMP (Collaborative Topic không biết về mặt hàng j), K là số chủ đề,Model for Poisson distributed ratings) [2] dựa β  { k }K V biểu diễn chủ đề. Mỗi chủ đề làtrên ý tưởng kết hợp hai mô hình CTR một phân phối trên bộ từ điển và nó được(Collaborative Topic Regression) [4] và CTPF biểu diễn bởi véc tơ:(Collaborative Topic Poisson Factorization) V[1]. Mô hình CTMP là mô hình gợi ý xây  k  { k }V 1 (  k  1,  k  0)  1dựng dựa trên ý tưởng kết hợp sử dụng nộidung mô tả sản phẩm trước khi đưa vào phân 1: j biểu diễn nội dung sản phẩm ở mứcrã Poisson. Việc thông tin mô tả sản phẩm của chủ đề. Véc tơ  j  { jk }K 1 là một phân phốimô hình CTMP được khai thác thông qua mô Khình LDA và tận dụng những ưu điểm của trên các chủ đề (   jk  1, jk  0 ), là một biểu k 1phương pháp phân rã Poisson phân cấp. diễn khác của nội dung sản phẩm trong Với những thành công của việc ngẫu nhiên không gian chủ đề. Mô hình sinh của CTMPtrong học máy, chúng tôi có ý tưởng sử dụng cụ thể như sau:chiến lược ngẫu nhiên khi thiết kế thuật toán Với mỗi người dùng u, lấy u trong đóhọc tham số nhằm nâng cao chất lượng học uk ~ Gamma(e, f ).của CTMP so với mô hình gốc ban đầu. Minhhọa sự hiệu quả của cải tiến, chúng tôi tiến Với mỗi item j: Lấy véc tơ tỷ lệ chủ đềhành thực nghiệm trên hai bộ dữ liệu θ j ~ Dirichlet( ).CiteUlike và Movielens 1M. Với từ thứ n của sản phẩm j: Lấy chỉ số chủ đề z jn ~ Categorical(θ j ).2. PHƯƠNG PHÁP NGHIÊN CỨU Lấy w jn ~ Categorical(  z ). jn Chúng tôi sử dụng các ký hiệu: U, J là số Lấy nhân tố ẩn  j ~  (θ j , λ 1 K ) , mỗi cặplượng người dùng và sản phẩm tương ứngtrong bộ dữ liệu. w j  {cj } 1 biểu diễn bag- V user-item (u, j), lấy ruj ~ Poisson(u  j ) . Tof-word cho item j trong đó cj biểu thị tần Học CTMP: Tính toán chính xác phân phối hậu nghiệm của các biến ẩn:suất của từ  trong nội dung/mô tả của mục j. P(θ,  , , D |  , β, λ , e, f )V là kích thước từ điển của nội dung sản P(θ,  , | D,  , β, λ , e, f )  P ( D |  ,  , λ , e, f )phẩm. D  {ruj , w j }U,1, j 1 là bộ dữ liệu xếp hạng u J là không khả thi, nên đòi hỏi suy diễn chínhngầm định ruj và nội dung mục ( w j ) . xác là không thể. Có hai cách tiếp cận chính: 93Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8ước lượng điểm bằng cách ước lượng tối đa Theo [2], tính ước lượng điểm của tỷ lệxác suất hậu nghiệm MAP hoặc học Bayes chủ đề địa phương  j từ hàm mục tiêu:đầy đủ bằng các phương pháp như lấy mẫu ...