Tư vấn bằng xếp hạng hàm ý thống kê trên dữ liệu không phải nhị phân
Số trang: 6
Loại file: pdf
Dung lượng: 786.16 KB
Lượt xem: 7
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất một mô hình tư vấn lọc cộng tác dựa trên người dùng sử dụng độ đo xếp hạng hàm ý thống kê cho dữ liệu không phải nhị phân để dự đoán các xếp hạng, từ đó gợi ý cho người cần tư vấn những mục dữ liệu phù hợp.
Nội dung trích xuất từ tài liệu:
Tư vấn bằng xếp hạng hàm ý thống kê trên dữ liệu không phải nhị phânISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL. 17, NO. 1.1, 201999TƯ VẤN BẰNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊNDỮ LIỆU KHÔNG PHẢI NHỊ PHÂNSTATISTICAL IMPLICATIVE RATING BASED RECOMMENDATIONUSING NON-BINARY DATAPhan Phương Lan1, Nguyễn Thị Thùy Linh1, Huỳnh Hữu Hưng2, Huỳnh Xuân Hiệp11Trường Đại học Cần Thơ; {pplan, nttlinh, hxhiep}@ctu.edu.vn2Trường Đại học Bách khoa - Đại học Đà Nẵng; hhhung@dut.edu.vnTóm tắt - Bài báo đề xuất một mô hình tư vấn lọc cộng tác dựa trênngười dùng sử dụng độ đo xếp hạng hàm ý thống kê cho dữ liệukhông phải nhị phân để dự đoán các xếp hạng, từ đó gợi ý cho ngườicần tư vấn những mục dữ liệu phù hợp. Hiệu quả của mô hình đềxuất được đánh giá qua sai số của các dự đoán (sai số tuyệt đốitrung bình và căn bậc hai của sai số bình phương trung bình) vàđược so sánh với hiệu quả của các mô hình tư vấn lọc cộng tác dựatrên người dùng sử dụng một trong hai độ đo phổ biến Pearson vàCosine của gói recommenderlab. Kết quả thực nghiệm trên các tậpdữ liệu mẫu của MovieLens và Dating cho thấy, mô hình đề xuất cósai số dự đoán thấp hơn so với các mô hình được so sánh khi số xếphạng biết trước của người cần tư vấn nhiều hơn 2.Abstract - The paper proposes a recommendation model thatuses the user based collaborative filtering approach and thestatistical implicative rating measure on the non-binary data topredict the user ratings, then recommend the suitable items tousers. The performance of the proposed model is evaluated bythe metrics mean absolute error and root mean square error; andcompared to some existing models of recommenderlab package the user based collaborative filtering model using Cosine orPearson. The experimental results on two datasets MovieLensand Dating show that the predictive errors of the proposed modelis lower than that of compared models when the number of knownratings of user (needing the recommendation) is greater than 2.Từ khóa - Hệ tư vấn; độ đo xếp hạng hàm ý thống kê; lọc cộngtác dựa trên người dùng; sai số tuyệt đối trung bình; căn bậc haicủa sai số bình phương trung bình.Key words - recommender system; statistical implicative ratingmeasure; user based collaborative filtering; mean absolute error;root mean square error.1. Đặt vấn đềHệ tư vấn lọc cộng tác dựa trên người dùng (userbased collaborative filtering recommender system) [1]thường sử dụng một độ đo nào đó (như Cosine, Pearson,…)để tìm những người dùng tương tự nhất với người cần tưvấn. Sau đó sử dụng thông tin xếp hạng của những ngườiđó để dự đoán xếp hạng của người cần tư vấn cho các sảnphẩm và gợi ý một danh sách sản phẩm có thể phù hợp vớingười này. Trong khi đó, phương pháp phân tích dữ liệuhàm ý thống kê (statistical implicative analysis) [2] thườngdựa trên các độ đo như chỉ số hàm ý, cường độ hàm ý,cường độ hàm ý có entropy, hay giá trị gắn kết để phát hiệnnhững mối quan hệ mạnh giữa các đối tượng. Vì vậy,những độ đo hàm ý thống kê có thể được sử dụng để pháttriển các hệ tư vấn.Một số nghiên cứu xây dựng hệ tư vấn dựa trên ngườidùng sử dụng độ đo phân tích hàm ý thống kê được trìnhbày trong [3], [4]. [3] đề xuất mô hình tư vấn sử dụng độđo mới dựa trên cường độ hàm ý cho dữ liệu nhị phân; vàthực hiện đánh giá mô hình này theo nhóm đo độ chínhxác của các dự đoán sử dụng (như độ bao phủ - recall, độchính xác – precision, độ đo điều hòa F1). Tuy nhiên, [3]chỉ mới xây dựng và đánh giá mô hình tư vấn cho loại dữliệu nhị phân. [4] đề xuất mô hình tư vấn sử dụng độ đomới dựa trên chỉ số hàm ý và thực hiện đánh giá mô hìnhnày theo nhóm đo độ chính xác của các dự đoán sử dụngvà nhóm đo độ chính xác của các dự đoán xếp hạng (nhưsai số tuyệt đối trung bình - MAE, căn bậc hai của sai sốbình phương trung bình - RMSE). Tuy nhiên, việc đánhgiá theo MAE và RMSE trong [4] là chưa thực sự phùhợp vì công thức chỉ số hàm ý mà các tác giả sử dụng làdành cho dữ liệu nhị phân, nên các giá trị xếp hạng khôngở dạng nhị phân (ví dụ: các giá trị 1 hay 5) đều được tínhnhư nhau (cùng có giá trị 1), từ đó ảnh hưởng đến việc dựđoán xếp hạng. Ngoài ra, việc đánh giá mô hình tư vấn đềxuất trong [4] chưa thực sự đầy đủ: chỉ dựa trên 25 lánggiềng gần nhất và không nêu rõ số xếp hạng biết trướccủa mỗi người cần tư vấn trong tập dữ liệu kiểm thử.Vìvậy, để góp phần giải quyết những tồn tại vừa nêu, trongbài báo này, nhóm tác giả thực hiện xây dựng và đánh giámô hình tư vấn cho loại dữ liệu không phải nhị phân. Cụthể, đề xuất một mô hình tư vấn mới bằng tiếp cận lọccộng tác dựa trên người dùng và một độ đo mới để dựđoán xếp hạng của người cần tư vấn cho một mục dữ liệucụ thể. Độ đo mới được phát triển dựa trên cường độ hàmý của dữ liệu không phải nhị phân.2. Tư vấn bằng xếp hạng hàm ý thống kê trên dữ liệukhông phải nhị phân2.1. Mô hình tư vấn bằng xếp hạng hàm ý thống kê trêndữ liệu không phải nhị phânMô hình tư vấn bằng xếp ...
Nội dung trích xuất từ tài liệu:
Tư vấn bằng xếp hạng hàm ý thống kê trên dữ liệu không phải nhị phânISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, VOL. 17, NO. 1.1, 201999TƯ VẤN BẰNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊNDỮ LIỆU KHÔNG PHẢI NHỊ PHÂNSTATISTICAL IMPLICATIVE RATING BASED RECOMMENDATIONUSING NON-BINARY DATAPhan Phương Lan1, Nguyễn Thị Thùy Linh1, Huỳnh Hữu Hưng2, Huỳnh Xuân Hiệp11Trường Đại học Cần Thơ; {pplan, nttlinh, hxhiep}@ctu.edu.vn2Trường Đại học Bách khoa - Đại học Đà Nẵng; hhhung@dut.edu.vnTóm tắt - Bài báo đề xuất một mô hình tư vấn lọc cộng tác dựa trênngười dùng sử dụng độ đo xếp hạng hàm ý thống kê cho dữ liệukhông phải nhị phân để dự đoán các xếp hạng, từ đó gợi ý cho ngườicần tư vấn những mục dữ liệu phù hợp. Hiệu quả của mô hình đềxuất được đánh giá qua sai số của các dự đoán (sai số tuyệt đốitrung bình và căn bậc hai của sai số bình phương trung bình) vàđược so sánh với hiệu quả của các mô hình tư vấn lọc cộng tác dựatrên người dùng sử dụng một trong hai độ đo phổ biến Pearson vàCosine của gói recommenderlab. Kết quả thực nghiệm trên các tậpdữ liệu mẫu của MovieLens và Dating cho thấy, mô hình đề xuất cósai số dự đoán thấp hơn so với các mô hình được so sánh khi số xếphạng biết trước của người cần tư vấn nhiều hơn 2.Abstract - The paper proposes a recommendation model thatuses the user based collaborative filtering approach and thestatistical implicative rating measure on the non-binary data topredict the user ratings, then recommend the suitable items tousers. The performance of the proposed model is evaluated bythe metrics mean absolute error and root mean square error; andcompared to some existing models of recommenderlab package the user based collaborative filtering model using Cosine orPearson. The experimental results on two datasets MovieLensand Dating show that the predictive errors of the proposed modelis lower than that of compared models when the number of knownratings of user (needing the recommendation) is greater than 2.Từ khóa - Hệ tư vấn; độ đo xếp hạng hàm ý thống kê; lọc cộngtác dựa trên người dùng; sai số tuyệt đối trung bình; căn bậc haicủa sai số bình phương trung bình.Key words - recommender system; statistical implicative ratingmeasure; user based collaborative filtering; mean absolute error;root mean square error.1. Đặt vấn đềHệ tư vấn lọc cộng tác dựa trên người dùng (userbased collaborative filtering recommender system) [1]thường sử dụng một độ đo nào đó (như Cosine, Pearson,…)để tìm những người dùng tương tự nhất với người cần tưvấn. Sau đó sử dụng thông tin xếp hạng của những ngườiđó để dự đoán xếp hạng của người cần tư vấn cho các sảnphẩm và gợi ý một danh sách sản phẩm có thể phù hợp vớingười này. Trong khi đó, phương pháp phân tích dữ liệuhàm ý thống kê (statistical implicative analysis) [2] thườngdựa trên các độ đo như chỉ số hàm ý, cường độ hàm ý,cường độ hàm ý có entropy, hay giá trị gắn kết để phát hiệnnhững mối quan hệ mạnh giữa các đối tượng. Vì vậy,những độ đo hàm ý thống kê có thể được sử dụng để pháttriển các hệ tư vấn.Một số nghiên cứu xây dựng hệ tư vấn dựa trên ngườidùng sử dụng độ đo phân tích hàm ý thống kê được trìnhbày trong [3], [4]. [3] đề xuất mô hình tư vấn sử dụng độđo mới dựa trên cường độ hàm ý cho dữ liệu nhị phân; vàthực hiện đánh giá mô hình này theo nhóm đo độ chínhxác của các dự đoán sử dụng (như độ bao phủ - recall, độchính xác – precision, độ đo điều hòa F1). Tuy nhiên, [3]chỉ mới xây dựng và đánh giá mô hình tư vấn cho loại dữliệu nhị phân. [4] đề xuất mô hình tư vấn sử dụng độ đomới dựa trên chỉ số hàm ý và thực hiện đánh giá mô hìnhnày theo nhóm đo độ chính xác của các dự đoán sử dụngvà nhóm đo độ chính xác của các dự đoán xếp hạng (nhưsai số tuyệt đối trung bình - MAE, căn bậc hai của sai sốbình phương trung bình - RMSE). Tuy nhiên, việc đánhgiá theo MAE và RMSE trong [4] là chưa thực sự phùhợp vì công thức chỉ số hàm ý mà các tác giả sử dụng làdành cho dữ liệu nhị phân, nên các giá trị xếp hạng khôngở dạng nhị phân (ví dụ: các giá trị 1 hay 5) đều được tínhnhư nhau (cùng có giá trị 1), từ đó ảnh hưởng đến việc dựđoán xếp hạng. Ngoài ra, việc đánh giá mô hình tư vấn đềxuất trong [4] chưa thực sự đầy đủ: chỉ dựa trên 25 lánggiềng gần nhất và không nêu rõ số xếp hạng biết trướccủa mỗi người cần tư vấn trong tập dữ liệu kiểm thử.Vìvậy, để góp phần giải quyết những tồn tại vừa nêu, trongbài báo này, nhóm tác giả thực hiện xây dựng và đánh giámô hình tư vấn cho loại dữ liệu không phải nhị phân. Cụthể, đề xuất một mô hình tư vấn mới bằng tiếp cận lọccộng tác dựa trên người dùng và một độ đo mới để dựđoán xếp hạng của người cần tư vấn cho một mục dữ liệucụ thể. Độ đo mới được phát triển dựa trên cường độ hàmý của dữ liệu không phải nhị phân.2. Tư vấn bằng xếp hạng hàm ý thống kê trên dữ liệukhông phải nhị phân2.1. Mô hình tư vấn bằng xếp hạng hàm ý thống kê trêndữ liệu không phải nhị phânMô hình tư vấn bằng xếp ...
Tìm kiếm theo từ khóa liên quan:
Hệ tư vấn Độ đo xếp hạng hàm ý thống kê Lọc cộng tác dựa trên người dùng Sai số tuyệt đối trung bình Căn bậc haicủa sai số bình phương trung bìnhGợi ý tài liệu liên quan:
-
8 trang 30 0 0
-
Dự đoán chỉ số cường độ tín hiệu thu RSSI với các mô hình học máy
6 trang 25 0 0 -
Xác định bước sóng ánh sáng bằng giao thoa vân tròn Newton - Trần Thiên Đức
3 trang 23 0 0 -
Hệ tư vấn dựa trên tiếp cận hàm ý thống kê
12 trang 15 0 0 -
Luận văn: Phát triển một số phương pháp lọc thông tin cho hệ tư vấn
136 trang 11 0 0 -
Một số phương pháp xác định chủ đề của câu văn bản trong hệ tư vấn
12 trang 10 0 0 -
Tư vấn lọc cộng tác dựa trên người sử dụng dùng phép đo gắn kết hàm ý thống kê
9 trang 10 0 0 -
24 trang 10 0 0
-
Luận văn Thạc sĩ Hệ thống thông tin: Khai phá dữ liệu vết duyệt web cho tư vấn cá nhân hóa
49 trang 8 0 0