CF

Số trang: 24 Loại file: doc Dung lượng: 795.50 KB Lượt xem: 9 Lượt tải: 0

Hoai.2512

Phí lưu trữ: 11,000 VND

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong cuộc sống hàng ngày, mọi người thường tin vào những lời giới thiệu từ những ngườikhác nhau thông qua lời nói, thư từ văn bản, các bản ghi mới có được ở các phương tiện thông tinđại chúng, ở các cuộc điều tra nói chung, các hướng dẫn và v.v.. Đó là lý do tại sao các hệ tư vấn rađời, với mục đích hỗ trợ và làm tăng thêm tiến trình xã hội tự nhiên này, hệ tư vấn giúp mỗi ngườicó thể chọn lọc một cách kỹ lưỡng thông qua những quyển sách, bài báo, trang web,...
Nội dung trích xuất từ tài liệu:
CF CF Là một trong những phương pháp xây dựng hệ thống tư vấn thành công nhất, CF thông qua cácthị hiếu đã được biết đến của một nhóm người dùng để đưa các t ư v ấn ho ặc d ự đoán v ề th ị hi ếuchưa biết cho một số người dùng khác.1. Giới thiệu Trong cuộc sống hàng ngày, mọi người thường tin vào những lời gi ới thi ệu t ừ những ng ườikhác nhau thông qua lời nói, thư từ văn bản, các bản ghi m ới có đ ược ở các ph ương ti ện thông tinđại chúng, ở các cuộc điều tra nói chung, các hướng dẫn và v.v.. Đó là lý do t ại sao các h ệ t ư v ấn rađời, với mục đích hỗ trợ và làm tăng thêm tiến trình xã h ội t ự nhiên này, h ệ t ư v ấn giúp m ỗi ng ườicó thể chọn lọc một cách kỹ lưỡng thông qua những quyển sách, bài báo, trang web, phim, nhà hàng,truyện cười, các sản phẩm…để tìm ra thông tin hữu ích và đáng chú ý nhất cho h ọ. Nhà phát tri ểncủa một số những hệ tư vấn đầu trong tiên là Trapestry [1]([1]D.Goldberg,D.Nichols,B.M.Oki,andD.Terry,“Using collaborative filtering to weave an informationtapestry,”CommunicationsofACM,vol.35,no.12,pp.61–70,1992.) (các hệ tư vấn khác gồm tư vấn dựatrên luật,, và tùy biến theo khách hàng) đưa ra thuật ngữ “Collaborative Filtering ( CF_ Lọc cộngtác)”. Giả thuyết cơ bản của CF là nếu có X và Y người dùng đánh giá cho n item t ương t ự nhau,hoặc có hành vi tương tự nhau (ví dụ, mua, xem, nghe,…) thì h ọ sẽ có đánh giá ho ặc hành đ ộng tương tựtrong các item khác cũng nhau [3_[3]K.Goldberg,T.Roeder,D.Gupta,andC.Perkins,“Eigentaste: a constant time collaborative filteringalgorithm”, InformationRetrieval,vol.4,no.2,pp.133–151,2001.] Kỹ thuật CF sử dụng cơ sở dữ liệu về sở thích của người dùng đ ối v ới các item đ ể d ự đoáncác chủ để hoặc sản phẩm thêm vào cho một người dùng mới có cùng sở thích. Trong ng ữ c ảnh c ụthể của CF, có một danh sách của m người dùng {u1, u2, …,um} và một danh sách của n item {i1, i2,…,in}, và mỗi người dùng ui có một danh sách item Iui đã được đánh giá hoặc suy luận được thôngqua các hành vi của họ. Các đánh giá này có thể là các thể hiện tường minh ví d ụ n ằm trong kho ảng1 – 5 (ghét – rất thích), hoặc không tường minh, như vi ệc mua bán ho ặc click – through ( kích ho ạtvào một trang web nào đó - thể hiện c ủa m ột vài người click trong nh ững b ản qu ảng cáo trêninternet). Cho ví dụ, chúng ta có thể chuyển đổi danh sách người dùng và các b ộ phim h ọ thích ho ặckhông thích (Bảng 1(a)) với ma trận trọng số user – item (Bảng 1 (b)), trong đó Tony là m ột ng ườidùng chính mà chúng ta muốn tư vấn. Ở đây một vài giá trị trong ma tr ận b ị thi ếu do nh ững ng ườidùng này không đưa ra đánh giá của mình cho những item đó. Có rất nhiều thách thức đối với các nhiệm vụ của công lọc cộng tác (Phần 2). Bởi vì thuật toánCF yêu cầu phải có khả năng giải quyết vấn đề thưa thớt dữ li ệu cao, t ỷ l ệ v ới s ố ng ười dùng vàitem tăng lên, đưa ra những tư vấn thích h ợp trong th ời gian ngắn, và gi ải quy ết đ ược các v ấn đ ềkhác như tính đồng nghĩa (xu hướng giống nhau hoặc item tương tự nhua nhưng khác nhau về tên),các tấn công khác, dữ liệu bị nhiễu và các vấn đề về bảo mật. Các hệ lọc cộng tác ra đời sớm như GroupLens [5] P.Resnick, N.Iacovou, M.Suchak,.Bergstrom, and J.Riedl, “Grouplens: an open architecture for collaborative filtering of netnews,” inProceedings of the ACM Conferenceon Computer Supported Cooperative Work, pp. 175–186, NewYork, NY, USA,1994.], sử dụng dữ liệu đánh giá của người dùng đ ể tính toán đ ộ t ương t ự ho ặctrọng số giữa các người dùng hoặc item và đưa ra dự đoán, tư vấn theo những giá trị tương tự đó. Ởđó sử dụng phương thức CF dựa trên bộ nhớ (Phần 3) và sau này đ ược tri ển khai thành các h ệthống thương mại đánh chú ý như http://www.amazon.com (như hình 1) và Barnes và Noble vì chúngdễ cài đặt và đưa ra hiệu quả cao. Tính suy biến (Customization) trong h ệ CF cho m ỗi ng ười dùnggiảm dần theo những nỗ lực tìm kiếm của người dùng. Nó cũng đảm b ảo đ ược s ố l ượng kháchhàng trung thành tăng lên, tỷ lệ cao hơn, tổng thu nhập quảng cao nhi ều h ơn và nhi ều h ứa h ẹn ởphía trước đang mở ra. Tuy nhiên có một vài giới hạn trong kỹ thuật CF dựa trên bộ nh ớ, như trên th ực t ế giá tr ịtương tự dựa trên các item nói chung vì vậy khi dữ liệu ít thì nó không còn đáng tin cậy nữa. Để đạt được hiệu suất dự đoán tốt hơn và khắc phục những thi ếu sót c ủa các thu ật toán CFdựa trên bộ nhớ, phương pháp CF dựa trên mô hình ra đời. K ỹ thuật này (Phần 4) s ử d ụng d ữ li ệuđánh giá thuần túy để ước lượng hoặc học mô hình nhằm đ ưa ra d ự đoán [[9] J. Breese, D.Heckerman, and C. Kadie, “Empirical analysis of predictive algorithms for collaborative filtering,” inProceedings of the 14th Conference on Uncertainty in Artificial Intelligence(UAI’98),1998.]). Mô hìnhcó thể được xem là data mining hoặc thuật toán học máy và kỹ thuật được biết đến nhiều nhất gồmcó mô hình mạng Bayes, mô hình Clustering và mô hình Latent semantic [7 _ [7] T. Hofmann, “Latentsemantic models for collaborative filtering,” ACM Transactions on Information Systems, vol. 22,no.1,pp.89–115,2004.) Bên cạnh lọc cộng tác, lọc dựa trên nội dung cũng là một mảng quan trọng khác của hệ tư vấn.Hệ tư vấn dựa trên nội dung đưa ra các tự vấn thông qua vi ệc phân tích ngữ nghĩa c ủa thông tin vàtìm ra quy luật trong nội dung đó. Điểm khác nhau c ơ bản gi ữa CF và các h ệ t ư v ấn d ựa trên n ộidung là CF chỉ sử dụng dữ liệu đánh giá giữa user – item để đưa ra dự đoán, trong khi hệ tư vấn dựatrên nội dung lại dựa trên các đặc trưng c ủa người dùng và item để d ự đoán [15_ L. Si and R. Jin,“Flexible mixture model for collaborative filtering,” in ...