Danh mục

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 8 - TS.Nguyễn Bá Ngọc

Số trang: 21      Loại file: pdf      Dung lượng: 421.60 KB      Lượt xem: 9      Lượt tải: 0    
10.10.2023

Hỗ trợ phí lưu trữ khi tải xuống: 9,000 VND Tải xuống file đầy đủ (21 trang) 0
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mời các bạn cùng tìm hiểu đánh giá kết quả tìm kiếm; MRR; NDCG; sự phù hợp đa mức; xây dựng bộ dữ liệu đánh giá;... được trình bày cụ thể trong "Bài giảng Tìm kiếm và trình diễn thông tin: Bài 8" do TS.Nguyễn Bá Ngọc biên soạn.
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 8 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Đánh giá kết quả tìm kiếm Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu MRR MRR – Mean Reciprocal Rank Giả sử chỉ có một văn bản phù hợp duy nhất  Tìm kiếm văn bản đã biết,  Truy vấn định hướng,  Tìm kiếm một sự khẳng định (fact). Thời gian tìm kiếm tỉ lệ với vị trí văn bản phù hợp  Phản ánh thời gian người dùng cần bỏ ra để tìm thấy kết quả phù hợp. 4 MRR Gọi K là vị trí của kết quả đầu tiên phù hợp với q 1 RR (q )  K 1 MRR(Q)    RR(q) | Q | qQ 1 1 MRR(Q)   | Q | qQ K q 5Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu Sự phù hợp đa mức Có thể sử dụng sự phù hợp đa mức để đo mức độ hữu ích của tập kết quả; Người dùng đánh giá cao những kết quả phù hợp được trả về; Vị trí của văn bản trong danh sách kết quả có ảnh hưởng tới sự tiếp nhận của người dùng:  Mức hữu ích bị thuyên giảm khi tăng dần khoảng cách tới đầu danh sách,  Luật giảm giá trị phổ biến là 1/log (rank) 7 DCG DCG – Discounted cumulative gain CG – Cumulative Gain CG tại vị trí xếp hạng n  Đặt mức độ phù hợp của n văn bản là r1, r2, …rn  CG = r1+r2+…rn DCG tại vị trí n  DCG = r1 + r2/log22 + r3/log23 + … rn/log2n Có thể sử dụng hệ cơ số bất kỳ cho hàm log 8 DCG DCG tại vị trí p: Công thức tương đương:  Nhấn mạnh những văn bản có độ phù hợp cao 9 Ví dụ 10 văn bản đã xếp hạng được đánh giá theo thang điểm phù hợp 0-3: 3, 2, 3, 0, 0, 1, 2, 2, 3, 0 DG: 3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0 = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, 0 DCG: 3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61 10 NDCG NDCG – Normalized Discounted Cumulative Gain NDCG tại vị trí n  Chia DCG tại vị trí n cho DCG tại vị trí n của xếp hạng mẫu  Xếp hạng mẫu là thứ tự giảm dần mức độ phù hợp. Giá trị chuẩn hóa phù hợp để so sánh những xếp hạng với số lượng văn bản phù hợp khác nhau NDCG là độ đo phổ biến trong đánh giá kết quả tìm kiếm trên Web 11 Ví dụ 4 văn bản: d1, d2, d3, d4 Giá trị mẫu Hàm xếp hạng1 Hàm xếp hạng2 i Thứ tự Thứ tự Thứ tự ri ri ri văn bản văn bản văn bản 1 d4 2 d3 2 d3 2 2 d3 2 d4 2 d2 1 3 d2 1 d2 1 d4 2 4 d1 0 d1 0 d1 0 NDCGGT=1.00 NDCGRF1=1.00 NDCGRF2=0.9203  2 1 0   2 1 0 DCGGT  2       4.6309 DCG RF 1  2       4.6309  log 2 2 log 2 3 log 2 4   log 2 2 log 2 3 log 2 4   1 2 0 DCGRF 2  2       4.2619 MaxDCG  DCGGT  4.6309  log2 2 log 2 3 log 2 4  12Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu đánh giá Đánh giá phù hợp Sự phù hợp là rất trừu tượng  Người dùng thường kết luận văn bản có phù hợp hay không sau khi đọc,  Những người dùng khác nhau có thể có đánh giá khác nhau về sự phù hợp của văn bản. Cần sử dụng chung một định nghĩa tường minh của sự phù hợp cho cả nhóm xây dựng tập kết quả mẫu. 14 Ví dụ một truy vấn trong TREC Number: 351 Falkland petroleum exploration Description:What information is available on petroleum exploration in the South Atlanticnear the Falkland islands? ...

Tài liệu được xem nhiều: