Danh mục

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 10 - TS.Nguyễn Bá Ngọc

Số trang: 34      Loại file: pdf      Dung lượng: 684.95 KB      Lượt xem: 9      Lượt tải: 0    
Thư viện của tui

Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài 10 - Mô hình nhị phân độc lập là nội dung chính mà bộ bài giảng Tìm kiếm và trình diễn thông tin hướng đến trình bày với các vấn đề chính về tìm kiếm dựa trên xác suất; xác suất trong tìm kiếm thông tin; mô hình nhị phân độc lập; lý thuyết xác suất căn bản;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 10 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Mô hình nhị phân độc lập Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Tìm kiếm dựa trên xác suất Mô hình nhị phân độc lập Mô hình (Okapi) BM25 3 Xác suất trong tìm kiếm thông tin Không bảo toàn Nhu cầu thông tin Biểu diễn logic ngữ nghĩa người dùng truy vấn So sánh Kết luận phù hợp là không chắc chắn Văn bản Biểu diễn logic văn bản So sánh văn bản và truy vấn dựa trên ký tự.  Kết quả so sánh thể hiện khả năng phù hợp về ngữ nghĩa. Hoàn toàn có thể sử dụng xác suất để định lượng sự không chắc chắn trong tìm kiếm. 4 Tìm kiếm dựa trên xác suất Nguyên tắc xếp hạng xác suất Mô hình nhị phân độc lập BIM Okapi BM25 Mô hình ngôn ngữ. 5 Nguyên tắc Đánh giá trọng số từ:  “Với một truy vấn đã cho, nếu có thể khẳng định một văn bản là phù hợp, thì từ xuất hiện trong văn bản đó phải có trọng số lớn hơn những từ khác.” Thứ tự sắp xếp văn bản là thứ tự giảm dần xác suất phù hợp:  P(R=1|văn bảni, truy vấn) 6Nội dung chính Tìm kiếm dựa trên xác suất Mô hình nhị phân độc lập Mô hình (Okapi) BM25 7 Lý thuyết xác suất căn bản Quy tắc nhân xác suất (luật chuỗi): p ( A, B)  p ( A  B) p( A, B)  p( A | B) p( B) p( A, B)  p( B | A) p( A) Luật Bayes p( B | A) p( A) p( A | B)  p( B) 8 Lý thuyết xác suất căn bản Quy tắc phân tích xác suất (luật phân tích): p( B)  p( A, B)  p( A, B) Kết hợp luật Bayes và luật phân tích  p( B | A)  p ( A | B)    p( A)   X  A, A p( B | X ) p( X )  9 Lý thuyết xác suất căn bản Cơ hội (Odds): p( A) p( A)O( A)   p( A) 1  p( A) Liên hệ giữa O và p 10 Mô hình nhị phân độc lập Nhị phân: Văn bản được biểu diễn như vec-tơ nhị phân đánh dấu sự xuất hiện của từ d  ( x1 ,  , xn )  xi = 1 nếu thuật ngữ thứ i xuất hiện trong d, 0 nếu ngược lại Độc lập: Sự xuất hiện của mỗi từ trong văn bản là độc lập với những từ còn lại Những văn bản khác nhau có thể có cùng một biểu diễn vec-tơ 11 Mô hình nhị phân độc lập (1) Cho truy vấn q  Với mỗi văn bản d cần tính p(R|q, d)  Chỉ quan tâm tới thứ hạng Sử dụng cơ hội (Odds) và luật Bayes p( R  1 | q) p(d | R  1, q) p ( R  1 | q, d ) p(d | q) O ( R | q, d )   p( R  0 | q, d ) p( R  0 | q) p(d | R  0, q) p(d | q) 12 Mô hình nhị phân độc lập (2) p( R  1 | q, d ) p( R  1 | q) p(d | R  1, q)O ( R | q, d )    p( R  0 | q, d ) p( R  0 | q) p(d | R  0, q) Hằng số với một truy vấn Cần xác định Sử dụng giả thuyết độc lập p(d | R  1, q) n p( xi | R  1, q)  p(d | R  0, q) i 1 p( xi | R  0, q) n p( xi | R  1, q) O ( R | q, d )  O ( R | q )   i 1 p( xi | R  0, q) 13 Mô hình nhị phân độc lập (3) n p( xi | R  1, q) O ( R | q, d )  O ( R | q )   i 1 p( xi | R  0, q) Vì xi chỉ nhận giá trị 1 hoặc 0 p( xi  1 | R  1, q) p( ...

Tài liệu được xem nhiều: