Bài giảng Tìm kiếm và trình diễn thông tin: Bài 10 - TS.Nguyễn Bá Ngọc
Số trang: 34
Loại file: pdf
Dung lượng: 684.95 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài 10 - Mô hình nhị phân độc lập là nội dung chính mà bộ bài giảng Tìm kiếm và trình diễn thông tin hướng đến trình bày với các vấn đề chính về tìm kiếm dựa trên xác suất; xác suất trong tìm kiếm thông tin; mô hình nhị phân độc lập; lý thuyết xác suất căn bản;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 10 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Mô hình nhị phân độc lập Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Tìm kiếm dựa trên xác suất Mô hình nhị phân độc lập Mô hình (Okapi) BM25 3 Xác suất trong tìm kiếm thông tin Không bảo toàn Nhu cầu thông tin Biểu diễn logic ngữ nghĩa người dùng truy vấn So sánh Kết luận phù hợp là không chắc chắn Văn bản Biểu diễn logic văn bản So sánh văn bản và truy vấn dựa trên ký tự. Kết quả so sánh thể hiện khả năng phù hợp về ngữ nghĩa. Hoàn toàn có thể sử dụng xác suất để định lượng sự không chắc chắn trong tìm kiếm. 4 Tìm kiếm dựa trên xác suất Nguyên tắc xếp hạng xác suất Mô hình nhị phân độc lập BIM Okapi BM25 Mô hình ngôn ngữ. 5 Nguyên tắc Đánh giá trọng số từ: “Với một truy vấn đã cho, nếu có thể khẳng định một văn bản là phù hợp, thì từ xuất hiện trong văn bản đó phải có trọng số lớn hơn những từ khác.” Thứ tự sắp xếp văn bản là thứ tự giảm dần xác suất phù hợp: P(R=1|văn bảni, truy vấn) 6Nội dung chính Tìm kiếm dựa trên xác suất Mô hình nhị phân độc lập Mô hình (Okapi) BM25 7 Lý thuyết xác suất căn bản Quy tắc nhân xác suất (luật chuỗi): p ( A, B) p ( A B) p( A, B) p( A | B) p( B) p( A, B) p( B | A) p( A) Luật Bayes p( B | A) p( A) p( A | B) p( B) 8 Lý thuyết xác suất căn bản Quy tắc phân tích xác suất (luật phân tích): p( B) p( A, B) p( A, B) Kết hợp luật Bayes và luật phân tích p( B | A) p ( A | B) p( A) X A, A p( B | X ) p( X ) 9 Lý thuyết xác suất căn bản Cơ hội (Odds): p( A) p( A)O( A) p( A) 1 p( A) Liên hệ giữa O và p 10 Mô hình nhị phân độc lập Nhị phân: Văn bản được biểu diễn như vec-tơ nhị phân đánh dấu sự xuất hiện của từ d ( x1 , , xn ) xi = 1 nếu thuật ngữ thứ i xuất hiện trong d, 0 nếu ngược lại Độc lập: Sự xuất hiện của mỗi từ trong văn bản là độc lập với những từ còn lại Những văn bản khác nhau có thể có cùng một biểu diễn vec-tơ 11 Mô hình nhị phân độc lập (1) Cho truy vấn q Với mỗi văn bản d cần tính p(R|q, d) Chỉ quan tâm tới thứ hạng Sử dụng cơ hội (Odds) và luật Bayes p( R 1 | q) p(d | R 1, q) p ( R 1 | q, d ) p(d | q) O ( R | q, d ) p( R 0 | q, d ) p( R 0 | q) p(d | R 0, q) p(d | q) 12 Mô hình nhị phân độc lập (2) p( R 1 | q, d ) p( R 1 | q) p(d | R 1, q)O ( R | q, d ) p( R 0 | q, d ) p( R 0 | q) p(d | R 0, q) Hằng số với một truy vấn Cần xác định Sử dụng giả thuyết độc lập p(d | R 1, q) n p( xi | R 1, q) p(d | R 0, q) i 1 p( xi | R 0, q) n p( xi | R 1, q) O ( R | q, d ) O ( R | q ) i 1 p( xi | R 0, q) 13 Mô hình nhị phân độc lập (3) n p( xi | R 1, q) O ( R | q, d ) O ( R | q ) i 1 p( xi | R 0, q) Vì xi chỉ nhận giá trị 1 hoặc 0 p( xi 1 | R 1, q) p( ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 10 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Mô hình nhị phân độc lập Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Tìm kiếm dựa trên xác suất Mô hình nhị phân độc lập Mô hình (Okapi) BM25 3 Xác suất trong tìm kiếm thông tin Không bảo toàn Nhu cầu thông tin Biểu diễn logic ngữ nghĩa người dùng truy vấn So sánh Kết luận phù hợp là không chắc chắn Văn bản Biểu diễn logic văn bản So sánh văn bản và truy vấn dựa trên ký tự. Kết quả so sánh thể hiện khả năng phù hợp về ngữ nghĩa. Hoàn toàn có thể sử dụng xác suất để định lượng sự không chắc chắn trong tìm kiếm. 4 Tìm kiếm dựa trên xác suất Nguyên tắc xếp hạng xác suất Mô hình nhị phân độc lập BIM Okapi BM25 Mô hình ngôn ngữ. 5 Nguyên tắc Đánh giá trọng số từ: “Với một truy vấn đã cho, nếu có thể khẳng định một văn bản là phù hợp, thì từ xuất hiện trong văn bản đó phải có trọng số lớn hơn những từ khác.” Thứ tự sắp xếp văn bản là thứ tự giảm dần xác suất phù hợp: P(R=1|văn bảni, truy vấn) 6Nội dung chính Tìm kiếm dựa trên xác suất Mô hình nhị phân độc lập Mô hình (Okapi) BM25 7 Lý thuyết xác suất căn bản Quy tắc nhân xác suất (luật chuỗi): p ( A, B) p ( A B) p( A, B) p( A | B) p( B) p( A, B) p( B | A) p( A) Luật Bayes p( B | A) p( A) p( A | B) p( B) 8 Lý thuyết xác suất căn bản Quy tắc phân tích xác suất (luật phân tích): p( B) p( A, B) p( A, B) Kết hợp luật Bayes và luật phân tích p( B | A) p ( A | B) p( A) X A, A p( B | X ) p( X ) 9 Lý thuyết xác suất căn bản Cơ hội (Odds): p( A) p( A)O( A) p( A) 1 p( A) Liên hệ giữa O và p 10 Mô hình nhị phân độc lập Nhị phân: Văn bản được biểu diễn như vec-tơ nhị phân đánh dấu sự xuất hiện của từ d ( x1 , , xn ) xi = 1 nếu thuật ngữ thứ i xuất hiện trong d, 0 nếu ngược lại Độc lập: Sự xuất hiện của mỗi từ trong văn bản là độc lập với những từ còn lại Những văn bản khác nhau có thể có cùng một biểu diễn vec-tơ 11 Mô hình nhị phân độc lập (1) Cho truy vấn q Với mỗi văn bản d cần tính p(R|q, d) Chỉ quan tâm tới thứ hạng Sử dụng cơ hội (Odds) và luật Bayes p( R 1 | q) p(d | R 1, q) p ( R 1 | q, d ) p(d | q) O ( R | q, d ) p( R 0 | q, d ) p( R 0 | q) p(d | R 0, q) p(d | q) 12 Mô hình nhị phân độc lập (2) p( R 1 | q, d ) p( R 1 | q) p(d | R 1, q)O ( R | q, d ) p( R 0 | q, d ) p( R 0 | q) p(d | R 0, q) Hằng số với một truy vấn Cần xác định Sử dụng giả thuyết độc lập p(d | R 1, q) n p( xi | R 1, q) p(d | R 0, q) i 1 p( xi | R 0, q) n p( xi | R 1, q) O ( R | q, d ) O ( R | q ) i 1 p( xi | R 0, q) 13 Mô hình nhị phân độc lập (3) n p( xi | R 1, q) O ( R | q, d ) O ( R | q ) i 1 p( xi | R 0, q) Vì xi chỉ nhận giá trị 1 hoặc 0 p( xi 1 | R 1, q) p( ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Tìm kiếm dựa trên xác suất Xác suất trong tìm kiếm thông tin Mô hình nhị phân độc lậpGợi ý tài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 314 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 240 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 230 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 212 0 0 -
62 trang 206 2 0
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 183 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 166 0 0 -
Luận văn Thạc sĩ Kỹ thuật: Ứng dụng hỗ trợ tra cứu kiến thức toán trung học phổ thông
78 trang 157 0 0