Danh mục

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc

Số trang: 23      Loại file: pdf      Dung lượng: 497.82 KB      Lượt xem: 10      Lượt tải: 0    
10.10.2023

Hỗ trợ phí lưu trữ khi tải xuống: 14,000 VND Tải xuống file đầy đủ (23 trang) 0
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Cùng tìm hiểu Mô hình ngôn ngữ nằm trong bài 11 thuộc bộ bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 do TS.Nguyễn Bá Ngọc biên soạn. Với các vấn đề chính như: Mô hình sinh; mô hình sinh văn bản; máy một trạng thái; xếp hạng văn bản;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Mô hình ngôn ngữ Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 3 Mô hình sinh văn bản Máy trạng thái hữu hạn I wish I wish I wish I wish . . . Không thể sinh: “wish I wish” hoặc “I wish I”. 4 Máy một trạng tháifrog said that toad likes frog STOPP(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 =0.0000000000048Trong đó STOP là trạng thái dừng. 5 Xếp hạng văn bản “frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 10-12 P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng: d2 d1 6 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 7 Xác suất sinh chuỗi từ Giả thuyết Unigram: Xác suất sinh một từ là độc lập với xác suất sinh các từ còn lại: Giả thuyết đa thức: 8 Xác suất phù hợp truy vấn Query likelihood language model Xếp hạng văn bản theo xác suất P(d|q): xác suất văn bản d phù hợp với truy vấn q. Theo luật Bayes P(q) là hằng số; Giả sử P(d) là đồng nhất;Có thể xếp hạng theo P(q|d): xác suất mô hình văn bản d sinhtruy vấn q. 9 Giả thuyết Unigram và phân bố đa thức ?? !?? = ???1,? ! ???2,? ! … ???? ,? !Trong đó Kq là hệ số đa thức – là hằng số với mộtcâu truy vấn q xác định, có thể bỏ qua trong xếphạng. 10 Ước lượng sử dụng khả năng cực đại Hàm xếp hạng: ???? ?, ? = ?(?|?? ) ?∈? ???? ?, ? = ?(?|?? )???,? ? ??? ?ℎấ? ∈? ???,?Maximum likelihood estimation: ? ? ?? = ?? Nếu d không chứa một từ truy vấn t thì Rank(d, q) = 0 ==> Cần làm mịn để tránh giá trị 0. 11 Mô hình bộ dữ liệu Tương tự văn bản, xác suất bộ dữ liệu sinh từ t: ???,? ? ? ?? = ?? MC là mô hình sinh xác định trên bộ dữ liệu C ?? = ?∈? ?? , là số từ trong bộ dữ liệu 12 Làm mịn tuyến tính Linear interpolation Kết hợp mô hình văn bản và mô hình bộ dữ liệup(t|d) = λp(t|Md) + (1 - λ)P(t|Mc) ???,? ???,???,? =λ + (1 − λ) ?? ?? 13 Tổng hợp các giả thuyết Giả thuyết Unigram: Unigram Assumption Phân bố đa thức: Multinomial distribution Làm mịn tuyến tính: Linear interpolation Ước lượng khả năng cực đại: Maximum Likelihood Estimation (MLE) ???,? ???,? ???? ? ? = λ + (1 − λ) ?? ?? ?∈? 14 Giá trị tham số Sử dụng λ lớn có xu hướng trả về văn bản chứa tất cả từ truy vấn  Hiệu ứng sử dụng điều kiện AND Giá trị λ nhỏ thích hợp cho xử lý truy vấn dài  Hiệu ứng sử dụng điều kiện OR Cần tùy chỉnh λ để đạt được chất lượng cao. 15 Giả thuyết mô hình ngôn ngữ Người dùng có những hình dung nhất định về văn bản cần tìm. Chính mô hình văn bản trong tưởng tượng đó đã làm nảy sinh câu truy vấn. Xác suất p(q|d) thể hiện khả năng văn bản d chính là văn bản trong tưởng tượng của người dùng. 16 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 17 Thử nghiệm của Ponte và Croft Mô hình ngôn ngữ trả về kết quả tốt hơn so với VSM trong thử nghiệm này… …Tuy nhiên chưa đủ cơ sở vững chắc để thay thế VSM trong thực tế ...

Tài liệu được xem nhiều: