Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc
Số trang: 23
Loại file: pdf
Dung lượng: 497.82 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Cùng tìm hiểu Mô hình ngôn ngữ nằm trong bài 11 thuộc bộ bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 do TS.Nguyễn Bá Ngọc biên soạn. Với các vấn đề chính như: Mô hình sinh; mô hình sinh văn bản; máy một trạng thái; xếp hạng văn bản;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Mô hình ngôn ngữ Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 3 Mô hình sinh văn bản Máy trạng thái hữu hạn I wish I wish I wish I wish . . . Không thể sinh: “wish I wish” hoặc “I wish I”. 4 Máy một trạng tháifrog said that toad likes frog STOPP(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 =0.0000000000048Trong đó STOP là trạng thái dừng. 5 Xếp hạng văn bản “frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 10-12 P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng: d2 d1 6 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 7 Xác suất sinh chuỗi từ Giả thuyết Unigram: Xác suất sinh một từ là độc lập với xác suất sinh các từ còn lại: Giả thuyết đa thức: 8 Xác suất phù hợp truy vấn Query likelihood language model Xếp hạng văn bản theo xác suất P(d|q): xác suất văn bản d phù hợp với truy vấn q. Theo luật Bayes P(q) là hằng số; Giả sử P(d) là đồng nhất;Có thể xếp hạng theo P(q|d): xác suất mô hình văn bản d sinhtruy vấn q. 9 Giả thuyết Unigram và phân bố đa thức ?? !?? = ???1,? ! ???2,? ! … ???? ,? !Trong đó Kq là hệ số đa thức – là hằng số với mộtcâu truy vấn q xác định, có thể bỏ qua trong xếphạng. 10 Ước lượng sử dụng khả năng cực đại Hàm xếp hạng: ???? ?, ? = ?(?|?? ) ?∈? ???? ?, ? = ?(?|?? )???,? ? ??? ?ℎấ? ∈? ???,?Maximum likelihood estimation: ? ? ?? = ?? Nếu d không chứa một từ truy vấn t thì Rank(d, q) = 0 ==> Cần làm mịn để tránh giá trị 0. 11 Mô hình bộ dữ liệu Tương tự văn bản, xác suất bộ dữ liệu sinh từ t: ???,? ? ? ?? = ?? MC là mô hình sinh xác định trên bộ dữ liệu C ?? = ?∈? ?? , là số từ trong bộ dữ liệu 12 Làm mịn tuyến tính Linear interpolation Kết hợp mô hình văn bản và mô hình bộ dữ liệup(t|d) = λp(t|Md) + (1 - λ)P(t|Mc) ???,? ???,???,? =λ + (1 − λ) ?? ?? 13 Tổng hợp các giả thuyết Giả thuyết Unigram: Unigram Assumption Phân bố đa thức: Multinomial distribution Làm mịn tuyến tính: Linear interpolation Ước lượng khả năng cực đại: Maximum Likelihood Estimation (MLE) ???,? ???,? ???? ? ? = λ + (1 − λ) ?? ?? ?∈? 14 Giá trị tham số Sử dụng λ lớn có xu hướng trả về văn bản chứa tất cả từ truy vấn Hiệu ứng sử dụng điều kiện AND Giá trị λ nhỏ thích hợp cho xử lý truy vấn dài Hiệu ứng sử dụng điều kiện OR Cần tùy chỉnh λ để đạt được chất lượng cao. 15 Giả thuyết mô hình ngôn ngữ Người dùng có những hình dung nhất định về văn bản cần tìm. Chính mô hình văn bản trong tưởng tượng đó đã làm nảy sinh câu truy vấn. Xác suất p(q|d) thể hiện khả năng văn bản d chính là văn bản trong tưởng tượng của người dùng. 16 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 17 Thử nghiệm của Ponte và Croft Mô hình ngôn ngữ trả về kết quả tốt hơn so với VSM trong thử nghiệm này… …Tuy nhiên chưa đủ cơ sở vững chắc để thay thế VSM trong thực tế ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 11 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Mô hình ngôn ngữ Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 3 Mô hình sinh văn bản Máy trạng thái hữu hạn I wish I wish I wish I wish . . . Không thể sinh: “wish I wish” hoặc “I wish I”. 4 Máy một trạng tháifrog said that toad likes frog STOPP(string) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 =0.0000000000048Trong đó STOP là trạng thái dừng. 5 Xếp hạng văn bản “frog said that toad likes frog” STOP P(string|Md1) = 0.01 · 0.03 · 0.04 · 0.01 · 0.02 · 0.01 · 0.2 = 0.0000000000048 = 4.8 · 10-12 P(string|Md2 ) = 0.01 · 0.03 · 0.05 · 0.02 · 0.02 · 0.01 · 0.2 = 0.0000000000120 = 12 · 10-12 P(string|Md2 ) > P(string|Md1 ) Thứ tự xếp hạng: d2 d1 6 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 7 Xác suất sinh chuỗi từ Giả thuyết Unigram: Xác suất sinh một từ là độc lập với xác suất sinh các từ còn lại: Giả thuyết đa thức: 8 Xác suất phù hợp truy vấn Query likelihood language model Xếp hạng văn bản theo xác suất P(d|q): xác suất văn bản d phù hợp với truy vấn q. Theo luật Bayes P(q) là hằng số; Giả sử P(d) là đồng nhất;Có thể xếp hạng theo P(q|d): xác suất mô hình văn bản d sinhtruy vấn q. 9 Giả thuyết Unigram và phân bố đa thức ?? !?? = ???1,? ! ???2,? ! … ???? ,? !Trong đó Kq là hệ số đa thức – là hằng số với mộtcâu truy vấn q xác định, có thể bỏ qua trong xếphạng. 10 Ước lượng sử dụng khả năng cực đại Hàm xếp hạng: ???? ?, ? = ?(?|?? ) ?∈? ???? ?, ? = ?(?|?? )???,? ? ??? ?ℎấ? ∈? ???,?Maximum likelihood estimation: ? ? ?? = ?? Nếu d không chứa một từ truy vấn t thì Rank(d, q) = 0 ==> Cần làm mịn để tránh giá trị 0. 11 Mô hình bộ dữ liệu Tương tự văn bản, xác suất bộ dữ liệu sinh từ t: ???,? ? ? ?? = ?? MC là mô hình sinh xác định trên bộ dữ liệu C ?? = ?∈? ?? , là số từ trong bộ dữ liệu 12 Làm mịn tuyến tính Linear interpolation Kết hợp mô hình văn bản và mô hình bộ dữ liệup(t|d) = λp(t|Md) + (1 - λ)P(t|Mc) ???,? ???,???,? =λ + (1 − λ) ?? ?? 13 Tổng hợp các giả thuyết Giả thuyết Unigram: Unigram Assumption Phân bố đa thức: Multinomial distribution Làm mịn tuyến tính: Linear interpolation Ước lượng khả năng cực đại: Maximum Likelihood Estimation (MLE) ???,? ???,? ???? ? ? = λ + (1 − λ) ?? ?? ?∈? 14 Giá trị tham số Sử dụng λ lớn có xu hướng trả về văn bản chứa tất cả từ truy vấn Hiệu ứng sử dụng điều kiện AND Giá trị λ nhỏ thích hợp cho xử lý truy vấn dài Hiệu ứng sử dụng điều kiện OR Cần tùy chỉnh λ để đạt được chất lượng cao. 15 Giả thuyết mô hình ngôn ngữ Người dùng có những hình dung nhất định về văn bản cần tìm. Chính mô hình văn bản trong tưởng tượng đó đã làm nảy sinh câu truy vấn. Xác suất p(q|d) thể hiện khả năng văn bản d chính là văn bản trong tưởng tượng của người dùng. 16 Nội dung chính Mô hình sinh Các giả thuyết cơ bản Thử nghiệm 17 Thử nghiệm của Ponte và Croft Mô hình ngôn ngữ trả về kết quả tốt hơn so với VSM trong thử nghiệm này… …Tuy nhiên chưa đủ cơ sở vững chắc để thay thế VSM trong thực tế ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Mô hình ngôn ngữ Trình diễn thông tin Mô hình sinh Mô hình sinh văn bảnTài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 324 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 256 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 234 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 219 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
62 trang 209 2 0
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 189 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 167 0 0 -
65 trang 165 0 0