Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 - TS.Nguyễn Bá Ngọc
Số trang: 37
Loại file: pdf
Dung lượng: 687.90 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 sẽ giới thiệu tới các bạn bài học về cài đặt mô hình không gian vec-tơ với các vấn đề chính như: Các bước cơ bản; tính độ tương đồng cosine; lựa chọn top K theo cosine; tăng tốc thực hiện truy vấn; giản lược quá trình tính cosine: Đặt vấn đề;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Cài đặt mô hình không gian vec-tơ Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 3 Sec. 6.3.3Tính độ tương đồng cosine 4 Sec. 7.1 Lựa chọn top K theo cosine Sử dụng cấu trúc Heap nhị phân cực đại: Cây nhị phân, trong đó giá trị của nút gốc luôn lớn hơn hoặc bằng nút con Nhanh hơn sắp xếp 1 .9 .3 .3 .8 .1 .1 5 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 6 Sec. 7.1.1 Giản lược quá trình tính cosine: Đặt vấn đề Chiếm khối lượng tính toán lớn nhất trong xếp hạng Cần phải xác định chính xác top K? Độ tương đồng cosine chỉ thể hiện khả năng phù hợp. Một văn bản không nằm trong top K vẫn có khả năng là văn bản phù hợp. Có thể giảm khối lượng tính toán nếu chấp nhận tập gần với K văn bản có cosine cao nhất. 7 Sec. 7.1.1 Giản lược quá trình tính cosine: Giải pháp Xác định tập A thỏa mãn: K < |A| Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 9 Sec. 7.1.2 Lọc theo từ truy vấn Các phương pháp lọc cơ bản: Chỉ xét từ truy vấn có idf cao; Chỉ xét các văn bản chứa ít nhất một từ truy vấn; Chỉ xét các văn bản có chứa nhiều từ truy vấn. 10 Sec. 7.1.2 Từ truy vấn với idf cao Ví dụ, với truy vấn catcher in the rye Chỉ sử dụng catcher và rye Giả thuyết: in và the có idf thấp và không ảnh hưởng nhiều tới xếp hạng theo VSM. Lợi ích: Các từ có idf thấp có danh sách thẻ định vị dài giúp giảm thiều đáng kể khối lượng tính toán. 11 Sec. 7.1.2 Chứa nhiều từ truy vấn Văn bản bất kỳ với ít nhất một từ truy vấn đều có khả năng nằm trong danh sách top K. Với truy vấn đa từ chỉ xếp hạng những văn bản chứa nhiều từ truy vấn Có hiệu ứng gần với điều kiện AND trong mô hình Boolean. 12 Sec. 7.1.2 Ví dụ, nếu chỉ xét văn bản có tối thiểu 3 từ truy vấn T1 3 4 8 16 32 64 128 T2 2 4 8 16 32 64 128 T3 1 2 3 5 8 13 21 34 T4 13 16 32Chỉ xếp hạng các văn bản 8, 16 và 32. 13 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 14 Sec. 7.1.3 Danh sách hợp t Xác định trước các danh sách r văn bản có trọng số cao nhất từ các thẻ định vị của t Gọi đây là danh sách hợp t. champion list, top docs for t. Cần lựa chọn r ở thời điểm xây dựng chỉ mục Như vậy có khả năng r < K Khi thực hiện truy vấn ưu tiên lựa chọn top-K từ những văn bản này. 15 Sec. 7.1.4 Đại lượng độc lập truy vấn Độ tin cậy, sẽ ký hiệu là g(d) Những tín hiệu tin cậy cơ bản: ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Cài đặt mô hình không gian vec-tơ Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 3 Sec. 6.3.3Tính độ tương đồng cosine 4 Sec. 7.1 Lựa chọn top K theo cosine Sử dụng cấu trúc Heap nhị phân cực đại: Cây nhị phân, trong đó giá trị của nút gốc luôn lớn hơn hoặc bằng nút con Nhanh hơn sắp xếp 1 .9 .3 .3 .8 .1 .1 5 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 6 Sec. 7.1.1 Giản lược quá trình tính cosine: Đặt vấn đề Chiếm khối lượng tính toán lớn nhất trong xếp hạng Cần phải xác định chính xác top K? Độ tương đồng cosine chỉ thể hiện khả năng phù hợp. Một văn bản không nằm trong top K vẫn có khả năng là văn bản phù hợp. Có thể giảm khối lượng tính toán nếu chấp nhận tập gần với K văn bản có cosine cao nhất. 7 Sec. 7.1.1 Giản lược quá trình tính cosine: Giải pháp Xác định tập A thỏa mãn: K < |A| Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 9 Sec. 7.1.2 Lọc theo từ truy vấn Các phương pháp lọc cơ bản: Chỉ xét từ truy vấn có idf cao; Chỉ xét các văn bản chứa ít nhất một từ truy vấn; Chỉ xét các văn bản có chứa nhiều từ truy vấn. 10 Sec. 7.1.2 Từ truy vấn với idf cao Ví dụ, với truy vấn catcher in the rye Chỉ sử dụng catcher và rye Giả thuyết: in và the có idf thấp và không ảnh hưởng nhiều tới xếp hạng theo VSM. Lợi ích: Các từ có idf thấp có danh sách thẻ định vị dài giúp giảm thiều đáng kể khối lượng tính toán. 11 Sec. 7.1.2 Chứa nhiều từ truy vấn Văn bản bất kỳ với ít nhất một từ truy vấn đều có khả năng nằm trong danh sách top K. Với truy vấn đa từ chỉ xếp hạng những văn bản chứa nhiều từ truy vấn Có hiệu ứng gần với điều kiện AND trong mô hình Boolean. 12 Sec. 7.1.2 Ví dụ, nếu chỉ xét văn bản có tối thiểu 3 từ truy vấn T1 3 4 8 16 32 64 128 T2 2 4 8 16 32 64 128 T3 1 2 3 5 8 13 21 34 T4 13 16 32Chỉ xếp hạng các văn bản 8, 16 và 32. 13 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn Lọc theo từ truy vấn Phân cấp chỉ mục Sắp xếp theo trọng số Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 14 Sec. 7.1.3 Danh sách hợp t Xác định trước các danh sách r văn bản có trọng số cao nhất từ các thẻ định vị của t Gọi đây là danh sách hợp t. champion list, top docs for t. Cần lựa chọn r ở thời điểm xây dựng chỉ mục Như vậy có khả năng r < K Khi thực hiện truy vấn ưu tiên lựa chọn top-K từ những văn bản này. 15 Sec. 7.1.4 Đại lượng độc lập truy vấn Độ tin cậy, sẽ ký hiệu là g(d) Những tín hiệu tin cậy cơ bản: ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Cài đặt mô hình không gian vec-tơ Các bước cơ bản Tính độ tương đồng cosineGợi ý tài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 284 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 227 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 214 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 213 0 0 -
62 trang 205 2 0
-
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 197 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 178 0 0 -
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 169 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 164 0 0 -
65 trang 151 0 0