Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 - TS.Nguyễn Bá Ngọc

Số trang: 37 Loại file: pdf Dung lượng: 687.90 KB Lượt xem: 13 Lượt tải: 0

Thư viện của tui

Phí lưu trữ: 13,000 VND

Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 sẽ giới thiệu tới các bạn bài học về cài đặt mô hình không gian vec-tơ với các vấn đề chính như: Các bước cơ bản; tính độ tương đồng cosine; lựa chọn top K theo cosine; tăng tốc thực hiện truy vấn; giản lược quá trình tính cosine: Đặt vấn đề;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 12 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Cài đặt mô hình không gian vec-tơ Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn  Lọc theo từ truy vấn  Phân cấp chỉ mục  Sắp xếp theo trọng số  Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 3 Sec. 6.3.3Tính độ tương đồng cosine 4 Sec. 7.1 Lựa chọn top K theo cosine Sử dụng cấu trúc Heap nhị phân cực đại:  Cây nhị phân, trong đó giá trị của nút gốc luôn lớn hơn hoặc bằng nút con  Nhanh hơn sắp xếp 1 .9 .3 .3 .8 .1 .1 5 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn  Lọc theo từ truy vấn  Phân cấp chỉ mục  Sắp xếp theo trọng số  Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 6 Sec. 7.1.1 Giản lược quá trình tính cosine: Đặt vấn đề Chiếm khối lượng tính toán lớn nhất trong xếp hạng Cần phải xác định chính xác top K?  Độ tương đồng cosine chỉ thể hiện khả năng phù hợp.  Một văn bản không nằm trong top K vẫn có khả năng là văn bản phù hợp.  Có thể giảm khối lượng tính toán nếu chấp nhận tập gần với K văn bản có cosine cao nhất. 7 Sec. 7.1.1 Giản lược quá trình tính cosine: Giải pháp Xác định tập A thỏa mãn:  K < |A| Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn  Lọc theo từ truy vấn  Phân cấp chỉ mục  Sắp xếp theo trọng số  Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 9 Sec. 7.1.2 Lọc theo từ truy vấn Các phương pháp lọc cơ bản:  Chỉ xét từ truy vấn có idf cao;  Chỉ xét các văn bản chứa ít nhất một từ truy vấn;  Chỉ xét các văn bản có chứa nhiều từ truy vấn. 10 Sec. 7.1.2 Từ truy vấn với idf cao Ví dụ, với truy vấn catcher in the rye Chỉ sử dụng catcher và rye Giả thuyết: in và the có idf thấp và không ảnh hưởng nhiều tới xếp hạng theo VSM. Lợi ích:  Các từ có idf thấp có danh sách thẻ định vị dài  giúp giảm thiều đáng kể khối lượng tính toán. 11 Sec. 7.1.2 Chứa nhiều từ truy vấn Văn bản bất kỳ với ít nhất một từ truy vấn đều có khả năng nằm trong danh sách top K. Với truy vấn đa từ chỉ xếp hạng những văn bản chứa nhiều từ truy vấn  Có hiệu ứng gần với điều kiện AND trong mô hình Boolean. 12 Sec. 7.1.2 Ví dụ, nếu chỉ xét văn bản có tối thiểu 3 từ truy vấn T1 3 4 8 16 32 64 128 T2 2 4 8 16 32 64 128 T3 1 2 3 5 8 13 21 34 T4 13 16 32Chỉ xếp hạng các văn bản 8, 16 và 32. 13 Nội dung chính Các bước cơ bản Tăng tốc thực hiện truy vấn  Lọc theo từ truy vấn  Phân cấp chỉ mục  Sắp xếp theo trọng số  Phân cụm ngẫu nhiên Tổng quan hệ thống tìm kiếm 14 Sec. 7.1.3 Danh sách hợp t Xác định trước các danh sách r văn bản có trọng số cao nhất từ các thẻ định vị của t  Gọi đây là danh sách hợp t.  champion list, top docs for t. Cần lựa chọn r ở thời điểm xây dựng chỉ mục  Như vậy có khả năng r < K Khi thực hiện truy vấn ưu tiên lựa chọn top-K từ những văn bản này. 15 Sec. 7.1.4 Đại lượng độc lập truy vấn Độ tin cậy, sẽ ký hiệu là g(d) Những tín hiệu tin cậy cơ bản:  ...