Danh mục

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 - TS.Nguyễn Bá Ngọc

Số trang: 29      Loại file: pdf      Dung lượng: 893.79 KB      Lượt xem: 13      Lượt tải: 0    
Hoai.2512

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Tổ chức lưu trữ chỉ mục ngược; quy luật phân bố từ vựng; quy luật Heap; dự đoán kích thước bộ từ vựng; quy luật Zipf,... là những nội dung chính mà "Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6" hướng đến trình bày.
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Tổ chức lưu trữ chỉ mục ngược Giảng viên Nguyễn Bá Ngọc, TS., ĐHBKHN/Viện CNTT & TT/BM HTTT/B1-603, ngocnb@soict.hust.edu.vn, http://is.hust.edu.vn/~ngocnb. 2 Ch. 5 Nội dung chính Quy luật phân bố từ vựng Nén từ điển Nén danh sách thẻ định vị 3 Quy luật Heap M = kTb, Trong đó M là kích thước bộ từ vựng; T là số từ trong bộ dữ liệu; k, b là các hằng số. Trong mặt phẳng log-log: log(M) = log(k) + b log(T) Có thể sử dụng hàm log với cơ số bất kỳ 4 Dự đoán kích thước bộ từ vựngb1  cov( X , Y ) b1   ( X  X )  (Y  Y ) i i (X  X ) 2 2 var( X ) ib0  Y  b1 Xy = b0 + b1xlog(M) = b0 + b1log(T) 5 Quy luật Zipf Từ được sử dụng thường xuyên thứ i có tần suất bộ dữ liệu tỉ lệ nghịch với i cfi = K/i , Trong đó K là hằng số, cfi là tần suất bộ dữ liệu Tần suất bộ dữ liệu là số lần từ được sử dụng trong toàn bộ dữ liệu. 6 Quy luật Zipf cf2 = cf1/2; cf3 = cf1/3; v.v. Mối liên hệ tuyến tính giữa log(cfi ) và log(i)  log(cfi )= log(K) – log(i)Có rất ít từ được sử dụng nhiều lần nhưng có rất nhiều từ ítđược sử dụng. ==> Ảnh hưởng tới khả năng nén danh sách thẻ định vị. 7 Ch. 5 Nội dung chính Quy luật phân bố từ vựng Lưu trữ từ điển Lưu trữ danh sách thẻ định vị 8 Nén bảo toàn vs. không bảo toàn Nén bảo toàn:  Dữ liệu được bảo toàn sau khi giải nén;  Phổ biến nhất trong tìm kiếm. Nén không bảo toàn:  Loại bỏ một phần dữ liệu, tỉ lệ nén thường cao hơn phương pháp bảo toàn;  Có thể coi các phép lọc trong quá trình tách từ (chuẩn hóa cách viết, loại từ dừng, v.v.) là những phương pháp nén không bảo toàn 9 Lý do nén từ điển Thực hiện truy vấn luôn bắt đầu với tìm kiếm từ trong từ điền:  Cần sử dụng cấu trúc dữ liệu trong bộ nhớ để tìm kiếm nhanh; Áp dụng phương pháp nén giúp:  Lưu từ điển kích thước lớn trong bộ nhớ;  Giảm thời gian tải dữ liệu từ ổ đĩa. 10 Mảng phần tử kích thước tĩnh  Mảng phần tử kích thước tĩnh Từ Tần Con trỏ suất a 656,265 abc 65 Danh sách thẻ … …. …. định vị zwx 221Cấu trúc tìm kiếm fixed word tf_size trên từ điển length pointer_size 11 Chuỗi ký tự dài  Lưu bộ từ vựng như một chuỗi ký tự dài :  Con trỏ tới từ tiếp theo là dấu hiệu kết thúc từ hiện tại ….systilesyzygeticsyzygialsyzygyszaibelyiteszczecinszomo….Freq. Postings ptr. Term ptr. Độ dài chuỗi từ vựng =33 Tổng độ dài từ2944 kích thước tối ưu126 cho con trỏ là: log2L, L là độ dài chuỗitf_size pointer_size 12 Phân đoạn chuỗi ký tự dài  Lưu con trỏ tới từ đầu tiên trong khối k từ.  Như ví dụ: k=4.  Bổ xung 1 byte để lưu độ dài từ ….7systile9syzygetic8syzygial6syzygy11szaibelyite….Freq. Postings ptr. Term ptr. word_length3329 44  Số bytes tiết kiệm được126 | (k – 1) * pointer_size – k7  13 Phân đoạn Ví dụ với kích thước khối k = 5 Khi chúng ta sử dụng 3 bytes/con trỏ, nếu không ...

Tài liệu được xem nhiều: