Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 - TS.Nguyễn Bá Ngọc
Số trang: 29
Loại file: pdf
Dung lượng: 893.79 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tổ chức lưu trữ chỉ mục ngược; quy luật phân bố từ vựng; quy luật Heap; dự đoán kích thước bộ từ vựng; quy luật Zipf,... là những nội dung chính mà "Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6" hướng đến trình bày.
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Tổ chức lưu trữ chỉ mục ngược Giảng viên Nguyễn Bá Ngọc, TS., ĐHBKHN/Viện CNTT & TT/BM HTTT/B1-603, ngocnb@soict.hust.edu.vn, http://is.hust.edu.vn/~ngocnb. 2 Ch. 5 Nội dung chính Quy luật phân bố từ vựng Nén từ điển Nén danh sách thẻ định vị 3 Quy luật Heap M = kTb, Trong đó M là kích thước bộ từ vựng; T là số từ trong bộ dữ liệu; k, b là các hằng số. Trong mặt phẳng log-log: log(M) = log(k) + b log(T) Có thể sử dụng hàm log với cơ số bất kỳ 4 Dự đoán kích thước bộ từ vựngb1 cov( X , Y ) b1 ( X X ) (Y Y ) i i (X X ) 2 2 var( X ) ib0 Y b1 Xy = b0 + b1xlog(M) = b0 + b1log(T) 5 Quy luật Zipf Từ được sử dụng thường xuyên thứ i có tần suất bộ dữ liệu tỉ lệ nghịch với i cfi = K/i , Trong đó K là hằng số, cfi là tần suất bộ dữ liệu Tần suất bộ dữ liệu là số lần từ được sử dụng trong toàn bộ dữ liệu. 6 Quy luật Zipf cf2 = cf1/2; cf3 = cf1/3; v.v. Mối liên hệ tuyến tính giữa log(cfi ) và log(i) log(cfi )= log(K) – log(i)Có rất ít từ được sử dụng nhiều lần nhưng có rất nhiều từ ítđược sử dụng. ==> Ảnh hưởng tới khả năng nén danh sách thẻ định vị. 7 Ch. 5 Nội dung chính Quy luật phân bố từ vựng Lưu trữ từ điển Lưu trữ danh sách thẻ định vị 8 Nén bảo toàn vs. không bảo toàn Nén bảo toàn: Dữ liệu được bảo toàn sau khi giải nén; Phổ biến nhất trong tìm kiếm. Nén không bảo toàn: Loại bỏ một phần dữ liệu, tỉ lệ nén thường cao hơn phương pháp bảo toàn; Có thể coi các phép lọc trong quá trình tách từ (chuẩn hóa cách viết, loại từ dừng, v.v.) là những phương pháp nén không bảo toàn 9 Lý do nén từ điển Thực hiện truy vấn luôn bắt đầu với tìm kiếm từ trong từ điền: Cần sử dụng cấu trúc dữ liệu trong bộ nhớ để tìm kiếm nhanh; Áp dụng phương pháp nén giúp: Lưu từ điển kích thước lớn trong bộ nhớ; Giảm thời gian tải dữ liệu từ ổ đĩa. 10 Mảng phần tử kích thước tĩnh Mảng phần tử kích thước tĩnh Từ Tần Con trỏ suất a 656,265 abc 65 Danh sách thẻ … …. …. định vị zwx 221Cấu trúc tìm kiếm fixed word tf_size trên từ điển length pointer_size 11 Chuỗi ký tự dài Lưu bộ từ vựng như một chuỗi ký tự dài : Con trỏ tới từ tiếp theo là dấu hiệu kết thúc từ hiện tại ….systilesyzygeticsyzygialsyzygyszaibelyiteszczecinszomo….Freq. Postings ptr. Term ptr. Độ dài chuỗi từ vựng =33 Tổng độ dài từ2944 kích thước tối ưu126 cho con trỏ là: log2L, L là độ dài chuỗitf_size pointer_size 12 Phân đoạn chuỗi ký tự dài Lưu con trỏ tới từ đầu tiên trong khối k từ. Như ví dụ: k=4. Bổ xung 1 byte để lưu độ dài từ ….7systile9syzygetic8syzygial6syzygy11szaibelyite….Freq. Postings ptr. Term ptr. word_length3329 44 Số bytes tiết kiệm được126 | (k – 1) * pointer_size – k7 13 Phân đoạn Ví dụ với kích thước khối k = 5 Khi chúng ta sử dụng 3 bytes/con trỏ, nếu không ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 6 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Tổ chức lưu trữ chỉ mục ngược Giảng viên Nguyễn Bá Ngọc, TS., ĐHBKHN/Viện CNTT & TT/BM HTTT/B1-603, ngocnb@soict.hust.edu.vn, http://is.hust.edu.vn/~ngocnb. 2 Ch. 5 Nội dung chính Quy luật phân bố từ vựng Nén từ điển Nén danh sách thẻ định vị 3 Quy luật Heap M = kTb, Trong đó M là kích thước bộ từ vựng; T là số từ trong bộ dữ liệu; k, b là các hằng số. Trong mặt phẳng log-log: log(M) = log(k) + b log(T) Có thể sử dụng hàm log với cơ số bất kỳ 4 Dự đoán kích thước bộ từ vựngb1 cov( X , Y ) b1 ( X X ) (Y Y ) i i (X X ) 2 2 var( X ) ib0 Y b1 Xy = b0 + b1xlog(M) = b0 + b1log(T) 5 Quy luật Zipf Từ được sử dụng thường xuyên thứ i có tần suất bộ dữ liệu tỉ lệ nghịch với i cfi = K/i , Trong đó K là hằng số, cfi là tần suất bộ dữ liệu Tần suất bộ dữ liệu là số lần từ được sử dụng trong toàn bộ dữ liệu. 6 Quy luật Zipf cf2 = cf1/2; cf3 = cf1/3; v.v. Mối liên hệ tuyến tính giữa log(cfi ) và log(i) log(cfi )= log(K) – log(i)Có rất ít từ được sử dụng nhiều lần nhưng có rất nhiều từ ítđược sử dụng. ==> Ảnh hưởng tới khả năng nén danh sách thẻ định vị. 7 Ch. 5 Nội dung chính Quy luật phân bố từ vựng Lưu trữ từ điển Lưu trữ danh sách thẻ định vị 8 Nén bảo toàn vs. không bảo toàn Nén bảo toàn: Dữ liệu được bảo toàn sau khi giải nén; Phổ biến nhất trong tìm kiếm. Nén không bảo toàn: Loại bỏ một phần dữ liệu, tỉ lệ nén thường cao hơn phương pháp bảo toàn; Có thể coi các phép lọc trong quá trình tách từ (chuẩn hóa cách viết, loại từ dừng, v.v.) là những phương pháp nén không bảo toàn 9 Lý do nén từ điển Thực hiện truy vấn luôn bắt đầu với tìm kiếm từ trong từ điền: Cần sử dụng cấu trúc dữ liệu trong bộ nhớ để tìm kiếm nhanh; Áp dụng phương pháp nén giúp: Lưu từ điển kích thước lớn trong bộ nhớ; Giảm thời gian tải dữ liệu từ ổ đĩa. 10 Mảng phần tử kích thước tĩnh Mảng phần tử kích thước tĩnh Từ Tần Con trỏ suất a 656,265 abc 65 Danh sách thẻ … …. …. định vị zwx 221Cấu trúc tìm kiếm fixed word tf_size trên từ điển length pointer_size 11 Chuỗi ký tự dài Lưu bộ từ vựng như một chuỗi ký tự dài : Con trỏ tới từ tiếp theo là dấu hiệu kết thúc từ hiện tại ….systilesyzygeticsyzygialsyzygyszaibelyiteszczecinszomo….Freq. Postings ptr. Term ptr. Độ dài chuỗi từ vựng =33 Tổng độ dài từ2944 kích thước tối ưu126 cho con trỏ là: log2L, L là độ dài chuỗitf_size pointer_size 12 Phân đoạn chuỗi ký tự dài Lưu con trỏ tới từ đầu tiên trong khối k từ. Như ví dụ: k=4. Bổ xung 1 byte để lưu độ dài từ ….7systile9syzygetic8syzygial6syzygy11szaibelyite….Freq. Postings ptr. Term ptr. word_length3329 44 Số bytes tiết kiệm được126 | (k – 1) * pointer_size – k7 13 Phân đoạn Ví dụ với kích thước khối k = 5 Khi chúng ta sử dụng 3 bytes/con trỏ, nếu không ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Tổ chức lưu trữ chỉ mục ngược Quy luật phân bố từ vựng Quy luật HeapGợi ý tài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 314 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 241 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 231 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 212 0 0 -
62 trang 206 2 0
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 183 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 166 0 0 -
65 trang 159 0 0