Bài giảng Tìm kiếm và trình diễn thông tin: Bài 5 - TS.Nguyễn Bá Ngọc
Số trang: 30
Loại file: pdf
Dung lượng: 925.27 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Giải thuật xây dựng chỉ mục ngược là vấn đề chính mà bài giảng Tìm kiếm và trình diễn thông tin: Bài 5 hướng đến trình bày với nội dung trọng tâm phần cứng căn bản; các đặc trưng phần cứng cơ bản; mở rộng quy mô chỉ mục; các giải thuật xây dựng chỉ mục ngược;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 5 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Giải thuật xây dựng chỉ mục ngược Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 2Phần cứng căn bản Tốc độ truy cập dữ liệu trong bộ nhớ nhanh hơn nhiều so với ổ đĩa; Không thể đọc/ghi dữ liệu với ổ đĩa khi đang định vị đầu đọc; Thời gian đọc/ghi ngyên một khối dữ liệu hoặc một lượng nhỏ hơn là như nhau; Kích thước khối được xác định trong quá trình định dạng ổ đĩa. Trao đổi dữ liệu giữa ổ đĩa và bộ nhớ được điều khiển bởi BUS hệ thống. 3 Các đặc trưng phần cứng cơ bảnKý hiệu Đặc trưng Giá trịs Thời gian định vị đầu đọc 5 ms = 5 x 10−3 sb Thời gian trung bình đọc/ghi 1 byte 0.02 μs = 2 x 10−8 s Chu kỳ đồng hồ bộ vi xử lý 10-9 sp Thời gian thực hiện một lệnh cơ 0.01 μs = 10−8 s bản 4Mở rộng quy mô chỉ mục Phương pháp xây dựng chỉ mục trong bộ nhớ chỉ phù hợp với những bộ dữ liệu nhỏ. Đối với những bộ dữ liệu lớn Cần sử dụng ổ đĩa, Phân tán chỉ mục trên nhiều máy. 5 Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 6Giải thuật BSBI Blocked sort-based Indexing (BSBI) Đọc dữ liệu, tách từ và sinh thẻ định vị Các thao tác cơ bản: Tích lũy thẻ định vị thành khối không quá lớn, đảm bảo có thể xử lý trong bộ nhớ; Thực hiện sắp xếp khối và lưu tạm thời trên ổ đĩa; Hợp nhất chỉ mục ngược của những khối đơn lẻ thành chỉ mục ngược duy nhất của bộ dữ liệu. 7Hợp nhất danh sách thẻ định vị 1 1 2 Kết quả 2 hợp nhất 3 4 3 4Các danhsách thẻ Ổ đĩađịnh vị. 8Giải thuật BSBI 9 Sec. 4.2Hợp nhất chỉ mục Sơ đồ hợp nhất theo cặp: 10 Sec. 4.2Hợp nhất chỉ mục Phương pháp hợp nhất đồng thời: Sử dụng bộ nhớ đệm; Đọc đồng thời theo khối từ các chỉ mục nhỏ; Hợp nhất các khối nhỏ trong bộ nhớ; Ghi lên đĩa theo khối. 11 Sec. 4.3 Nhược điểm của BSBI Cần nhiều bộ nhớ: Cần lưu toàn bộ từ điển trong bộ nhớ; Sử dụng từ điển kích thước động để chuyển đổi từ thành mã từ.Nếu sử dụng danh sách từ - mã văn bản thì cáctệp trung gian sẽ rất lớn, ảnh hưởng tới tốc độxây dựng chỉ mục. 12 Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 13 Sec. 4.3Giải thuật SPIMI Single-pass in-memory indexing (SPIMI); Sinh từ điển cục bộ cho từng khối; Không sắp xếp thẻ định vị, lưu thẻ định vị theo thứ tự xuất hiện; Tạo chỉ mục ngược hoàn chỉnh cho mỗi khối; Có thể hợp nhất những chỉ mục nhỏ này thành một chỉ mục lớn. 14 Sec. 4.3 Thuật toán SPIMI Hợp nhất các khối được thực hiện tương tự BSBI. 15 Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 16 Sec. 4.4 MapReduce MapReduce (Dean and Ghemawat 2004) là một kiến trúc tính toán phân tán: Đơn gian: Không cần viết code đảm bảo tương tác giữa các nốt như phân chia công việc, trao đổi dữ liệu, v.v. Độ tin cậy cao: Đảm bảo tính kết thúc trên hệ thống máy tính sử dụng phần cứng phổ thông. 17 Sec. 4.4Phân tán quá trình xây dựng chỉ mục Các bước cần đư ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 5 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Giải thuật xây dựng chỉ mục ngược Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 2Phần cứng căn bản Tốc độ truy cập dữ liệu trong bộ nhớ nhanh hơn nhiều so với ổ đĩa; Không thể đọc/ghi dữ liệu với ổ đĩa khi đang định vị đầu đọc; Thời gian đọc/ghi ngyên một khối dữ liệu hoặc một lượng nhỏ hơn là như nhau; Kích thước khối được xác định trong quá trình định dạng ổ đĩa. Trao đổi dữ liệu giữa ổ đĩa và bộ nhớ được điều khiển bởi BUS hệ thống. 3 Các đặc trưng phần cứng cơ bảnKý hiệu Đặc trưng Giá trịs Thời gian định vị đầu đọc 5 ms = 5 x 10−3 sb Thời gian trung bình đọc/ghi 1 byte 0.02 μs = 2 x 10−8 s Chu kỳ đồng hồ bộ vi xử lý 10-9 sp Thời gian thực hiện một lệnh cơ 0.01 μs = 10−8 s bản 4Mở rộng quy mô chỉ mục Phương pháp xây dựng chỉ mục trong bộ nhớ chỉ phù hợp với những bộ dữ liệu nhỏ. Đối với những bộ dữ liệu lớn Cần sử dụng ổ đĩa, Phân tán chỉ mục trên nhiều máy. 5 Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 6Giải thuật BSBI Blocked sort-based Indexing (BSBI) Đọc dữ liệu, tách từ và sinh thẻ định vị Các thao tác cơ bản: Tích lũy thẻ định vị thành khối không quá lớn, đảm bảo có thể xử lý trong bộ nhớ; Thực hiện sắp xếp khối và lưu tạm thời trên ổ đĩa; Hợp nhất chỉ mục ngược của những khối đơn lẻ thành chỉ mục ngược duy nhất của bộ dữ liệu. 7Hợp nhất danh sách thẻ định vị 1 1 2 Kết quả 2 hợp nhất 3 4 3 4Các danhsách thẻ Ổ đĩađịnh vị. 8Giải thuật BSBI 9 Sec. 4.2Hợp nhất chỉ mục Sơ đồ hợp nhất theo cặp: 10 Sec. 4.2Hợp nhất chỉ mục Phương pháp hợp nhất đồng thời: Sử dụng bộ nhớ đệm; Đọc đồng thời theo khối từ các chỉ mục nhỏ; Hợp nhất các khối nhỏ trong bộ nhớ; Ghi lên đĩa theo khối. 11 Sec. 4.3 Nhược điểm của BSBI Cần nhiều bộ nhớ: Cần lưu toàn bộ từ điển trong bộ nhớ; Sử dụng từ điển kích thước động để chuyển đổi từ thành mã từ.Nếu sử dụng danh sách từ - mã văn bản thì cáctệp trung gian sẽ rất lớn, ảnh hưởng tới tốc độxây dựng chỉ mục. 12 Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 13 Sec. 4.3Giải thuật SPIMI Single-pass in-memory indexing (SPIMI); Sinh từ điển cục bộ cho từng khối; Không sắp xếp thẻ định vị, lưu thẻ định vị theo thứ tự xuất hiện; Tạo chỉ mục ngược hoàn chỉnh cho mỗi khối; Có thể hợp nhất những chỉ mục nhỏ này thành một chỉ mục lớn. 14 Sec. 4.3 Thuật toán SPIMI Hợp nhất các khối được thực hiện tương tự BSBI. 15 Nội dung chính Phần cứng căn bản Các giải thuật xây dựng chỉ mục ngược: BSBI SPIMI MapReduce Quản lý bộ dữ liệu động 16 Sec. 4.4 MapReduce MapReduce (Dean and Ghemawat 2004) là một kiến trúc tính toán phân tán: Đơn gian: Không cần viết code đảm bảo tương tác giữa các nốt như phân chia công việc, trao đổi dữ liệu, v.v. Độ tin cậy cao: Đảm bảo tính kết thúc trên hệ thống máy tính sử dụng phần cứng phổ thông. 17 Sec. 4.4Phân tán quá trình xây dựng chỉ mục Các bước cần đư ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Phần cứng căn bản Các đặc trưng phần cứng cơ bản Các giải thuật xây dựng chỉ mục ngượcTài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 328 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 259 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 234 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 221 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
62 trang 209 2 0
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 189 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 168 0 0 -
65 trang 165 0 0