Bài giảng Thư viện số: Chương 4 - TS. Đỗ Quang Vinh
Số trang: 34
Loại file: ppt
Dung lượng: 802.00 KB
Lượt xem: 18
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Chương 4 của Bài giảng Thư viện số giới thiệu đến người học các kiến thức về tìm kiếm thông tin với kết cấu nội dung trình bày mô hình tìm kiếm thông tin, truy vấn BOOLE BQ, truy vấn xếp hạng RQ, độ đo COSIN, mô hình tìm kiếm thông tin xác suất, đánh giá hiệu suất tìm kiếm.
Nội dung trích xuất từ tài liệu:
Bài giảng Thư viện số: Chương 4 - TS. Đỗ Quang VinhBÀI GIẢNG THƯ VIỆN SỐ CHƯƠNG 4: TÌM KIẾM THÔNG TIN TS. ĐỖ QUANG VINH HÀ NỘI - 2013 NỘI DUNGI. TỔNG QUAN VỀ THƯ VIỆN SỐ DLII. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DLIII. CHỈ MỤC TÀI LIỆUIV. TÌM KIẾM THÔNG TINV. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐVI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 2 IV. TÌM KIẾM THÔNG TIN4.1 MÔ HÌNH TÌM KIẾM THÔNG TIN Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin có liên quan tới nhu cầu thông tin của NSD. Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn. Cho D = {d1, d2, ..., dM}, M ≥ 2 (4.1) là một tập hữu hạn không rỗng đối tượng. Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường. Các đối tượng tiêu biểu là đại diện. 3 Cho ℜ là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó ρ(D), nghĩa là, ℜ : D → ρ(D) (4.2) Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm ℜ, chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: Định nghĩa 4.1 (cấu trúc tìm kiếm thông tin): Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = (4.3) Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm ℜ và đối tượng D. Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và ℜ. 4 Định nghĩa 4.2 (mô hình tìm kiếm thông tin MIR): Mô hình tìm kiếm thông tin MIR là một SIR S = với 2 thuộc tính sau đây:i. q = δ ⇒ µãi(q, δ) = 1 ∀i, q, δ (tính phản xạ); (4.4)ii. ℜi (q) = {δ ∈ D| µãi(q, δ) = max µãk(q, δk)}∩ aαi, i cố định tùy ý.trong đó:+ T = {t1, t2, ..., tN} là một tập hữu hạn thuật ngữ chỉ mục, N ≥ 1;+ O = {o1, o2, ..., oU} là một tập hữu hạn đối tượng, U ≥ 2;+ (Dj)j ∈ J = {1, 2, ..., M} là một họ cluster đối tượng, Dj ∈ ρ(O), M ≥ 2; 5+ D = {δj| j ∈ J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa δj = {(tk , µδj(tk))| tk ∈ T, k = 1, ..., N}, j = 1, ..., M, µδj : T → S ⊆ [0, 1] ⊂ R là đại diện cluster của cluster đối tượng Dj.+ A = {ã1, ..., ãC} là một tập hữu hạn tiêu chuẩn, C ≥ 1, trong đó ãi = {((q, δj), µãi(q, δj)) | δj∈ D, j =1, ..., M}, i = 1, ..., C là một quan hệ mờ chuẩn hóa, µãi : D x D → [0, 1] ⊂ R, q ∈ D cố định tùy ý. Theo truyền thống, IR kinh điển có thuộc tính phân đôi (lưỡng cực) trong đó có 2 tiêu chuẩn rõ ràng: i. có mặt và không có mặt; 6 ii. tìm kiếm được thực hiện dựa vào (i).+ aαi = {δ ∈ D| µãi(q, δ) > αi}, i = 1, ..., C là một αi-lát cắt tiêuchuẩn mạnh ãi, αi ≥ 0, q ∈ D cố định tùy ý;+ ℜ : D → ρ(D) là một ánh xạ tìm kiếm. Về mặt hình thức, tìmkiếm nghĩa là liên kết một tập con tài liệu với một truy vấnnếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựachọn - đủ mạnh. Từ đó, chúng ta bắt buộc phải xem truy vấn là một tàiliệu và tìm kiếm được định nghĩa dùng α-lát cắt. 7 Định nghĩa 4.3: R.B. Yates và B.R. Neto Một mô hình tìm kiếm thông tin là một bộ bốn [D, Q, F, R(qi, dj)]trong đó:+ D là một tập các tài liệu;+ Q là một tập hợp các truy vấn của NSD;+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấnvà các quan hệ giữa chúng;+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với mộttruy vấn qi ∈ Q và một biểu diễn tài liệu dj ∈ D. Hàm sắp xếpxác định thứ tự giữa các tài liệu đối với truy vấn qi. 8 Khảo sát 3 kiểu truy vấn: Truy vấn Boole BQ truyền thống; Truy vấn xếp hạng RQ; Mô hình tìm kiếm thông tin xác suất.4.2 TRUY VẤN BOOLE BQ4.2.1 Truy vấn BQ hội Dạng t1 AND t2 AND ... AND tr4.2.2 Truy vấn BQ không hội Dạng phổ biến khác là một phép hội của các phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 94.3 TRUY VẤN XẾP HẠNG RQ4.3.1 So khớp toạ độ Đếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu4.3.2 Tích trong độ tương tự Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau: S(Q, Dd) = Q . Dd (4.5) trong đó: phép toán . là phép tích trong n Tích trong của hai n-vectơ X = và Y = được định X.Y = ∑ x i yi nghĩa: ...
Nội dung trích xuất từ tài liệu:
Bài giảng Thư viện số: Chương 4 - TS. Đỗ Quang VinhBÀI GIẢNG THƯ VIỆN SỐ CHƯƠNG 4: TÌM KIẾM THÔNG TIN TS. ĐỖ QUANG VINH HÀ NỘI - 2013 NỘI DUNGI. TỔNG QUAN VỀ THƯ VIỆN SỐ DLII. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DLIII. CHỈ MỤC TÀI LIỆUIV. TÌM KIẾM THÔNG TINV. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐVI. THỰC HÀNH HỆ PHẦN MỀM THƯ VIỆN SỐ GREENSTONE 2 IV. TÌM KIẾM THÔNG TIN4.1 MÔ HÌNH TÌM KIẾM THÔNG TIN Tìm kiếm thông tin IR đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thông tin có liên quan tới nhu cầu thông tin của NSD. Mô hình IR tổng quát là một cặp bao gồm các đối tượng và một ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một truy vấn. Cho D = {d1, d2, ..., dM}, M ≥ 2 (4.1) là một tập hữu hạn không rỗng đối tượng. Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường. Các đối tượng tiêu biểu là đại diện. 3 Cho ℜ là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó ρ(D), nghĩa là, ℜ : D → ρ(D) (4.2) Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm ℜ, chúng tôi định nghĩa cấu trúc tìm kiếm thông tin như sau: Định nghĩa 4.1 (cấu trúc tìm kiếm thông tin): Cấu trúc tìm kiếm thông tin SIR là một bộ 2 S = (4.3) Định nghĩa 4.1 là một định nghĩa tổng quát: nó không đề cập đến về các dạng riêng biệt của ánh xạ tìm kiếm ℜ và đối tượng D. Từ đó, các mô hình IR riêng biệt khác nhau có thể nhận được bằng cách đặc tả D và ℜ. 4 Định nghĩa 4.2 (mô hình tìm kiếm thông tin MIR): Mô hình tìm kiếm thông tin MIR là một SIR S = với 2 thuộc tính sau đây:i. q = δ ⇒ µãi(q, δ) = 1 ∀i, q, δ (tính phản xạ); (4.4)ii. ℜi (q) = {δ ∈ D| µãi(q, δ) = max µãk(q, δk)}∩ aαi, i cố định tùy ý.trong đó:+ T = {t1, t2, ..., tN} là một tập hữu hạn thuật ngữ chỉ mục, N ≥ 1;+ O = {o1, o2, ..., oU} là một tập hữu hạn đối tượng, U ≥ 2;+ (Dj)j ∈ J = {1, 2, ..., M} là một họ cluster đối tượng, Dj ∈ ρ(O), M ≥ 2; 5+ D = {δj| j ∈ J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa δj = {(tk , µδj(tk))| tk ∈ T, k = 1, ..., N}, j = 1, ..., M, µδj : T → S ⊆ [0, 1] ⊂ R là đại diện cluster của cluster đối tượng Dj.+ A = {ã1, ..., ãC} là một tập hữu hạn tiêu chuẩn, C ≥ 1, trong đó ãi = {((q, δj), µãi(q, δj)) | δj∈ D, j =1, ..., M}, i = 1, ..., C là một quan hệ mờ chuẩn hóa, µãi : D x D → [0, 1] ⊂ R, q ∈ D cố định tùy ý. Theo truyền thống, IR kinh điển có thuộc tính phân đôi (lưỡng cực) trong đó có 2 tiêu chuẩn rõ ràng: i. có mặt và không có mặt; 6 ii. tìm kiếm được thực hiện dựa vào (i).+ aαi = {δ ∈ D| µãi(q, δ) > αi}, i = 1, ..., C là một αi-lát cắt tiêuchuẩn mạnh ãi, αi ≥ 0, q ∈ D cố định tùy ý;+ ℜ : D → ρ(D) là một ánh xạ tìm kiếm. Về mặt hình thức, tìmkiếm nghĩa là liên kết một tập con tài liệu với một truy vấnnếu chúng liên quan với nhau – tuân theo một tiêu chuẩn lựachọn - đủ mạnh. Từ đó, chúng ta bắt buộc phải xem truy vấn là một tàiliệu và tìm kiếm được định nghĩa dùng α-lát cắt. 7 Định nghĩa 4.3: R.B. Yates và B.R. Neto Một mô hình tìm kiếm thông tin là một bộ bốn [D, Q, F, R(qi, dj)]trong đó:+ D là một tập các tài liệu;+ Q là một tập hợp các truy vấn của NSD;+ F là một khung mô hình hóa các biểu diễn tài liệu, truy vấnvà các quan hệ giữa chúng;+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với mộttruy vấn qi ∈ Q và một biểu diễn tài liệu dj ∈ D. Hàm sắp xếpxác định thứ tự giữa các tài liệu đối với truy vấn qi. 8 Khảo sát 3 kiểu truy vấn: Truy vấn Boole BQ truyền thống; Truy vấn xếp hạng RQ; Mô hình tìm kiếm thông tin xác suất.4.2 TRUY VẤN BOOLE BQ4.2.1 Truy vấn BQ hội Dạng t1 AND t2 AND ... AND tr4.2.2 Truy vấn BQ không hội Dạng phổ biến khác là một phép hội của các phép tuyển: (text OR data OR information) AND (search OR seek) AND (retrieval OR indexing) 94.3 TRUY VẤN XẾP HẠNG RQ4.3.1 So khớp toạ độ Đếm số thuật ngữ truy vấn xuất hiện trong mỗi một tài liệu4.3.2 Tích trong độ tương tự Quá trình được hình thức hoá bằng một tích trong của một vectơ truy vấn với một tập vectơ tài liệu Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau: S(Q, Dd) = Q . Dd (4.5) trong đó: phép toán . là phép tích trong n Tích trong của hai n-vectơ X = và Y = được định X.Y = ∑ x i yi nghĩa: ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Thư viện số Tài liệu Thư viện Tìm kiếm thông tin Truy vấn BOOLE BQ Truy vấn xếp hạng RQ Độ đo COSINTài liệu liên quan:
-
100 trang 53 0 0
-
0 trang 47 0 0
-
Những vấn đề cơ bản của báo mạng điện tử (Tái bản): Phần 1
158 trang 43 0 0 -
Giáo trình Hệ quản trị cơ sở dữ liệu: Phần 1 - ĐH Sư phạm kỹ thuật Nam Định
110 trang 42 0 0 -
Bài giảng Internet - Bài 3: Tìm kiếm thông tin trên Internet
44 trang 38 0 0 -
Bài giảng Kỹ năng mềm - TS. Võ Trung Hùng
176 trang 36 0 0 -
Bài giảng Khai phá web - Bài 4: Tìm kiếm thông tin
62 trang 34 0 0 -
Bàn về khái niệm tài liệu quý hiếm
9 trang 30 0 0 -
Bài giảng Thư viện số: Chương 1 - TS. Đỗ Quang Vinh
58 trang 30 0 0 -
Bài giảng Thư viện số: Các chuẩn sử dụng trong Digital Libraries - TS. Đỗ Quang Vinh
133 trang 29 0 0