Bài giảng Chương 4: Tìm kiếm DL ĐPT (Phần 1 - Nguyễn Thị Oanh)
Số trang: 50
Loại file: pdf
Dung lượng: 621.67 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong "Bài giảng Chương 4: Tìm kiếm DL ĐPT (Phần 1 - Nguyễn Thị Oanh)" trình bày những nội dung về văn bản, biểu diễn văn bản, đánh chỉ mục, tìm kiếm văn bản, phản hồi thích đáng và đánh giá hiệu năng.
Nội dung trích xuất từ tài liệu:
Bài giảng Chương 4: Tìm kiếm DL ĐPT (Phần 1 - Nguyễn Thị Oanh) Chương 4: Tìm kiếm DL ĐPT P1: Dữ liệu văn bản Nguyễn Thị Oanh Bộ môn HTTT – Viện CNTT & TT oanhnt@soict.hut.edu.vn1 Nội dung Giới thiệu chung Biểu diễn văn bản – Chất lượng từ – Trọng số từ Đánh chỉ mục (chỉ số hóa) (indexing) Tìm kiếm văn bản (retrieving) Phản hồi thích đáng (relevance feedback) Đánh giá hiệu năng2 Văn bản Dữ liệu văn bản: – 1 tài liệu văn bản là chuỗi các từ Giây phút cận kề cái chết ở Nhật Vẫn biết động đất là chuyện cơm bữa ở Tokyo vì một năm có khoảng 200 trận. Vẫn biết rằng khi động đất lớn thì phải thật bình tĩnh và việc đầu tiên là phải chui xuống gầm bàn chứ đừng có chạy. Vậy mà! ... – Từ đồng nghĩa: coi – xem (hát), coi – giữ - trông (nhà) – Từ đa nghĩa: mũi (người), mũi (thuyền, dao, mác) – Thứ tự các từ: đi ra – ra đi Tập văn bản: tập các chuỗi3 Tìm kiếm thông tin văn bản ? Cho: 1 (tập) tài liệu văn bản (từ, câu, đoạn, văn bản, …) Mục tiêu: tìm các tài liệu liên quan đến tài liệu truy vấn (tài liệu tương tự)4 Biểu diễn và tìm kiếm 1 tài liệu văn bản là chuỗi các từ, đó có thể: – tiêu đề – tóm tắt – toàn bộ nội dung tài liệu CSDL văn bản: tập các chuỗi được chỉ số hóa một cách hợp lý Tìm kiếm: tìm các văn bản trong CSDL có chứa các từ trong văn bản truy vấnBài toán khớp xâu (string-matching, substring-finding)5 Ví dụ Document String ID d1 Jose Orojuelo’s Operations in Bosnia d2 The Medellin Cartel’s Financial Organization d3 The Cali Cartel’s Distribution Network d4 Banking Operation and Money Laundering d5 Profile of Hector Gomez d6 Connection between Terrorism and Asian Dope Operations d7 Hector Gomez: How He Gave Agents the Slip in Cali d8 Sex, Drugs, and Videotape d9 The Iranian Connection d10 Boating and Drugs: Slips Owned by the Cali Cartel6 Vấn đề khi khớp xâu VD truy vấn 1: tìm các tài liệu liên quan đến chủ đề « money laundering » – Tìm được d4, không có d2 VD truy vấn 2: tìm các tài liệu liên quan đến vấn đề « drugs » – Tìm được d8,d10, không có d6 dù « dope » ~~ « drugs » – d2, d3 bị bỏ qua mặc dù cả hai đều là sự phối hợp hành động chung chống ma tuý (drug cartel)7 Vấn đề khi khớp xâu Xử lý vấn đề ngữ nghĩa: – Từ đồng nghĩa: buy/purchase – Từ đa nghĩa: present : a gift, the current moment, to show or display Xử lý trật tự từ8 Kiến trúc tổng thể hệ thống IR9 Biểu diễn văn bản10 Biểu diễn văn bản Mỗi tài liệu text được biểu diễn bởi một tập các từ (bag of words) – VD: “Lord of the rings” {“the”, “Lord”, “rings”, “of”} – Mỗi từ được coi là một chiều trong không gian từ điển – Số chiều = kích thước của từ điển Một số kỹ thuật xử lý: – Stop list – Stemming – Frequency table11 Biểu diễn văn bản12 Biểu diễn văn bản (…) Stop list: các từ không giúp phân biệt các tài liệu trong 1 tập các tài liệu được xem xét – Chung: « the », « a », « of », « at », « are », « for », « with », … – Tùy thuộc vào bản chất của CSDL: Tài liệu kỹ thuật về Computer Science : « computer » thuộc stop list Tài liệu về ngành nông, lâm nghiệp : « computer » KHÔNG thuộc stop list13 Biểu diễn văn bản (…) Stemming: nhóm các biến thể của một từ gốc thành 1 nhóm, biểu diễn bởi 1 từ – « retrieved », « retrieval », « retrieving », « retrieval » « retriev » – « drug », « drugs », « drugged » « drug » – .. Thesaurus: nhóm các từ gần nghĩa sử dụng từ điển từ đồng nghĩa hoặc có liên quan giữa chúng: – « learning », « school work », « reading », « study » « study »14 Biểu diễn văn bản (…) Frequency table (bảng tần số): hỗ trợ xác định mức độ quan trọng khác nhau của các từ trong văn bản khi thực hiện tìm kiếm – D: tập N văn bản – T: tập M từ trong các tài liệu trong D – Frequency table: MxN tf(i, j) (term frequency): số lần xuất hiện các từ ti trong văn bản dj15 Biểu diễn văn bản (…) Term/document d1 d2 d3 d4 d5 d6 t1 615 390 10 10 18 65 t2 15 4 76 217 91 816 t3 2 8 815 142 765 1 t4 312 511 677 11 711 2 t5 45 33 516 64 491 59 – Mỗi văn bản dj được biểu diễn bởi 1 vector chỉ tần suất xuất hiện của các từ trong văn bản đó : (tf1,j, tf2,j, … ,tfM ...
Nội dung trích xuất từ tài liệu:
Bài giảng Chương 4: Tìm kiếm DL ĐPT (Phần 1 - Nguyễn Thị Oanh) Chương 4: Tìm kiếm DL ĐPT P1: Dữ liệu văn bản Nguyễn Thị Oanh Bộ môn HTTT – Viện CNTT & TT oanhnt@soict.hut.edu.vn1 Nội dung Giới thiệu chung Biểu diễn văn bản – Chất lượng từ – Trọng số từ Đánh chỉ mục (chỉ số hóa) (indexing) Tìm kiếm văn bản (retrieving) Phản hồi thích đáng (relevance feedback) Đánh giá hiệu năng2 Văn bản Dữ liệu văn bản: – 1 tài liệu văn bản là chuỗi các từ Giây phút cận kề cái chết ở Nhật Vẫn biết động đất là chuyện cơm bữa ở Tokyo vì một năm có khoảng 200 trận. Vẫn biết rằng khi động đất lớn thì phải thật bình tĩnh và việc đầu tiên là phải chui xuống gầm bàn chứ đừng có chạy. Vậy mà! ... – Từ đồng nghĩa: coi – xem (hát), coi – giữ - trông (nhà) – Từ đa nghĩa: mũi (người), mũi (thuyền, dao, mác) – Thứ tự các từ: đi ra – ra đi Tập văn bản: tập các chuỗi3 Tìm kiếm thông tin văn bản ? Cho: 1 (tập) tài liệu văn bản (từ, câu, đoạn, văn bản, …) Mục tiêu: tìm các tài liệu liên quan đến tài liệu truy vấn (tài liệu tương tự)4 Biểu diễn và tìm kiếm 1 tài liệu văn bản là chuỗi các từ, đó có thể: – tiêu đề – tóm tắt – toàn bộ nội dung tài liệu CSDL văn bản: tập các chuỗi được chỉ số hóa một cách hợp lý Tìm kiếm: tìm các văn bản trong CSDL có chứa các từ trong văn bản truy vấnBài toán khớp xâu (string-matching, substring-finding)5 Ví dụ Document String ID d1 Jose Orojuelo’s Operations in Bosnia d2 The Medellin Cartel’s Financial Organization d3 The Cali Cartel’s Distribution Network d4 Banking Operation and Money Laundering d5 Profile of Hector Gomez d6 Connection between Terrorism and Asian Dope Operations d7 Hector Gomez: How He Gave Agents the Slip in Cali d8 Sex, Drugs, and Videotape d9 The Iranian Connection d10 Boating and Drugs: Slips Owned by the Cali Cartel6 Vấn đề khi khớp xâu VD truy vấn 1: tìm các tài liệu liên quan đến chủ đề « money laundering » – Tìm được d4, không có d2 VD truy vấn 2: tìm các tài liệu liên quan đến vấn đề « drugs » – Tìm được d8,d10, không có d6 dù « dope » ~~ « drugs » – d2, d3 bị bỏ qua mặc dù cả hai đều là sự phối hợp hành động chung chống ma tuý (drug cartel)7 Vấn đề khi khớp xâu Xử lý vấn đề ngữ nghĩa: – Từ đồng nghĩa: buy/purchase – Từ đa nghĩa: present : a gift, the current moment, to show or display Xử lý trật tự từ8 Kiến trúc tổng thể hệ thống IR9 Biểu diễn văn bản10 Biểu diễn văn bản Mỗi tài liệu text được biểu diễn bởi một tập các từ (bag of words) – VD: “Lord of the rings” {“the”, “Lord”, “rings”, “of”} – Mỗi từ được coi là một chiều trong không gian từ điển – Số chiều = kích thước của từ điển Một số kỹ thuật xử lý: – Stop list – Stemming – Frequency table11 Biểu diễn văn bản12 Biểu diễn văn bản (…) Stop list: các từ không giúp phân biệt các tài liệu trong 1 tập các tài liệu được xem xét – Chung: « the », « a », « of », « at », « are », « for », « with », … – Tùy thuộc vào bản chất của CSDL: Tài liệu kỹ thuật về Computer Science : « computer » thuộc stop list Tài liệu về ngành nông, lâm nghiệp : « computer » KHÔNG thuộc stop list13 Biểu diễn văn bản (…) Stemming: nhóm các biến thể của một từ gốc thành 1 nhóm, biểu diễn bởi 1 từ – « retrieved », « retrieval », « retrieving », « retrieval » « retriev » – « drug », « drugs », « drugged » « drug » – .. Thesaurus: nhóm các từ gần nghĩa sử dụng từ điển từ đồng nghĩa hoặc có liên quan giữa chúng: – « learning », « school work », « reading », « study » « study »14 Biểu diễn văn bản (…) Frequency table (bảng tần số): hỗ trợ xác định mức độ quan trọng khác nhau của các từ trong văn bản khi thực hiện tìm kiếm – D: tập N văn bản – T: tập M từ trong các tài liệu trong D – Frequency table: MxN tf(i, j) (term frequency): số lần xuất hiện các từ ti trong văn bản dj15 Biểu diễn văn bản (…) Term/document d1 d2 d3 d4 d5 d6 t1 615 390 10 10 18 65 t2 15 4 76 217 91 816 t3 2 8 815 142 765 1 t4 312 511 677 11 711 2 t5 45 33 516 64 491 59 – Mỗi văn bản dj được biểu diễn bởi 1 vector chỉ tần suất xuất hiện của các từ trong văn bản đó : (tf1,j, tf2,j, … ,tfM ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm DL ĐPT Biểu diễn văn bản Đánh chỉ mục Tìm kiếm văn bản Biểu diễn và tìm kiếm Cơ sở dữ liệuGợi ý tài liệu liên quan:
-
62 trang 402 3 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 378 6 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - TS. Nguyễn Hoàng Sơn
158 trang 294 0 0 -
13 trang 294 0 0
-
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 289 0 0 -
Tài liệu học tập Tin học văn phòng: Phần 2 - Vũ Thu Uyên
85 trang 256 1 0 -
Đề cương chi tiết học phần Quản trị cơ sở dữ liệu (Database Management Systems - DBMS)
14 trang 247 0 0 -
8 trang 186 0 0
-
Giáo trình về dữ liệu và các mô hình cơ sở dữ liệu
62 trang 186 0 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - Đại học Kinh tế TP. HCM
115 trang 176 0 0