Bài giảng Tìm kiếm và trình diễn thông tin: Bài 4 - TS.Nguyễn Bá Ngọc
Số trang: 31
Loại file: pdf
Dung lượng: 754.85 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 4 hướng đến trình bày trọng số từ, mô hình không gian vec-tơ như: Xếp hạng kết quả tìm kiếm; mức tương đồng; hệ số Jaccard; trọng số từ;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 4 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Trọng số từ, mô hình không gian vec-tơ 1 Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2Nội dung chính 1. Trọng số từ 2. Mô hình không gian vec-tơ 3Xếp hạng kết quả tìm kiếm Theo tiêu chí tương đồng: Đánh giá mức tương đồng giữa văn bản và truy vấn Trả về những văn bản có mức tương đồng cao và theo thứ tự giảm dần giá trị đó. 4 Mức tương đồng Trong xếp hạng, quan hệ thứ tự quan trọng hơn tính chính xác của các giá trị. Thông thường mức tương đồng được đưa về miền giá trị [0, 1]. Văn bản thường được đánh giá dựa trên cách sử dụng từ truy vấn. 5 Ch. 6 Hệ số Jaccard Hai đối tượng bất kỳ được đánh giá là tương đồng nếu chia sẻ những đặc trưng chung. Hệ số Jaccard được sử dụng khá rộng rãi để đánh giá mức tương đồng. Đối với hai tập hợp A và B: Jaccard(A, B) = |A ∩ B| / |A ∪ B| 0 Trọng số từ Thể hiện tầm quan trọng của từ đối với văn bản: Đồng biến với số lần từ được sử dụng trong văn bản. Nghịch biến với số văn bản sử dụng nó. 7 Trọng số tf.idf Trọng số tf.idf được tính như sau: wtf.idf(t, d) = wtf(t,d) x idf(t) 8Thành phần tf Term Frequency (tf) Trọng số 1 + ???10 ???,? , ?ế? ???,? > 0 ??? ?, ? = 0, ?ế? ??ượ? ?ạ? Trong đó: tft,d là tần suất từ t trong văn bản d là số lần từ t được sử dụng trong văn bản d 9Thành phần idf Inverse document frequency (idf) Xác định idf(t) như sau: idf(t) = log10(N/dft) Trong đó N là số văn bản trong bộ dữ liệu; dft là số văn bản chứa từ t 10Nội dung chính 1. Trọng số từ 2. Mô hình không gian vec-tơ 11Biểu diễn văn bản và truy vấn Trong không gian vec-tơ M chiều, với M = |V| là kích thước bộ từ vựng, mỗi thuật ngữ trong bộ từ vựng là một trục của không gian: Mỗi văn bản, mỗi truy vấn là một điểm trong không gian này M có thể rất lớn, vec-tơ biểu diễn văn bản và truy vấn là những vec-tơ thưa. Ký hiệu ?, ? là biểu diễn vec-tơ của văn bản d và truy vấn q. 12Xác định mức tương đồng Tương đồng là đặc tính nghịch của sự khác biệt. Có thể xác định mức khác biệt bằng khoảng cách. Thử nghiệm 1: Xếp hạng văn bản theo thứ tự tăng dần của khoảng các Euclide giữa các điểm biểu diễn văn bản và truy vấn. 13 Ví dụ khoảng cách Euclide Khoảng cách Euclide giữa biểu diễn vec-tơ của q và d2 tương đối lớn mặc dù phân bố từ khá giống nhau 14Sử dụng khoảng cách góc Thử nghiệm 2: Từ văn bản d thiết lập d’ bằng cách lặp lại nội dung của d. Về mặt nội dung thì d và d’ là tương đương. Văn bản d’ tuy dài hơn nhưng không cung cấp thông tin mới. Khoảng cách Euclide giữa d và d’ có thể rất lớn Góc giữa biểu diễn vec-tơ của d và d’ bằng 0 thể hiện mức tương đồng cực đại Xếp hạng văn bản theo thứ tự tăng dần của góc giữa các biểu diễn vec-tơ của văn bản và truy vấn. 15Thay thế góc bằng cosine Hai phương pháp sau là tương đương Xếp hạng văn bản theo thứ tự tăng dần góc giữa các biểu diễn vec-tơ của văn bản và truy vấn Xếp hạng văn bản theo thứ tự giảm dần cosine góc giữa các biểu diễn vec-tơ của văn bản và truy vấn. Cosine là hàm đơn điệu giảm trong khoảng [0o,180o] 16Sử dụng cosine thay gócTính cosine như thế nào? Ưu điểm sử dụngcosine so với góc? 17 Mức tương đồng Cosine t3 Mức tương đồng cosine thể hiện bằng cosine 1 góc giữa hai vec-tơ Là tích vô hướng chia cho tích độ dài các vec-tơ D1 Q ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 4 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Trọng số từ, mô hình không gian vec-tơ 1 Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2Nội dung chính 1. Trọng số từ 2. Mô hình không gian vec-tơ 3Xếp hạng kết quả tìm kiếm Theo tiêu chí tương đồng: Đánh giá mức tương đồng giữa văn bản và truy vấn Trả về những văn bản có mức tương đồng cao và theo thứ tự giảm dần giá trị đó. 4 Mức tương đồng Trong xếp hạng, quan hệ thứ tự quan trọng hơn tính chính xác của các giá trị. Thông thường mức tương đồng được đưa về miền giá trị [0, 1]. Văn bản thường được đánh giá dựa trên cách sử dụng từ truy vấn. 5 Ch. 6 Hệ số Jaccard Hai đối tượng bất kỳ được đánh giá là tương đồng nếu chia sẻ những đặc trưng chung. Hệ số Jaccard được sử dụng khá rộng rãi để đánh giá mức tương đồng. Đối với hai tập hợp A và B: Jaccard(A, B) = |A ∩ B| / |A ∪ B| 0 Trọng số từ Thể hiện tầm quan trọng của từ đối với văn bản: Đồng biến với số lần từ được sử dụng trong văn bản. Nghịch biến với số văn bản sử dụng nó. 7 Trọng số tf.idf Trọng số tf.idf được tính như sau: wtf.idf(t, d) = wtf(t,d) x idf(t) 8Thành phần tf Term Frequency (tf) Trọng số 1 + ???10 ???,? , ?ế? ???,? > 0 ??? ?, ? = 0, ?ế? ??ượ? ?ạ? Trong đó: tft,d là tần suất từ t trong văn bản d là số lần từ t được sử dụng trong văn bản d 9Thành phần idf Inverse document frequency (idf) Xác định idf(t) như sau: idf(t) = log10(N/dft) Trong đó N là số văn bản trong bộ dữ liệu; dft là số văn bản chứa từ t 10Nội dung chính 1. Trọng số từ 2. Mô hình không gian vec-tơ 11Biểu diễn văn bản và truy vấn Trong không gian vec-tơ M chiều, với M = |V| là kích thước bộ từ vựng, mỗi thuật ngữ trong bộ từ vựng là một trục của không gian: Mỗi văn bản, mỗi truy vấn là một điểm trong không gian này M có thể rất lớn, vec-tơ biểu diễn văn bản và truy vấn là những vec-tơ thưa. Ký hiệu ?, ? là biểu diễn vec-tơ của văn bản d và truy vấn q. 12Xác định mức tương đồng Tương đồng là đặc tính nghịch của sự khác biệt. Có thể xác định mức khác biệt bằng khoảng cách. Thử nghiệm 1: Xếp hạng văn bản theo thứ tự tăng dần của khoảng các Euclide giữa các điểm biểu diễn văn bản và truy vấn. 13 Ví dụ khoảng cách Euclide Khoảng cách Euclide giữa biểu diễn vec-tơ của q và d2 tương đối lớn mặc dù phân bố từ khá giống nhau 14Sử dụng khoảng cách góc Thử nghiệm 2: Từ văn bản d thiết lập d’ bằng cách lặp lại nội dung của d. Về mặt nội dung thì d và d’ là tương đương. Văn bản d’ tuy dài hơn nhưng không cung cấp thông tin mới. Khoảng cách Euclide giữa d và d’ có thể rất lớn Góc giữa biểu diễn vec-tơ của d và d’ bằng 0 thể hiện mức tương đồng cực đại Xếp hạng văn bản theo thứ tự tăng dần của góc giữa các biểu diễn vec-tơ của văn bản và truy vấn. 15Thay thế góc bằng cosine Hai phương pháp sau là tương đương Xếp hạng văn bản theo thứ tự tăng dần góc giữa các biểu diễn vec-tơ của văn bản và truy vấn Xếp hạng văn bản theo thứ tự giảm dần cosine góc giữa các biểu diễn vec-tơ của văn bản và truy vấn. Cosine là hàm đơn điệu giảm trong khoảng [0o,180o] 16Sử dụng cosine thay gócTính cosine như thế nào? Ưu điểm sử dụngcosine so với góc? 17 Mức tương đồng Cosine t3 Mức tương đồng cosine thể hiện bằng cosine 1 góc giữa hai vec-tơ Là tích vô hướng chia cho tích độ dài các vec-tơ D1 Q ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Trọng số từ Mô hình không gian vec-tơ Mức tương đồngGợi ý tài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 285 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 228 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 215 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 213 0 0 -
62 trang 205 2 0
-
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 197 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 178 0 0 -
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 169 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 164 0 0 -
65 trang 151 0 0