Danh mục

Luận văn thạc sỹ: Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

Số trang: 60      Loại file: pdf      Dung lượng: 2.12 MB      Lượt xem: 5      Lượt tải: 0    
Thu Hiền

Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trên cơ sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo và phần nội dung gồm ba chương và được trình bày theo thứ tự sau:Chương 1. Giới thiệu tổng quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và các yếu tố cơ bản phục vụ cho việc tìm kiếm thông tin....
Nội dung trích xuất từ tài liệu:
Luận văn thạc sỹ: Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU TRANGKỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN LUẬN VĂN THẠC SỸ Hà Nội - 2010 3 MỤC LỤCDANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5DANH MỤC CÁC BẢNG 6DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7MỞ ĐẦU 8CHƯƠNG 1- TỔNG QUAN 11 1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 11 1.1.1 Giới thiệu 11 1.1.2 Mục tiêu chính 13 1.1.3 Mô hình dữ liệu đa phương tiện 13 1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] 14 1.2.1 Trích chọn đặc trưng 15 1.2.2 Chỉ số hóa cấu trúc 16 1.2.3 Đo tính tương tự 17 1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17 1.3.1 Khái quát 17 1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval) 18 1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System) 20 1.4 xếp hạng tài liệu (Ranking) [1] [8] 21CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 25 2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11] 25 2.1.1 Truy vấn Boolean 25 2.1.2 Cấu trúc tệp 26 2.1.3 Các từ dừng và từ gốc 27 2.1.4 Chỉ số hoá và bổ sung 28 2.1.5 Kỹ thuật nén chỉ số (index compression) 29 2.1.6 Chỉ mục tự động 31 2.2 Thước đo hiệu năng [1] [5] [8] 33 2.3 Mô hình truy tìm không gian vectơ [1] [11] 36 2.4 Mô hình truy tìm theo xác suất [1] [6] 37 2.5 Mô hình truy tìm trên cơ sở cụm [1] [6] 38 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 39 2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40 2.7.1 Ý tưởng cơ bản của LSI 40 2.7.2 Một số khái niệm cơ bản 42 4 2.7.3 Kỹ thuật SVD (singular value decomposition) 43CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI 54 3.1 Bài toán 54 3.2 Chức năng của chương trình 55 3.3 Hoạt động cơ bản trong chương trình 56KẾT LUẬN 60TÀI LIỆU THAM KHẢO 61 5 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮTKý hiệu viết tắt Tiếng Anh Tiếng Việt CSDL DataBase Cơ sở dữ liệu DBMS DataBase Manager System Hệ quản trị Cơ sở dữ liệu IDF Inverse Document Frequency Tần số xuất hiện tài liệu IR Information retrieval Truy tìm thông tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn MIRS Multimedia Information Retrieval Hệ thống truy tìm thông tin đa System phương tiện SVD Singular Value Decomposition Tách giá trị riêng TF Term Frequency Tần số xuất hiện thuật ngữ 6 DANH MỤC CÁC BẢNGBảng 1.1 Ma trận tài liệu - thuật ngữ .............................................................................. 23Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF .................................................... 24Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu .......................................... 24Bảng 2.1 Kết quả recall và precision .............................................................................. 35Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu ............................................. 44 7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊHinh 1.1 Mô hình dữ liệu đa phương tiện ....................................................................... 14Hình 1.2 Hệ thống IR tiêu biểu ....................................................................................... 19Hình 1.3 Tiến trình truy vấn tài liệu ................................................................................ 21Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động . ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: