Luận văn thạc sỹ: Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện
Số trang: 60
Loại file: pdf
Dung lượng: 2.12 MB
Lượt xem: 5
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trên cơ sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo và phần nội dung gồm ba chương và được trình bày theo thứ tự sau:Chương 1. Giới thiệu tổng quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và các yếu tố cơ bản phục vụ cho việc tìm kiếm thông tin....
Nội dung trích xuất từ tài liệu:
Luận văn thạc sỹ: Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU TRANGKỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN LUẬN VĂN THẠC SỸ Hà Nội - 2010 3 MỤC LỤCDANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5DANH MỤC CÁC BẢNG 6DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7MỞ ĐẦU 8CHƯƠNG 1- TỔNG QUAN 11 1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 11 1.1.1 Giới thiệu 11 1.1.2 Mục tiêu chính 13 1.1.3 Mô hình dữ liệu đa phương tiện 13 1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] 14 1.2.1 Trích chọn đặc trưng 15 1.2.2 Chỉ số hóa cấu trúc 16 1.2.3 Đo tính tương tự 17 1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17 1.3.1 Khái quát 17 1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval) 18 1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System) 20 1.4 xếp hạng tài liệu (Ranking) [1] [8] 21CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 25 2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11] 25 2.1.1 Truy vấn Boolean 25 2.1.2 Cấu trúc tệp 26 2.1.3 Các từ dừng và từ gốc 27 2.1.4 Chỉ số hoá và bổ sung 28 2.1.5 Kỹ thuật nén chỉ số (index compression) 29 2.1.6 Chỉ mục tự động 31 2.2 Thước đo hiệu năng [1] [5] [8] 33 2.3 Mô hình truy tìm không gian vectơ [1] [11] 36 2.4 Mô hình truy tìm theo xác suất [1] [6] 37 2.5 Mô hình truy tìm trên cơ sở cụm [1] [6] 38 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 39 2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40 2.7.1 Ý tưởng cơ bản của LSI 40 2.7.2 Một số khái niệm cơ bản 42 4 2.7.3 Kỹ thuật SVD (singular value decomposition) 43CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI 54 3.1 Bài toán 54 3.2 Chức năng của chương trình 55 3.3 Hoạt động cơ bản trong chương trình 56KẾT LUẬN 60TÀI LIỆU THAM KHẢO 61 5 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮTKý hiệu viết tắt Tiếng Anh Tiếng Việt CSDL DataBase Cơ sở dữ liệu DBMS DataBase Manager System Hệ quản trị Cơ sở dữ liệu IDF Inverse Document Frequency Tần số xuất hiện tài liệu IR Information retrieval Truy tìm thông tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn MIRS Multimedia Information Retrieval Hệ thống truy tìm thông tin đa System phương tiện SVD Singular Value Decomposition Tách giá trị riêng TF Term Frequency Tần số xuất hiện thuật ngữ 6 DANH MỤC CÁC BẢNGBảng 1.1 Ma trận tài liệu - thuật ngữ .............................................................................. 23Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF .................................................... 24Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu .......................................... 24Bảng 2.1 Kết quả recall và precision .............................................................................. 35Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu ............................................. 44 7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊHinh 1.1 Mô hình dữ liệu đa phương tiện ....................................................................... 14Hình 1.2 Hệ thống IR tiêu biểu ....................................................................................... 19Hình 1.3 Tiến trình truy vấn tài liệu ................................................................................ 21Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động . ...
Nội dung trích xuất từ tài liệu:
Luận văn thạc sỹ: Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU TRANGKỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN LUẬN VĂN THẠC SỸ Hà Nội - 2010 3 MỤC LỤCDANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 5DANH MỤC CÁC BẢNG 6DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 7MỞ ĐẦU 8CHƯƠNG 1- TỔNG QUAN 11 1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện [1] [10] [12] 11 1.1.1 Giới thiệu 11 1.1.2 Mục tiêu chính 13 1.1.3 Mô hình dữ liệu đa phương tiện 13 1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] 14 1.2.1 Trích chọn đặc trưng 15 1.2.2 Chỉ số hóa cấu trúc 16 1.2.3 Đo tính tương tự 17 1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17 1.3.1 Khái quát 17 1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval) 18 1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System) 20 1.4 xếp hạng tài liệu (Ranking) [1] [8] 21CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 25 2.1 Các truy vấn Boolean và chỉ mục tài liệu [1] [5] [11] 25 2.1.1 Truy vấn Boolean 25 2.1.2 Cấu trúc tệp 26 2.1.3 Các từ dừng và từ gốc 27 2.1.4 Chỉ số hoá và bổ sung 28 2.1.5 Kỹ thuật nén chỉ số (index compression) 29 2.1.6 Chỉ mục tự động 31 2.2 Thước đo hiệu năng [1] [5] [8] 33 2.3 Mô hình truy tìm không gian vectơ [1] [11] 36 2.4 Mô hình truy tìm theo xác suất [1] [6] 37 2.5 Mô hình truy tìm trên cơ sở cụm [1] [6] 38 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 39 2.7 Mô hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40 2.7.1 Ý tưởng cơ bản của LSI 40 2.7.2 Một số khái niệm cơ bản 42 4 2.7.3 Kỹ thuật SVD (singular value decomposition) 43CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI 54 3.1 Bài toán 54 3.2 Chức năng của chương trình 55 3.3 Hoạt động cơ bản trong chương trình 56KẾT LUẬN 60TÀI LIỆU THAM KHẢO 61 5 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮTKý hiệu viết tắt Tiếng Anh Tiếng Việt CSDL DataBase Cơ sở dữ liệu DBMS DataBase Manager System Hệ quản trị Cơ sở dữ liệu IDF Inverse Document Frequency Tần số xuất hiện tài liệu IR Information retrieval Truy tìm thông tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn MIRS Multimedia Information Retrieval Hệ thống truy tìm thông tin đa System phương tiện SVD Singular Value Decomposition Tách giá trị riêng TF Term Frequency Tần số xuất hiện thuật ngữ 6 DANH MỤC CÁC BẢNGBảng 1.1 Ma trận tài liệu - thuật ngữ .............................................................................. 23Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF .................................................... 24Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu .......................................... 24Bảng 2.1 Kết quả recall và precision .............................................................................. 35Bảng 2.2 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu ............................................. 44 7 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊHinh 1.1 Mô hình dữ liệu đa phương tiện ....................................................................... 14Hình 1.2 Hệ thống IR tiêu biểu ....................................................................................... 19Hình 1.3 Tiến trình truy vấn tài liệu ................................................................................ 21Hình 2.1 Sơ đồ duy trì các chỉ số trong tập hợp động . ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin cơ sở dữ liệu đa phương tiện tìm kiếm văn bản cơ sở nội dungGợi ý tài liệu liên quan:
-
52 trang 408 1 0
-
62 trang 388 3 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 371 6 0 -
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 289 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 286 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 283 0 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - TS. Nguyễn Hoàng Sơn
158 trang 279 0 0 -
74 trang 273 0 0
-
96 trang 273 0 0
-
13 trang 271 0 0