Luận văn về Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt
Số trang: 147
Loại file: pdf
Dung lượng: 1.01 MB
Lượt xem: 7
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trênmọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàunguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thưviện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xungquanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữacon người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có...
Nội dung trích xuất từ tài liệu:
Luận văn về Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Luận vănTìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng ViệtTìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỤC LỤCPhần 1 : TÌM HIỂU VẤN ĐỀ ....................................................................................... 2 Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE .......................... 2 1. Các bộ phận cấu thành hệ thống search engine .................................................... 2 1.1 Bộ thu thập thông tin – Robot ......................................................................... 2 1.2 Bộ lập chỉ mục – Index ................................................................................... 2 1.3 Bộ tìm kiếm thông tin – Search Engine .......................................................... 3 2. Nguyên lý hoạt động ............................................................................................. 3 Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT............................................. 5 1. Ứng dụng của Robot ............................................................................................. 5 1.1 Phân tích, thống kê – Statistical Analysis ....................................................... 5 1.2 Duy trì siêu liên kế - Maintenance .................................................................. 5 1.3 Ánh xạ địa chỉ web - Mirroring ...................................................................... 5 1.4 Phát hiện tài nguyên – Resource Discovery ................................................... 6 1.5 Kết hợp các công dụng trên- Combined uses ................................................. 6 2. Robot chỉ mục – Robot Indexing .......................................................................... 6 3. Các chiến thuật thu thập dữ liệu [II.1] .................................................................. 8 3.1 Chiến thuật tìm kiếm theo chiều sâu ............................................................... 8 3.2 Chiến thuật tìm kiếm theo chiều rộng ............................................................. 9 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên ............................................................ 9 4. Những vấn đề cần lưu ý của web robot .............................................................. 10 4.1 Chi phí và hiểm hoạ ...................................................................................... 10 4.1.1 Qúa tải mạng và server – Network resource and server load................. 10 4.1.2 Sự cập nhật quá mức- Updating overhead ............................................. 11 4.1.3 Những tình huống không mong đợi – Bad implementations ................. 12 4.2 Tiêu chuẩn loại trừ robot ............................................................................... 12 4.2.1 File robot.txt ........................................................................................... 13 4.2.2 Thẻ META dành cho robot – Robot META tag .................................... 14 4.2.3 Nhược điểm của file robot.txt ................................................................ 15 Chương 3: BỘ LẬP CHỈ MỤC – INDEX .............................................................. 18 1. Khái quát về hệ thống lập chỉ mục ..................................................................... 18 2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]) .............................. 21Lê Thuý Ngọc - 0012745 1 Đỗ Mỹ Nhung - 0012624Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1]) ..................................... 21 2.2 Một số hàm tính trọng số mục từ. ([I.1]) ...................................................... 23 2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) ............................................................................................................ 24 2.2.2 Độ nhiễu tín hiệu (Signal Noise): ........................................................... 25 2.2.3 Giá trị độ phân biệt của mục từ : ............................................................ 25 2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu .............. 26 2.3 Lập chỉ mục tự động cho tài liệu .................................................................. 28 3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) ......................................... ...
Nội dung trích xuất từ tài liệu:
Luận văn về Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Luận vănTìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng ViệtTìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỤC LỤCPhần 1 : TÌM HIỂU VẤN ĐỀ ....................................................................................... 2 Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE .......................... 2 1. Các bộ phận cấu thành hệ thống search engine .................................................... 2 1.1 Bộ thu thập thông tin – Robot ......................................................................... 2 1.2 Bộ lập chỉ mục – Index ................................................................................... 2 1.3 Bộ tìm kiếm thông tin – Search Engine .......................................................... 3 2. Nguyên lý hoạt động ............................................................................................. 3 Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT............................................. 5 1. Ứng dụng của Robot ............................................................................................. 5 1.1 Phân tích, thống kê – Statistical Analysis ....................................................... 5 1.2 Duy trì siêu liên kế - Maintenance .................................................................. 5 1.3 Ánh xạ địa chỉ web - Mirroring ...................................................................... 5 1.4 Phát hiện tài nguyên – Resource Discovery ................................................... 6 1.5 Kết hợp các công dụng trên- Combined uses ................................................. 6 2. Robot chỉ mục – Robot Indexing .......................................................................... 6 3. Các chiến thuật thu thập dữ liệu [II.1] .................................................................. 8 3.1 Chiến thuật tìm kiếm theo chiều sâu ............................................................... 8 3.2 Chiến thuật tìm kiếm theo chiều rộng ............................................................. 9 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên ............................................................ 9 4. Những vấn đề cần lưu ý của web robot .............................................................. 10 4.1 Chi phí và hiểm hoạ ...................................................................................... 10 4.1.1 Qúa tải mạng và server – Network resource and server load................. 10 4.1.2 Sự cập nhật quá mức- Updating overhead ............................................. 11 4.1.3 Những tình huống không mong đợi – Bad implementations ................. 12 4.2 Tiêu chuẩn loại trừ robot ............................................................................... 12 4.2.1 File robot.txt ........................................................................................... 13 4.2.2 Thẻ META dành cho robot – Robot META tag .................................... 14 4.2.3 Nhược điểm của file robot.txt ................................................................ 15 Chương 3: BỘ LẬP CHỈ MỤC – INDEX .............................................................. 18 1. Khái quát về hệ thống lập chỉ mục ..................................................................... 18 2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]) .............................. 21Lê Thuý Ngọc - 0012745 1 Đỗ Mỹ Nhung - 0012624Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1]) ..................................... 21 2.2 Một số hàm tính trọng số mục từ. ([I.1]) ...................................................... 23 2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) ............................................................................................................ 24 2.2.2 Độ nhiễu tín hiệu (Signal Noise): ........................................................... 25 2.2.3 Giá trị độ phân biệt của mục từ : ............................................................ 25 2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu .............. 26 2.3 Lập chỉ mục tự động cho tài liệu .................................................................. 28 3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) ......................................... ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Search Engine tìm hiểu Search Engine nghiên cứu Search Engine ứng dụng Search EngineGợi ý tài liệu liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 304 0 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 235 0 0 -
79 trang 225 0 0
-
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 218 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 213 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 210 0 0 -
Báo cáo thực tập nhà máy đường Bến Tre
68 trang 208 0 0 -
BÀI THUYẾT TRÌNH CÔNG TY CỔ PHẦN
11 trang 204 0 0 -
Báo cáo bài tập môn học : phân tích thiết kế hệ thống
27 trang 200 0 0 -
Luận văn: Nghiên cứu văn hóa Ấn Độ
74 trang 198 0 0