Danh mục

Luận văn về Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt

Số trang: 147      Loại file: pdf      Dung lượng: 1.01 MB      Lượt xem: 7      Lượt tải: 0    
tailieu_vip

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trênmọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàunguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thưviện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xungquanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữacon người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có...
Nội dung trích xuất từ tài liệu:
Luận văn về Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt Luận vănTìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng ViệtTìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt MỤC LỤCPhần 1 : TÌM HIỂU VẤN ĐỀ ....................................................................................... 2 Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE .......................... 2 1. Các bộ phận cấu thành hệ thống search engine .................................................... 2 1.1 Bộ thu thập thông tin – Robot ......................................................................... 2 1.2 Bộ lập chỉ mục – Index ................................................................................... 2 1.3 Bộ tìm kiếm thông tin – Search Engine .......................................................... 3 2. Nguyên lý hoạt động ............................................................................................. 3 Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT............................................. 5 1. Ứng dụng của Robot ............................................................................................. 5 1.1 Phân tích, thống kê – Statistical Analysis ....................................................... 5 1.2 Duy trì siêu liên kế - Maintenance .................................................................. 5 1.3 Ánh xạ địa chỉ web - Mirroring ...................................................................... 5 1.4 Phát hiện tài nguyên – Resource Discovery ................................................... 6 1.5 Kết hợp các công dụng trên- Combined uses ................................................. 6 2. Robot chỉ mục – Robot Indexing .......................................................................... 6 3. Các chiến thuật thu thập dữ liệu [II.1] .................................................................. 8 3.1 Chiến thuật tìm kiếm theo chiều sâu ............................................................... 8 3.2 Chiến thuật tìm kiếm theo chiều rộng ............................................................. 9 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên ............................................................ 9 4. Những vấn đề cần lưu ý của web robot .............................................................. 10 4.1 Chi phí và hiểm hoạ ...................................................................................... 10 4.1.1 Qúa tải mạng và server – Network resource and server load................. 10 4.1.2 Sự cập nhật quá mức- Updating overhead ............................................. 11 4.1.3 Những tình huống không mong đợi – Bad implementations ................. 12 4.2 Tiêu chuẩn loại trừ robot ............................................................................... 12 4.2.1 File robot.txt ........................................................................................... 13 4.2.2 Thẻ META dành cho robot – Robot META tag .................................... 14 4.2.3 Nhược điểm của file robot.txt ................................................................ 15 Chương 3: BỘ LẬP CHỈ MỤC – INDEX .............................................................. 18 1. Khái quát về hệ thống lập chỉ mục ..................................................................... 18 2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]) .............................. 21Lê Thuý Ngọc - 0012745 1 Đỗ Mỹ Nhung - 0012624Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt 2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1]) ..................................... 21 2.2 Một số hàm tính trọng số mục từ. ([I.1]) ...................................................... 23 2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) ............................................................................................................ 24 2.2.2 Độ nhiễu tín hiệu (Signal Noise): ........................................................... 25 2.2.3 Giá trị độ phân biệt của mục từ : ............................................................ 25 2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu .............. 26 2.3 Lập chỉ mục tự động cho tài liệu .................................................................. 28 3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) ......................................... ...

Tài liệu được xem nhiều: