Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai
Số trang: 43
Loại file: pdf
Dung lượng: 888.36 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web search engine). Máy này có khả năng tìm kiếm thông tin linh hoạt , nhanh chóng và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google1, Altavista2, HotBot3, Lycos4, AllTheWeb5 là những máy truy tìm hiệu quả và đang được sử dụng rộng rãi ....
Nội dung trích xuất từ tài liệu:
Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Luận vănPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung saiPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Mục lụcCHƢƠNG 1 ....................................................................................................................... 4VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB .......................................................... 4 1.1. Máy truy tìm Web ............................................................................................. 4 1.1.1. Web Crawler ............................................................................................. 5 Document Index (lập chỉ mục tài liệu) .................................................... 5 1.1.2. Document Cache(lưu trữ tài liệu) ............................................................ 6 1.1.3. 1.1.4. Document Ranking ................................................................................... 6 Query Processor(bộ xử lý truy vấn) ........................................................ 6 1.1.5. Presentation interface(giao diện trình bày) ............................................ 6 1.1.6. Trình bày kết quả tìm kiếm của máy truy tìm Web Google ......................... 7 2.1.CHƢƠNG II .................................................................................................................... 10PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI........................................................................................................................................... 10 Khái niệm phân cụm ....................................................................................... 10 2.1. Phân cụm tập kết quả tìm kiếm Web ............................................................ 10 2.2. Khái niệm................................................................................................. 10 2.2.1. Phép đo độ tương tự ............................................................................... 11 2.2.2. Đặc điểm .................................................................................................. 12 2.2.3. Hiệu quả ................................................................................................... 13 2.2.4. Yêu cầu ..................................................................................................... 13 2.2.5. Lý thuyết tập thô ............................................................................................. 14 2.3. Giới thiệu ................................................................................................. 14 2.3.1. Quan hệ không thể phân biệt ................................................................. 15 2.3.2. Hàm thuộc thô ......................................................................................... 16 2.3.3. Định nghĩa Hệ thông tin ......................................................................... 16 2.3.4. Không gian xấp xỉ tổng quát (Generalized approximation spaces) ... 19 2.3.5. Mô hình tập thô dung sai (TRSM) ................................................................ 21 2.4. Không gian tolerance của các từ............................................................ 21 2.4.1. Biểu diễn tài liệu ...................................................................................... 23 2.4.2. 3. Phương pháp trọng số mở rộng đối với xấp xỉ trên ......................................... 24Chương III Giải thuật phân cụm tập kết quả tìm kiếm web .................................... 26 Giải thuật ......................................................................................................... 26 3.1. Tiền xử lý snippet ........................................................................................ 27 3.1.1. Trích chọn những từ đặc trưng của mỗi snippet ..................................... 28 3.1.2. Sinh lớp tolerance ....................................................................................... 31 3.1.3. Giải thuật phân cụm K-means ................................................................... 34 ...
Nội dung trích xuất từ tài liệu:
Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Luận vănPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung saiPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Mục lụcCHƢƠNG 1 ....................................................................................................................... 4VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB .......................................................... 4 1.1. Máy truy tìm Web ............................................................................................. 4 1.1.1. Web Crawler ............................................................................................. 5 Document Index (lập chỉ mục tài liệu) .................................................... 5 1.1.2. Document Cache(lưu trữ tài liệu) ............................................................ 6 1.1.3. 1.1.4. Document Ranking ................................................................................... 6 Query Processor(bộ xử lý truy vấn) ........................................................ 6 1.1.5. Presentation interface(giao diện trình bày) ............................................ 6 1.1.6. Trình bày kết quả tìm kiếm của máy truy tìm Web Google ......................... 7 2.1.CHƢƠNG II .................................................................................................................... 10PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI........................................................................................................................................... 10 Khái niệm phân cụm ....................................................................................... 10 2.1. Phân cụm tập kết quả tìm kiếm Web ............................................................ 10 2.2. Khái niệm................................................................................................. 10 2.2.1. Phép đo độ tương tự ............................................................................... 11 2.2.2. Đặc điểm .................................................................................................. 12 2.2.3. Hiệu quả ................................................................................................... 13 2.2.4. Yêu cầu ..................................................................................................... 13 2.2.5. Lý thuyết tập thô ............................................................................................. 14 2.3. Giới thiệu ................................................................................................. 14 2.3.1. Quan hệ không thể phân biệt ................................................................. 15 2.3.2. Hàm thuộc thô ......................................................................................... 16 2.3.3. Định nghĩa Hệ thông tin ......................................................................... 16 2.3.4. Không gian xấp xỉ tổng quát (Generalized approximation spaces) ... 19 2.3.5. Mô hình tập thô dung sai (TRSM) ................................................................ 21 2.4. Không gian tolerance của các từ............................................................ 21 2.4.1. Biểu diễn tài liệu ...................................................................................... 23 2.4.2. 3. Phương pháp trọng số mở rộng đối với xấp xỉ trên ......................................... 24Chương III Giải thuật phân cụm tập kết quả tìm kiếm web .................................... 26 Giải thuật ......................................................................................................... 26 3.1. Tiền xử lý snippet ........................................................................................ 27 3.1.1. Trích chọn những từ đặc trưng của mỗi snippet ..................................... 28 3.1.2. Sinh lớp tolerance ....................................................................................... 31 3.1.3. Giải thuật phân cụm K-means ................................................................... 34 ...
Tìm kiếm theo từ khóa liên quan:
luận văn mẫu đồ án tốt nghiệp công nghệ thông tin thuật toán phân cụm tập thô dung sai xử lý truy vấn tìm kiếm thông tinGợi ý tài liệu liên quan:
-
124 trang 554 0 0
-
Đồ án tốt nghiệp: Thiết kế và thi công mô hình điều khiển, giám sát bãi giữ xe ô tô tự động
187 trang 465 0 0 -
52 trang 431 1 0
-
Đồ án tốt nghiệp: Nghiên cứu sản xuất nến thơm quy mô phòng thí nghiệm
73 trang 416 0 0 -
Đồ án tốt nghiệp: Xe điều khiển từ xa thông qua Smartphone
23 trang 360 0 0 -
HƯỚNG DẪN THỰC TẬP VÀ VIẾT BÁO CÁO THỰC TẬP TỐT NGHIỆP
18 trang 357 0 0 -
116 trang 341 0 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 318 0 0 -
105 trang 309 0 0
-
Đồ án tốt nghiệp: Thiết kế và thi công Robot đánh trống trong trường học
99 trang 306 0 0