Danh mục

Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Số trang: 43      Loại file: pdf      Dung lượng: 888.36 KB      Lượt xem: 13      Lượt tải: 0    
10.10.2023

Phí tải xuống: 21,500 VND Tải xuống file đầy đủ (43 trang) 0
Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web search engine). Máy này có khả năng tìm kiếm thông tin linh hoạt , nhanh chóng và rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google1, Altavista2, HotBot3, Lycos4, AllTheWeb5 là những máy truy tìm hiệu quả và đang được sử dụng rộng rãi ....
Nội dung trích xuất từ tài liệu:
Luận văn: Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Luận vănPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung saiPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Mục lụcCHƢƠNG 1 ....................................................................................................................... 4VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB .......................................................... 4 1.1. Máy truy tìm Web ............................................................................................. 4 1.1.1. Web Crawler ............................................................................................. 5 Document Index (lập chỉ mục tài liệu) .................................................... 5 1.1.2. Document Cache(lưu trữ tài liệu) ............................................................ 6 1.1.3. 1.1.4. Document Ranking ................................................................................... 6 Query Processor(bộ xử lý truy vấn) ........................................................ 6 1.1.5. Presentation interface(giao diện trình bày) ............................................ 6 1.1.6. Trình bày kết quả tìm kiếm của máy truy tìm Web Google ......................... 7 2.1.CHƢƠNG II .................................................................................................................... 10PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI........................................................................................................................................... 10 Khái niệm phân cụm ....................................................................................... 10 2.1. Phân cụm tập kết quả tìm kiếm Web ............................................................ 10 2.2. Khái niệm................................................................................................. 10 2.2.1. Phép đo độ tương tự ............................................................................... 11 2.2.2. Đặc điểm .................................................................................................. 12 2.2.3. Hiệu quả ................................................................................................... 13 2.2.4. Yêu cầu ..................................................................................................... 13 2.2.5. Lý thuyết tập thô ............................................................................................. 14 2.3. Giới thiệu ................................................................................................. 14 2.3.1. Quan hệ không thể phân biệt ................................................................. 15 2.3.2. Hàm thuộc thô ......................................................................................... 16 2.3.3. Định nghĩa Hệ thông tin ......................................................................... 16 2.3.4. Không gian xấp xỉ tổng quát (Generalized approximation spaces) ... 19 2.3.5. Mô hình tập thô dung sai (TRSM) ................................................................ 21 2.4. Không gian tolerance của các từ............................................................ 21 2.4.1. Biểu diễn tài liệu ...................................................................................... 23 2.4.2. 3. Phương pháp trọng số mở rộng đối với xấp xỉ trên ......................................... 24Chương III Giải thuật phân cụm tập kết quả tìm kiếm web .................................... 26 Giải thuật ......................................................................................................... 26 3.1. Tiền xử lý snippet ........................................................................................ 27 3.1.1. Trích chọn những từ đặc trưng của mỗi snippet ..................................... 28 3.1.2. Sinh lớp tolerance ....................................................................................... 31 3.1.3. Giải thuật phân cụm K-means ................................................................... 34 ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: