Tiểu luận Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Số trang: 42 Loại file: pdf Dung lượng: 1.10 MB Lượt xem: 15 Lượt tải: 0

Hoai.2512

Phí lưu trữ: 21,000 VND

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được nguồn tài nguyên ấy hiệu quả nhất. Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web search engine)....
Nội dung trích xuất từ tài liệu:
Tiểu luận Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai Tiểu luậnPhân cụm tập kết quảtìm kiếm web dựa vào tập thô dung saiPhân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai LỜI MỞ ĐẦU Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thànhnguồn tài nguyên khổng lồ và quý giá. Nó cung cấp cho chúng ta thông tin về mọilĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy cómột vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá đượcnguồn tài nguyên ấy hiệu quả nhất. Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Websearch engine). Máy này có khả năng tìm kiếm thông tin linh hoạt , nhanh chóngvà rất dễ sử dụng . Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quantâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google1,Altavista2, HotBot3, Lycos4, AllTheWeb5 là những máy truy tìm hiệu quả và đangđược sử dụng rộng rãi . Ngoài ra, người ta cũng đã tạo ra các thư mục Web , chẳng hạn như Yahoo6,Open Directory Project7. Theo kiểu này thì các tài liệu Web được sắp xếp thànhcác thư có phân cấp, người sử dụng có thể tìm thông tin bắng cách duyệt các câythư mục và xác định tài liệu mình cần tìm. Thế nhưng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệuquả , chiếm nhiều thời gian vì: -Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên máy truytìm chỉ có thể sắp xếp một phần các chỉ mục của Web. -Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ýđịnh của họ , do vậy mà tập kết quả tìm kiếm Web là chung chung. Từ ảnh hưởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàngnghìn đến hang triệu tài liệu, do đó tìm được đúng tài liệu mình cần là công việcvô cùng khó khăn.1 http://www.google.com2 http://www.altavista.com3 http://www.hotbot.com4 http://www.lycos.com5 http://www.alltheweb.com6 http://www.yahoo.com7 http://www.dmoz.org 1 1Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai CHƯƠNG I VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB Như chúng ta đều biết www như là từ điển bách khoa toàn thư , là thư việnkhổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet. Đốivới chúng ta nó là một trong những nguồn tài nguyên thông tin có giá trị nhất, nếukhông có nó thì mọi hoạt động hang ngày sẽ kém hiệu quả. Nhưng vấn đề đặt ra làchúng ta phải truy cập và sử dụng nguồn tài nguyên ấy nhhư thế nào để có hiệuquả nhất. Để tìm được đúng thông tin cần tìm trong nguồn tài nguyên khổng lồ làmột thách thức lớn . Chính vì vậy mà hiện nay đã và đang có rất nhiều hướngnghiên cứu để giải quyết vấn đề này.1.1. Máy truy tìm Web Một trong những thành công nhất trong nghiên cứu và giải quyết vấn đềtrên là việc tạo ra được máy truy tìm Web. Máy này có nhiệm vụ giúp người sửdụng tìm tài liệu mình quan tâm. Các tài liệu chủ yếu có dạng HTML, PDF, PS,MS Word và MS PowerPoint. Giao diện máy truy tìm thân thiện và rất dễ sử dụng , người sử dụng chỉ cầnđặt câu hỏi truy vấnvà ra lệnh tìm. Máy sẽ trả về tập kết quả tìm kiếm(được gọi làcác sinppet) liên quan đến câu hỏi truy vấn đó. Snippet miêu tả ngắn gọn nội dungcủa tài liệu Web(trang Web), nó thường bao gồm tựa đề , địa chỉ web của tài liệu(được gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truyvấn . Cấu trúc và phương thức hoạt động của máy truy tìm Web như sau: 2 2Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai1.1.1. Web Crawler Web Crawler là một trong hai thành phần trực tiếp tương tác với internet,nó còn được gọi là web spider hoặc robot. Công việc chính của Web Crawler làphát hiện những nguồn tài nguyên mới trên Web. Nó giải quyết vấn đề này bằngcách thực hiện tìm kiếm đệ quy theo các đường link từ tất cả các trang đã đượcduyệt . Trong khi khai phá các nguồn tài nguyên mới trên Internet, Web Crawlercòn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không và chúng ta đã đượccập nhật hay chưa. Mục đích của công việc này là giúp cho máy truy tìm cập nhậtđược tất cả tài liệu của Web(kể cả các tài liệu cũ và mới).1.1.2. Document Index (lập chỉ mục tài liệu) Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm. Tìm tài liệucó chứa những từ trong câu hỏi truy vấn? Để thực hiện công việc này thì đa số cácmáy truy tìm sử dụng biến dữ liệu có cấu trúc inverted index. Inverted indexgiống như danh sách chỉ mục ở phần ...