Danh mục

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - TS.Nguyễn Bá Ngọc

Số trang: 30      Loại file: pdf      Dung lượng: 707.81 KB      Lượt xem: 13      Lượt tải: 0    
Thư viện của tui

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - Thu thập dữ liệu do TS.Nguyễn Bá Ngọc biên soạn với các vấn đề chính như: Bộ thu thập đơn giản; thao tác thu thập thông tin cơ bản; hạn chế của bộ thu thập đơn giản; quy mô của bài toán thu thập; bộ thu thập trong thực tế;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Thu thập dữ liệu Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Bộ thu thập đơn giản Bộ thu thập trong thực tế 3 Thu gom dữ liệu khó tới đâu? Máy tìm kiếm phải tự động thu gom dữ liệu. Thu gom dữ liệu trên Web rất phức tạp:  Ví dụ, đánh chỉ mục tất cả tệp trên ổ đĩa cứng: chỉ thực hiện duyệt đệ quy trên hệ thống tệp;  Cần nhiều thời gian. 4 Thao tác thu thập thông tin cơ bản Khởi tạo hàng đợi với URLs với tập trang mầm Lặp  Lấy URL từ hàng đợi  Nạp và đọc trang web  Tách URLs từ trang web  Thêm URLs vào hàng đợiGiả thuyết cơ bản: Web là đồ thị liên thông. 5 Hạn chế của bộ thu thập sau là gì?urlqueue := (some carefully selected set of seed urls)while urlqueue is not empty: myurl := urlqueue.getlastanddelete() mypage := myurl.fetch() fetchedurls.add(myurl) newurls := mypage.extracturls() for myurl in newurls: if myurl not in fetchedurls and not in urlqueue: urlqueue.add(myurl) addtoinvertedindex(mypage) 6 Hạn chế của bộ thu thập đơn giản Quy mô  Cần phân tán quá trình thu thập Không thể đánh chỉ mục tất cả  Cần lựa chọn nội dung, tích hợp khả năng phát hiện trùng lặp và spam Nguyên tắc lịch thiệp  Thời gian nghỉ giữa những yêu cầu gửi tới một địa chỉ Tính cập nhật  Cần thu thập lại theo chu kỳ;  Web rất lớn, chỉ có thể thường xuyên thu thập một phần nhỏ;Vấn đề xác định độ ưu tiên là cấp thiết. 7 Quy mô của bài tóan thu thập Nạp 20,000,000,000 trang mỗi tháng . . . . . . cần nạp khoảng 8000 trang mỗi giây! Thực tế: có thể cần nhiều hơn vì nhiều trang thu được sẽ trùng lặp, không tải được, spam v.v. 8 Robots.txt Giao thức hạn chế quyền truy cập của chương trình duyệt web tự động (“robots”), được thiết lập từ 1994 Ví dụ:  User-agent: * Disallow: /yoursite/temp/  User-agent: searchengine Disallow: / 9 Ví dụ robots.txt (nih.gov)User-agent: PicoSearch/1.0Disallow: /news/information/knight/Disallow: /nidcd/...Disallow: /news/research_matters/secure/Disallow: /od/ocpl/wag/User-agent: *Disallow: /news/information/knight/Disallow: /nidcd/...Disallow: /news/research_matters/secure/Disallow: /od/ocpl/wag/Disallow: /ddir/Disallow: /sdminutes/ 10 Khuyến cáo Thiết kế hệ thống phân tán Khả mở:  Dễ mở rộng quy mô thu thập bằng cách thêm nhiều máy Nạp những trang chất lượng cao trước Thu thập liên tục  Thu thập phiên bản mới của những trang đã biết 11 Nội dung chính Bộ thu thập đơn giản Bộ thu thập trong thực tế 12Hàng đợi URL 13 Hàng đợi URL Hàng đợi URL: URL frontier Hàng đợi URL là cấu trúc dữ liệu lưu trữ và quản lý URLs mà chúng ta đã thấy, nhưng chưa được thu thập. Có thể bao gồm nhiều trang từ một máy chủ  Chánh nạp tất cả cùng lúc Cần sử dụng tất cả các phân luồng thu thập 14Kiến trúc tổng quát của bộ thu thập 15 Chuẩn hóa URL Có nhiều URLs được trích rút từ tài liệu là những URLs tương đối. Ví dụ, trong http://mit.edu, địa chỉ aboutsite.html  Tương đương với: http://mit.edu/aboutsite.html Cần phải chuẩn hóa tất cả các URLs tương đối thành dạng tuyệt đối. 16 Nội dung đã xem Với mỗi trang được nạp: Kiểm tra liệu nội dung đã có trong chỉ mục Kiểm tra dựa trên tổng đại diện hoặc biểu diễn khung Bỏ qua những tài liệu có nội dung đã được đánh chỉ mục 17 Thu gom phân tán Chạy nhiều phân luồng thu thập, có thể thực hiện ở những nút khác nhau  Có thể phân tán theo vị trí địa lý Phân chia các máy chủ đang bị thu thập tới các nút khác nhau 18Những trung tâm dữ li ...

Tài liệu được xem nhiều: