Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - TS.Nguyễn Bá Ngọc
Số trang: 30
Loại file: pdf
Dung lượng: 707.81 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - Thu thập dữ liệu do TS.Nguyễn Bá Ngọc biên soạn với các vấn đề chính như: Bộ thu thập đơn giản; thao tác thu thập thông tin cơ bản; hạn chế của bộ thu thập đơn giản; quy mô của bài toán thu thập; bộ thu thập trong thực tế;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Thu thập dữ liệu Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Bộ thu thập đơn giản Bộ thu thập trong thực tế 3 Thu gom dữ liệu khó tới đâu? Máy tìm kiếm phải tự động thu gom dữ liệu. Thu gom dữ liệu trên Web rất phức tạp: Ví dụ, đánh chỉ mục tất cả tệp trên ổ đĩa cứng: chỉ thực hiện duyệt đệ quy trên hệ thống tệp; Cần nhiều thời gian. 4 Thao tác thu thập thông tin cơ bản Khởi tạo hàng đợi với URLs với tập trang mầm Lặp Lấy URL từ hàng đợi Nạp và đọc trang web Tách URLs từ trang web Thêm URLs vào hàng đợiGiả thuyết cơ bản: Web là đồ thị liên thông. 5 Hạn chế của bộ thu thập sau là gì?urlqueue := (some carefully selected set of seed urls)while urlqueue is not empty: myurl := urlqueue.getlastanddelete() mypage := myurl.fetch() fetchedurls.add(myurl) newurls := mypage.extracturls() for myurl in newurls: if myurl not in fetchedurls and not in urlqueue: urlqueue.add(myurl) addtoinvertedindex(mypage) 6 Hạn chế của bộ thu thập đơn giản Quy mô Cần phân tán quá trình thu thập Không thể đánh chỉ mục tất cả Cần lựa chọn nội dung, tích hợp khả năng phát hiện trùng lặp và spam Nguyên tắc lịch thiệp Thời gian nghỉ giữa những yêu cầu gửi tới một địa chỉ Tính cập nhật Cần thu thập lại theo chu kỳ; Web rất lớn, chỉ có thể thường xuyên thu thập một phần nhỏ;Vấn đề xác định độ ưu tiên là cấp thiết. 7 Quy mô của bài tóan thu thập Nạp 20,000,000,000 trang mỗi tháng . . . . . . cần nạp khoảng 8000 trang mỗi giây! Thực tế: có thể cần nhiều hơn vì nhiều trang thu được sẽ trùng lặp, không tải được, spam v.v. 8 Robots.txt Giao thức hạn chế quyền truy cập của chương trình duyệt web tự động (“robots”), được thiết lập từ 1994 Ví dụ: User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: / 9 Ví dụ robots.txt (nih.gov)User-agent: PicoSearch/1.0Disallow: /news/information/knight/Disallow: /nidcd/...Disallow: /news/research_matters/secure/Disallow: /od/ocpl/wag/User-agent: *Disallow: /news/information/knight/Disallow: /nidcd/...Disallow: /news/research_matters/secure/Disallow: /od/ocpl/wag/Disallow: /ddir/Disallow: /sdminutes/ 10 Khuyến cáo Thiết kế hệ thống phân tán Khả mở: Dễ mở rộng quy mô thu thập bằng cách thêm nhiều máy Nạp những trang chất lượng cao trước Thu thập liên tục Thu thập phiên bản mới của những trang đã biết 11 Nội dung chính Bộ thu thập đơn giản Bộ thu thập trong thực tế 12Hàng đợi URL 13 Hàng đợi URL Hàng đợi URL: URL frontier Hàng đợi URL là cấu trúc dữ liệu lưu trữ và quản lý URLs mà chúng ta đã thấy, nhưng chưa được thu thập. Có thể bao gồm nhiều trang từ một máy chủ Chánh nạp tất cả cùng lúc Cần sử dụng tất cả các phân luồng thu thập 14Kiến trúc tổng quát của bộ thu thập 15 Chuẩn hóa URL Có nhiều URLs được trích rút từ tài liệu là những URLs tương đối. Ví dụ, trong http://mit.edu, địa chỉ aboutsite.html Tương đương với: http://mit.edu/aboutsite.html Cần phải chuẩn hóa tất cả các URLs tương đối thành dạng tuyệt đối. 16 Nội dung đã xem Với mỗi trang được nạp: Kiểm tra liệu nội dung đã có trong chỉ mục Kiểm tra dựa trên tổng đại diện hoặc biểu diễn khung Bỏ qua những tài liệu có nội dung đã được đánh chỉ mục 17 Thu gom phân tán Chạy nhiều phân luồng thu thập, có thể thực hiện ở những nút khác nhau Có thể phân tán theo vị trí địa lý Phân chia các máy chủ đang bị thu thập tới các nút khác nhau 18Những trung tâm dữ li ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 20 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Thu thập dữ liệu Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Bộ thu thập đơn giản Bộ thu thập trong thực tế 3 Thu gom dữ liệu khó tới đâu? Máy tìm kiếm phải tự động thu gom dữ liệu. Thu gom dữ liệu trên Web rất phức tạp: Ví dụ, đánh chỉ mục tất cả tệp trên ổ đĩa cứng: chỉ thực hiện duyệt đệ quy trên hệ thống tệp; Cần nhiều thời gian. 4 Thao tác thu thập thông tin cơ bản Khởi tạo hàng đợi với URLs với tập trang mầm Lặp Lấy URL từ hàng đợi Nạp và đọc trang web Tách URLs từ trang web Thêm URLs vào hàng đợiGiả thuyết cơ bản: Web là đồ thị liên thông. 5 Hạn chế của bộ thu thập sau là gì?urlqueue := (some carefully selected set of seed urls)while urlqueue is not empty: myurl := urlqueue.getlastanddelete() mypage := myurl.fetch() fetchedurls.add(myurl) newurls := mypage.extracturls() for myurl in newurls: if myurl not in fetchedurls and not in urlqueue: urlqueue.add(myurl) addtoinvertedindex(mypage) 6 Hạn chế của bộ thu thập đơn giản Quy mô Cần phân tán quá trình thu thập Không thể đánh chỉ mục tất cả Cần lựa chọn nội dung, tích hợp khả năng phát hiện trùng lặp và spam Nguyên tắc lịch thiệp Thời gian nghỉ giữa những yêu cầu gửi tới một địa chỉ Tính cập nhật Cần thu thập lại theo chu kỳ; Web rất lớn, chỉ có thể thường xuyên thu thập một phần nhỏ;Vấn đề xác định độ ưu tiên là cấp thiết. 7 Quy mô của bài tóan thu thập Nạp 20,000,000,000 trang mỗi tháng . . . . . . cần nạp khoảng 8000 trang mỗi giây! Thực tế: có thể cần nhiều hơn vì nhiều trang thu được sẽ trùng lặp, không tải được, spam v.v. 8 Robots.txt Giao thức hạn chế quyền truy cập của chương trình duyệt web tự động (“robots”), được thiết lập từ 1994 Ví dụ: User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: / 9 Ví dụ robots.txt (nih.gov)User-agent: PicoSearch/1.0Disallow: /news/information/knight/Disallow: /nidcd/...Disallow: /news/research_matters/secure/Disallow: /od/ocpl/wag/User-agent: *Disallow: /news/information/knight/Disallow: /nidcd/...Disallow: /news/research_matters/secure/Disallow: /od/ocpl/wag/Disallow: /ddir/Disallow: /sdminutes/ 10 Khuyến cáo Thiết kế hệ thống phân tán Khả mở: Dễ mở rộng quy mô thu thập bằng cách thêm nhiều máy Nạp những trang chất lượng cao trước Thu thập liên tục Thu thập phiên bản mới của những trang đã biết 11 Nội dung chính Bộ thu thập đơn giản Bộ thu thập trong thực tế 12Hàng đợi URL 13 Hàng đợi URL Hàng đợi URL: URL frontier Hàng đợi URL là cấu trúc dữ liệu lưu trữ và quản lý URLs mà chúng ta đã thấy, nhưng chưa được thu thập. Có thể bao gồm nhiều trang từ một máy chủ Chánh nạp tất cả cùng lúc Cần sử dụng tất cả các phân luồng thu thập 14Kiến trúc tổng quát của bộ thu thập 15 Chuẩn hóa URL Có nhiều URLs được trích rút từ tài liệu là những URLs tương đối. Ví dụ, trong http://mit.edu, địa chỉ aboutsite.html Tương đương với: http://mit.edu/aboutsite.html Cần phải chuẩn hóa tất cả các URLs tương đối thành dạng tuyệt đối. 16 Nội dung đã xem Với mỗi trang được nạp: Kiểm tra liệu nội dung đã có trong chỉ mục Kiểm tra dựa trên tổng đại diện hoặc biểu diễn khung Bỏ qua những tài liệu có nội dung đã được đánh chỉ mục 17 Thu gom phân tán Chạy nhiều phân luồng thu thập, có thể thực hiện ở những nút khác nhau Có thể phân tán theo vị trí địa lý Phân chia các máy chủ đang bị thu thập tới các nút khác nhau 18Những trung tâm dữ li ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Bộ thu thập đơn giản Thao tác thu thập thông tin cơ bản Hạn chế của bộ thu thập đơn giảnGợi ý tài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 314 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 241 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 231 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 212 0 0 -
62 trang 206 2 0
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 183 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 166 0 0 -
65 trang 159 0 0