Danh mục

Web crawler- web spider- web robot- googlebot

Số trang: 3      Loại file: pdf      Dung lượng: 125.56 KB      Lượt xem: 8      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí Tải xuống file đầy đủ (3 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Web crawler- web spider- web robot- googlebotWeb crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó.Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email. Để đánh chỉ số các tài nguyên Web, mỗi robot sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung...
Nội dung trích xuất từ tài liệu:
Web crawler- web spider- web robot- googlebot Web crawler- web spider- web robot- googlebotWeb crawler, web spider hay web robot làmột chương trình tự động tìm kiếm trênInternet. Nó được thiết kết để thu thập tàinguyên Internet (trang Web, hình ảnh,video, tài liệu Word, PDF hay PostScrips) ,cho phép máy tìm kiếm đánh chỉ số sau đó.Cùng phương thức, nhưng một số robots lạibị sử dụng để lượm các tài nguyên hoặc đểlọc địa chỉ email.Để đánh chỉ số các tài nguyên Web, mỗirobot sẽ đi theo các liên kết mà nó tìm thấytại một trang trung tâm. Sau đó, mỗi trangđã duyệt sẽ được ghi nhớ lại và gán cho tầnsố đánh lại chỉ số dựa vào mức độ cập nhậtthường xuyên hay không của trang.Để điểu chỉnh ứng xử các robots, một tệptin ngoại trừ (robots.txt) sẽ được đặt tại thưmục gốc của trang Web để chỉ định chorobots một danh sách những tài nguyênkhông được tiếp cận. Tệp tin robots.txt nàycòn đưa ra danh sách những bọ tìm kiếmnào được quyền đánh chỉ số trang Web.Qui tắc này cho phép giảm tải trên máy chủvà tránh đánh chỉ số những tài liệu khôngcần thiết hoặc nhạy cảm. Tuy nhiên cónhiều bọ tìm kiếm không tôn trọng chỉ địnhnày, và hoàn toàn bỏ qua tệp tin ngoại trừ(robots.txt).Một số bọ tìm kiếm phổ biến của cácmáy tìm kiếm :- Googlebot của Google- MSNBot của MSN- Slurp của Yahoo- Scooter của Alta Vista- Baidu của Baidu

Tài liệu được xem nhiều: