Sự quan trọng của file Robots.txt

Số trang: 5 Loại file: pdf Dung lượng: 113.03 KB Lượt xem: 14 Lượt tải: 0

Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Sự quan trọng của file Robots.txt Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt Vậy file Robots.txt là gì? khi một search engine tìm đến (nguyên văn Crawler) web site nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robot.txt cho search engine đó biết rằng, web site này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt). ...
Nội dung trích xuất từ tài liệu:
Sự quan trọng của file Robots.txt Sự quan trọng của file Robots.txt Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txtVậy file Robots.txt là gì? khi một search engine tìmđến (nguyên văn Crawler) web site nào đó, nó sẽ tìmmột file đặc biệt trước tiên, đó là file robots.txt. Filerobot.txt cho search engine đó biết rằng, web site nàycó thể index hoặc không (tùy theo lệnh được viếttrong file robots.txt).Thực chất, file robots.txt là một tập tin văn bản đơngiản (không chứa mã HTML) được đặt trong thư mụcgốc của web site, ví dụhttp://www.example.com/robots.txt.Vậy, làm thế nào để tạo ra một file robots.txt? Rấtđơn giản, bạn có thể mở chương trình Notepad haybất cứ chương trình soạn thảo văn bản nào, lưu filevới tên robots.txt là xong. Các dòng lệnh trong filenày có cấu trúc như sau:User-agent: googlebotDisallow: /cgi-bin/Trong đó User-agent: là đại diện của một searchengine, Googlebot là spider của Google. Trong ví dụnày, chỉ các spider của Google là được phép indexweb site. Disallow: là không cho phép thực hiện điềugì đó. ở ví dụ trên là không cho phép các spider indexthư mục cgi-bin trong web site.Ví dụ thứ hai:User-agent: googlebotDisallow: /supportTất cả các trang nằm trong thư mục support, haysupport-desk sẽ không được index.Nếu bạn muốn tất cả các search engine có thể indexweb site của bạn, nhưng không được index các trangtrong thư mục cgi-bin thì sử dụng lệnh sau:User-agent: *Disallow: /cgi-bin/Những điều nên tránh:+ Không sử dụng các chú thích trong file robots.txt,nó có thể làm cho các spider của search engine bị lầmlẫn. Ví dụ:Disallow: support # Dont index the supportdirectory might be misinterepreted as Disallow:support#Dont index the support directory.+ Không được để khoảng trắng ở đầu dòng lệnh, vídụ:User-agent: *Disallow: /cgi-bin/+Không thay đổi trật tự của các dòng lệnh. Ví dụ:Disallow: /supportUser-agent: *+ Không sử dụng quá một thư mục trong dòng lệnhDisallow. Ví dụ:User-agent: *Disallow: /support /cgi-bin/ /images/các search engine không hiểu định dạng trên. bạn nênviết thế này:User-agent: *Disallow: /supportDisallow: /cgi-bin/Disallow: /images/+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnhlà đúng. Ví dụ, thư mục của bạn là cgi-bin (viếtthường, không viết hoa), nhưng khí vào lệnh, bạn lạiviết là Cgi-Bin thì các spider sẽ bó tay.+ Không nên dùng lệnh Allow trong file robots.txt,bởi vì trong web site của bạn chắc chắn sẽ có một sốtrang hoặc một số thành phần bạn không muốn bịngười khác nhòm ngó. nếu bạn sử dụng lệnhAllow, tất cả mọi ngóc ngách trong web site của bạnsẽ bị index!Bạn có thể tham khảo tập tin robots.txt tại các website nổi tiếng trên thế giới là Ebay và Nytimes:http://www.nytimes.com/robots.txthttp://www.ebay.com/robots.txt.