Thông tin tài liệu:
Robots.txt những điều cần biếtMột trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt. Vậy file Robots.txt là gì? Khi một search engine tìm đến (nguyên văn Crawler) Website nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robots.txt cho search engine đó biết rằng, Website này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt)....
Nội dung trích xuất từ tài liệu:
Robots.txt những điều cần biết Robots.txt những điều cần biếtMột trong những điều quan trọng để web site củabạn có thể đạt High ranking (thứ hạng cao) trongcác cỗ máy tìm kiếm là bạn phải xây dựng chomình một file Robots.txt.Vậy file Robots.txt là gì? Khi một search engine tìmđến (nguyên văn Crawler) Website nào đó, nó sẽ tìmmột file đặc biệt trước tiên, đó là file robots.txt. Filerobots.txt cho search engine đó biết rằng, Websitenày có thể index hoặc không (tùy theo lệnh được viếttrong file robots.txt).Thực chất, file robots.txt là một tập tin văn bản đơngiản (không chứa mã HTML) được đặt trong thư mụcgốc của web site, ví dụ*http://www.example.com/robots.txt.Vậy, làm thế nào để tạo ra một file robots.txt? Rấtđơn giản, bạn có thể mở chương trình Notepad haybất cứ chương trình soạn thảo văn bản nào, lưu filevới tên robots.txt là xong. Các dòng lệnh trong filenày có cấu trúc như sau:User-agent: googlebotDisallow: /cgi-bin/Trong đó User-agent: là đại diện của một searchengine, Googlebot là spider của Google. Trong ví dụnày, chỉ các spider của Google là được phép indexweb site. Disallow: là không cho phép thực hiện điềugì đó. ở ví dụ trên là không cho phép các spider indexthư mục cgi-bin trong web site.Một ví dụ nữa:User-agent: googlebotDisallow: /supportTất cả các trang nằm trong thư mục support, haysupport-desk sẽ không được index.Nếu bạn muốn tất cả các search engine có thể indexweb site của bạn, nhưng không được index các trangtrong thư mục cgi-bin thì sử dụng lệnh sau:User-agent: *Disallow: /cgi-bin/Những điều nên tránh:+ Không sử dụng các chú thích trong file robots.txt,nó có thể làm cho các spider của search engine bị lầmlẫn. Ví dụ:Disallow: support # Dont index the supportdirectory might be misinterepreted as Disallow:support#Dont index the support directory.+ Không được để khoảng trắng ở đầu dòng lệnh, vídụ:User-agent: *Disallow: /cgi-bin/+Không thay đổi trật tự của các dòng lệnh. Ví dụ:Disallow: /supportUser-agent: *+ Không sử dụng quá một thư mục trong dòng lệnhDisallow. Ví dụ:User-agent: *Disallow: /support /cgi-bin/ /images/các search engine không hiểu định dạng trên. bạn nênviết thế này:User-agent: *Disallow: /supportDisallow: /cgi-bin/Disallow: /images/+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnhlà đúng. Ví dụ, thư mục của bạn là cgi-bin (viếtthường, không viết hoa), nhưng khí vào lệnh, bạn lạiviết là Cgi-Bin thì các spider sẽ bó tay.+ Không nên dùng lệnh Allow trong file robots.txt,bởi vì trong web site của bạn chắc chắn sẽ có một sốtrang hoặc một số thành phần bạn không muốn bịngười khác nhòm ngó. nếu bạn sử dụng lệnhAllow, tất cả mọi ngóc ngách trong web site của bạnsẽ bị index!