Thông tin tài liệu:
Robot.txt và Googlebot – Allow và DisallowKhả năng tìm kiếm của các spider là rất lơn, chúng có thể lùng xục khắp nơi trên website của bạn. Với bài viết này chúng ta sẻ cũng tìm hiểm cách thức sử dụng file robots.txt để quy định các spider, đặc biệt là googlebot.Các User Agent của Google Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt....
Nội dung trích xuất từ tài liệu:
Robot.txt và Googlebot – Allow và Disallow Robot.txt và Googlebot – Allow và DisallowKhả năng tìm kiếm của các spider là rất lơn, chúng cóthể lùng xục khắp nơi trên website của bạn. Với bàiviết này chúng ta sẻ cũng tìm hiểm cách thức sửdụng file robots.txt để quy định các spider, đặc biệt làgooglebot.Các User Agent của GoogleGoogle có vài user-agent chính. Bạn có thể ngănchúng bằng cách thêm tên của bọ tìm kiếm tươngứng và trong dòng User-agent tương ứng trong bảngghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa làbạn chặn tất cả các bọ tìm kiếm với từ khóa“Googlebot”.Googlebot: Đánh chỉ số từ các chỉ mục cũ và mớicủa Google.Googlebot-Mobile: Đánh chỉ số cho các thiết bị cầmtay hoặc di động.Googlebot-Image: Đánh chỉ số các tệp tin ảnh.Mediapartners-Google: Xuất hiện trong các trangdăng quảng cáo của Google Adsense.Adsbot-Google: Đánh chỉ số các trang được nhàquảng cáo sử dụng giới thiệu sản phẩm hay dịch vụthông qua Google Adwords. Nó cho phép đánh giáchất lượng của trang dùng dịch vụ Adwords.Chặn GooglebotĐể chặn toàn bộ Googlebot thì bạn thêm cú pháp sauvào file robots loại trừ :User-agent: GooglebotDisallow: /Cho phép GooglebotTrong trường hợp bạn muốn chặn tất cả các bọ tìmkiếm khác trừ một robot, Googlebot chẳng hạn, thìbạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạnkhông muốn trang liên quan biến mất khỏi kết quả tìmkiếm của các máy tìm kiếm như Yahoo, MSN Livehay Ask thì bạn không nên làm như thế.User-agent: *Disallow: /User-agent: GooglebotDisallow:Cho phép mở rộngGoogle hỗ trợ cú pháp mở rộng “Allow” trong tệp tinrobots.txt. Có nhiều máy tìm kiếm không hỗ trợ phầnmở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh“Allow” hoạt động cũng giống như “Disallow” chỉ kháclà nó liệt kê các thư mục hay trang bạn cho phépđánh chỉ số.Bạn có thể sử dụng đồng thời “Allow” và “Disallow”cùng nhau. Chẳng hạn để cấm tất cả các trang trongmột thư mục “seotips” chẳng hạn, trừ tệp tin “toi-uu-hoa.html”, bạn hãy làm như sau :User-agent: GooglebotDisallow: /seotips/Allow: /seotips/toi-uu-hoa.htmlCòn trong trường hợp bạn muốn chặn Googlebot vàsau đó lại vẫn muốn cho các bot khác của Google(Googlebot-Mobile) chẳng hạn, bạn có thể sử dụnglệnh Allow như sau :User-agent: GooglebotDisallow: /User-agent: Googlebot-MobileAllow: /Sử dụng mẫu tổ hợpĐặc biệt hữu ích trong trường hợp bạn không muốnphải liệt kê tất cả các trang mà bạn muốn chặn. Đâylà phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý làcác máy tìm kiếm khác chưa chắc đã hỗ trợ tính năngnày.Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợpchuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt cácthư mục con bắt đầu bằng chữ wp (ví dụ wp-admin,wp-content cho blog W ordPress) như sau :User-agent: GooglebotDisallow: /wp*/Để chặn tất cả đường dẫn URL mà chứa ký tự (?)chứa tham biến (trong ngôn ngữ PHP), bạn hãy làmnhư sau :User-agent: *Disallow: /*?Kiểm tra phần kết của chuỗi ký tự URL bằng $Bạn cũng có thể sử dụng dấu dollard ($) để liệt kêcác URL có phần kết tương ứng. Ví dụ để chặn tất cảcác đường dẫn URL kết thúc với pdf (phiên bản pdftrên website để tránh trùng nội dung chẳng hạn) :User-agent: GooglebotDisallow: /*.pdf$Bạn cũng có thể sử dụng tổ hợp kết này với lệnhAllow. Ví dụ nếu như có dấu hỏi ? tương ứng với mộtsession ID, bạn có thể loại trừ chúng để tránh choGoogleBot phải đánh chỉ số một nội dung trùng lặp.Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là mộtphiên bản trang mà bạn muốn thêm vào. Trongtrường hợp này, hãy đặt tệp tin robots.txt của bạnnhư sau :User-agent: *Allow: /*?$Disallow: /*?Dòng lệnh Disallow:/ *? sẽ chặn tất cả các URL cóchứa ký tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắtđầu bằng tên miền, tiếp theo các ký tự, tiếp theo làdấu hỏi ?, tiếp theo bởi bất kể ký tự nào khác)Dòng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫnnào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URLnào bắt đầu bằng tên miên, theo bởi chuỗi ký tự, theotiêp bởi dấu hỏi ?, không có ký tự nào nằm sau dấuhỏi này). ...