Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt

Số trang: 6 Loại file: pdf Dung lượng: 163.88 KB Lượt xem: 13 Lượt tải: 0

Hoai.2512

Phí lưu trữ: 5,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt Có đôi lúc chúng ta không muốn spider/robot thu thập những thông tin không cần thiết hoặc không muốn “show” những thông tin nào đó trong website, vậy chúng ta phải làm sao? Bài viết này sẽ thảo luận về chủ đề này. Có 2 cách để ngăn chặn robot thu thập thông tin của website. Đầu tiên, đặt thẻ META Robots vào trong phần HEAD của tập tin HTML (trang nào có chèn thẻ META robots thì chỉ trang đó mới ảnh hưởng). Cách thứ 2 là viết ra một...
Nội dung trích xuất từ tài liệu:
Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txt Tìm Hiểu Thẻ META Robots Và Tập Tin Robots.txtCó đôi lúc chúng ta không muốn spider/robot thu thậpnhững thông tin không cần thiết hoặc không muốn“show” những thông tin nào đó trong website, vậy chúngta phải làm sao? Bài viết này sẽ thảo luận về chủ đề này.Có 2 cách để ngăn chặn robot thu thập thông tin củawebsite. Đầu tiên, đặt thẻ META Robots vào trong phầnHEAD của tập tin HTML (trang nào có chèn thẻ METArobots thì chỉ trang đó mới ảnh hưởng). Cách thứ 2 là viếtra một tập tin đặc biệt được gọi là robots.txt và đặt nó vàothư mục gốc của website.Robots thực sự có ích từ khi các SE công bố chỉ thu thậpgiới hạn một số trang của webiste để đánh chỉ mục, từ đó,Robots được ứng dụng để tránh cho các robot thu thậpnhững trang chưa tối ưu hoặc những thông tin không muốntrình bày. Ngoài ra, robots cũng được dùng trong cáctrường hợp trùng lắp nội dung để tránh các robot đánh chỉmục nội dung trùng lặp.Cuối cùng, các webmaster muốn loại bỏ nội dung củanhững thư mục riêng tư, bí mật, … trên website.Thẻ META RobotsThẻ META robots là một thẻ bên trong mã HTML có tácdụng điều hướng những robot thu thập thông tin nhữngtrang nên đánh chỉ mục và những trang nên loại trừ của mộtwebsite.Trong mã HTML của một trang web bất kỳ, thẻ METARobots sẽ xuất hiện như sau:“index” có nghĩa là các robot thu thập thông tin được phépđánh chỉ mục trang này và “follow” có nghĩa là cho phépcác robot dựa vào những liên kết trên trang hiện tại đểkhám phá các trang khác có liên quan đến trang này.Bạn có thể hướng dẫn các robot không đánh chỉ mục mộttrang bất kỳ nếu chuyển content=”noindex, follow” hoặccontent=”noindex, nofollow”. “follow” và “nofollow” làcho phép hoặc không cho phép các robot dựa vào nhữngliên kết trên trang hiện tại để khám phá thêm các trang liênquan.Thẻ META Robots phải được đặt trong phần HEAD củamã HTML. Một vài SE không hỗ trợ thẻ này mà chỉ hỗ trợRobots Exclusion Protocol.Googlebot và MSNBotCác spider/robot của Google được gọi là Googlebot, cácspider/robot của MSN được gọi là MSNBot. Khi đọc trangHTML của bạn, những robot này xem xét thẻ META đặcbiệt là META Googlebot và META MSNBot. Hai thẻ nàycó ý nghĩa trong việc webmaster không có quyền truy cậpvào thư mục gốc để áp dụng tập tin robots.txt, lúc đó,webmaster sẽ bổ sung 2 thẻ này vào các tập tin HTML đểđáp ứng nhu cầu của mình.Cú pháp như sau:Bạn có thể dùng kết hợp “noindex”, “nofollow”,“noarchive” hoặc “nosnippet” trong thuộc tính content.“nosnippet”, “noarchive” sẽ thông báo với Google rằngkhông trình bày snippet của trang trong các trang kết quảtìm kiếm (SERP) và không lưu trữ bản sao của trang web.Cú pháp khi dùng MSNBot:MSNBot chỉ có 2 câu lệnh “noindex” và “nofollow”.Robots Exclusion Protocol (tập tin robots.txt)Robots Exclusion Protocol thường được gọi là tập tinrobots.txt, đây là một phương pháp khác để cho phépchúng ta chỉ dẫn các robot thu thập thông tin như đã nói ởtrên.Khi một robot viếng thăm website, đầu tiên, nó sẽ kiểm trasự tồn tại của tập tin robots.txt trong thư mục gốc củawebsite, nếu có tập tin robots.txt, nó sẽ làm theo những chỉdẫn được định nghĩa trong tập tin này.Tập tin robots.txt sẽ có những thông tin như định dạngsau:User-agent: *Disallow: /Tập tin này luôn có 2 trường, trường thứ nhất là tên của cácrobot, trường thứ 2 là thư mục hoặc các thư mục không chophép các robot thăm viếng.“*” có nghĩa là tất cả các robot và “/” có nghĩa là tất cảURL và điều này có nghĩa là ngăn chặn tất cả các robot chobất kỳ URL nào.Sau đây là một ví dụ, ví dụ này cho chúng ta biết làGooglebot sẽ không bị bất kỳ giới hạn nào.User-agent: GooglebotDisallow:Hoặc không giới hạn với Googlebot, nhưng giới hạn thưmục cgi-bin với các robot còn lại.User-agent: GooglebotDisallow:User-agent: *Disallow: /cgi-bin/Một số ý kiến về tập tin robots.txt1/ Tên tập tin robots.txt phải luôn là chữ thường ngay cảkhi website của bạn được đặt trên những server không phânbiệt hoa – thường như Windows.2/ Ký tự đại diện chỉ được dùng trong User-agent, ngoài rakhông được hỗ trợ bởi các SE ngoại trừ Google (xem thêmtại địa chỉ http://google.com/webmasters/).3/ Các chức năng của website không bị ảnh hưởng bởi việccó hay không có tập tin robots.txt hoặc tập tin này là rỗng.Tuy nhiên, với một vài server và một vài robot, thì điềunày có thể gây ra lỗi 404, vì thế luôn luôn có tập tinrobots.txt.4/ Mỗi tên miền chỉ có một tập tin robots.txt duy nhất vànó phải được đặt trong thư mục gốc của tên miền đó.5/ Nếu bạn không có quyền truy cập hay hiệu chỉnh tập tinrobots.txt, hãy sử dụng thẻ META Robots.6/ Dùng chữ thường khi đặt tên tập tin robots.txt.Để có thông tin đầy đủ hơn về tập tin robots.txt và cách sửdụng, vui lòng truy cập vàohttp://www.robotstxt.org/wc/norobots.html ...