Danh mục

Eric Enge phỏng vấn Matt Cutts (phần 3)

Số trang: 8      Loại file: pdf      Dung lượng: 353.90 KB      Lượt xem: 10      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Eric Enge phỏng vấn Matt Cutts (phần 3)Tiếp theo phần 1 và phần 2, mình xin chia sẻ tiếp phần 3 nội dung bài phỏng vấn của Eric Enge với Matt Cutts (Googler). Eric Enge: Webmaster tools “bỏ qua những tham số” cũng giống như cách làm của canonical tag. Matt Cutts: Vâng, về bản chất thì đúng là như vậy. Đó là một việc khá dễ chịu vì robots.txt có thể có bị cản đường bởi vì nếu bạn block một trang để nó không bị crawl thì chúng tôi sẽ không thể truy cập vào được. ...
Nội dung trích xuất từ tài liệu:
Eric Enge phỏng vấn Matt Cutts (phần 3) Eric Enge phỏng vấn Matt Cutts (phần 3)Tiếp theo phần 1 và phần 2, mình xin chia sẻ tiếp phần 3 nội dung bàiphỏng vấn của Eric Enge với Matt Cutts (Googler).Eric Enge: Webmaster tools “bỏ qua những tham số” cũng giống như cáchlàm của canonical tag.Matt Cutts: Vâng, về bản chất thì đúng là như vậy. Đó là một việc khá dễchịu vì robots.txt có thể có bị cản đường bởi vì nếu bạn block một trang đểnó không bị crawl thì chúng tôi sẽ không thể truy cập vào được. Chúng tôisẽ không thể biết nó là một bản sao của trang khác. Nhưng nếu như bạn nóicho chúng tôi biết trên bảng điều khiển của webmaster tham số nào khôngcần thiết, chúng tôi có thể tận dụng được những thông tin đó.Eric Enge: Hãy nói vể những file KML. Liệu có nên đặt những trang nàyvào robots.txt để tiết kiệm crawl budget?“…nếu như bạn cố block một URL nào đó trong file robots.txt, chúng tôithường sẽ nhận ra URL đó và giữ thông tin đó ở index của chúng tôi. Chínhvì thế không cần thiết phải tiết kiệm crawl budget của bạn.”Matt Cutts: Thông thường, tôi sẽ không khuyến nghị làm việc đó. Nhữnglời khuyên hữu ích nhất sẽ do những chuyên gia crawl và đội index là để choGoogle crawl những trang mà bạn quan tâm và chúng rôi sẽ cố loại bỏnhững trang có nội dung trùng lặp. Bạn cũng có thể khắc phục vấn đề nàyvới việc tạo cấu trúc site tốt hoặc dùng 301s. Nhưng nếu bạn cố block mộtvài URL bằng robots.txt, chúng tôi thường sẽ nhận ra URL đó và giữ chúngở index của chúng tôi. Chính vì thế không cần thiết phải tiết kiệm crawlbudget của bạn. Đó cũng là một điều thú vị vì Google sẽ cố crawl rất nhiềunhững trang khác nhau ngay cả những trang không phải HTML, và trongthực tế Google cũng sẽ crawl những file KML.Điều chúng ta nên làm là để Googlebot crawl những trang này rồi loại bỏ sựtrùng lặp. Hoặc nếu bạn có khả năng, bạn có thể sử dụng cấu trúc của trangđể xử lý vấn đề trùng lặp trước đó. Nếu site của bạn 50% là file KML hoặcbạn có một lượng lớn không cân đối các fonts và bạn không muốn chúngđược crawl, bạn có thể sử dụng robots.txt. Robots.txt cho phép wildcardchính vì thế bạn có thể block chúng. Hầu hết với các file HTML có một sốtrang mở rộng hoặc một số định dạng file khác, tôi khuyến nghị nên đểGoogle crawl chúng. Phỏng vấn Matt Cutts (phần 1) Phỏng vấn Matt Cutts (phần 2)Eric Enge: Google sẽ tránh được những mánh khoé nếu như tỷ lệ số “trangthực sự” ít.Matt Cutts: Đúng như vậyEric Enge: Google có thực hiện yêu cầu HEAD (HEAD request) để phânloại nội đúng không?Matt Cutts: Với những người không biết thì có rất nhiều cách để tiếp cận vàkiểm tra nội dung. Nếu như bạn thực hiện một GET request web server sẽ trảlại nội dung. Nếu bạn thực hiện một HEAD request tức là bạn đang hỏiWebserver xem nội dung có gì thay đổi không. Web server chỉ phải trả lờicó hoặc không và nó không thật sự phải gửi nội dung. Thoạt tiên, bạn có thểnghĩ rằng yêu cầu HEAD là một cách khá tốt cho công cụ tìm kiếm crawlweb và chỉ truy cập vào những trang đã thay đổi từ lần crawl trước.Tuy nhiên có vẻ như là hầu hết mọi web server phải làm việc chẳng có gìkhác (so với GET) để tìm ra câu trả lời liệu những trang đó đã thay đổi haychưa khi bạn thực hiện yêu cầu HEAD. Trong những thử nghiệm của chúngtôi, chúng tôi nhận ra rằng hầy hết các lần sẽ hiệu quả hơn khi thực hiệnGET. Sẽ có một vài trường hợp chúng ta sẽ phải sử dụng tới HEAD. Ví dụnhư, trong quá trình crawl hình ảnh, chúng ta có thể sử dụng yêu cầu HEADbởi vì hình ảnh có thể lớn hơn rất nhiều so với trang nội.Khi crawl web, nội dung text và HTML, chúng tôi sử dụng GET và khôngsử dụng yêu cầu HEAD trước. Chúng tôi vẫn dùng những thứ như If-Modified-Since để web server có thể cung cấp cho chúng tôi thông tin liệutrang đó đã thay đổi hay chưa. Vẫn còn rất nhiều cách khá thông minh đểbạn có thể crawl web nhưng yêu cầu HEAD sẽ không tiết kiện được nhiềubandwidth khi crawl nội dung HTML mặc dù chúng tôi sử dụng chúng choviệc crawl nội dung hình ảnh.Eric Enge: Và anh cũng có thể sử dụng chúng để crawl nội dung video đúngkhông?Matt Cutts: Đúng, nhưng tôi sẽ phải kiểm tra lại điều đó.Eric Enge: Mở rộng thêm phần bàn luận về faceted navigation, chúng tôi đãtừng làm việc với 1 site có sự sắp xếp faceted navigation vô cùng phức tạp.Thật sự nó tạo ra “Trải nghiệm người dùng” khá tốt. Họ nhận thấy rấtnhiều sự thay đổi sau khi thực hiện điều này trên site của họ. Kết quả làdoanh thu trên một visitor tăng lên rất khả quan.Matt Cutts: Hoàn toàn như vậy.Eric Enge: Nhưng mặt khác, họ cũng nhận thấy số lượng những trang đượcindex đã giảm đi đáng kể trên site. Có lẽ, về bản chất những trang này đãliệt kê những sản phẩm nhiều cách khác nhau.Những trang đó không không phải những trang rich text và chúng ta khôngcó nhiều thứ để crawl vì chúng giống như những trang có chất lượng kémhoặc là những trang trùng lặp. Vậy thế nào là cách tốt nhất để giải ...

Tài liệu được xem nhiều: