Thông tin tài liệu:
Eric Enge phỏng vấn Matt Cutts (Googler)Matt Cutts là kỹ sư phần mềm của Google từ năm tháng 1/2000. Trước khi làm việc cho Google, anh đã hoàn thành đề tài nghiên cứu của mình về đồ họa máy tính tại trường Đại học North Carolina ở Chapel Hill. Ngoài ra anh cũng đã tốt nghiệp thạc sỹ tại trường UNC – Chapel Hill và cử nhân toán học và canh nghệ tại trường Đại học Kentucky. Matt là tác giả của phần mềm Safe Search là bộ lọc hữu hiệu phục vụ cho Google. Ngoài kinh nghiệm làm việc...
Nội dung trích xuất từ tài liệu:
Eric Enge phỏng vấn Matt Cutts (Googler) Eric Enge phỏng vấn Matt Cutts (Googler)Matt Cutts là kỹ sư phần mềm của Google từ năm tháng 1/2000. Trướckhi làm việc cho Google, anh đã hoàn thành đề tài nghiên cứu của mìnhvề đồ họa máy tính tại trường Đại học North Carolina ở Chapel Hill.Ngoài ra anh cũng đã tốt nghiệp thạc sỹ tại trường UNC – Chapel Hillvà cử nhân toán học và canh nghệ tại trường Đại học Kentucky.Matt là tác giả của phần mềm Safe Search là bộ lọc hữu hiệu phục vụ choGoogle. Ngoài kinh nghiệm làm việc ở Google, Matt còn nắm giữ nhữngthanh tin tối mật khi làm việc cho Bộ Quốc Phòng Mỹ và anh cũng làm việccho một công ty game. Anh chia se rằng Google là một trong những côngviệc thú vị nhất của anh cho tới nay.Hiện nay Matt đang quản lý đội Webspam cho Google. Matt nói về nhữngvấn đề liên quan tới Webspam trên blog của mình.Nội dung cuộc phỏng vấnEnric Enge: Chúng ta hãy cùng tìm hiểu khái niệm “crawl budget”. Theotôi được biết thì Googlebot sẽ đi tới các website và tính toán số lượng trangnó sẽ phải Index trong một ngày và nó sẽ rời đi khi đã hoàn thành công việc.Matt Cutts: Tôi sẽ cố gắng nói trình bày theo một cách khác cho dễ hiểu.Điều đầu tiên chúng ta nên nhớ rằng sẽ không có bất cứ một điều nào giốngnhư “indexation cap”. Rất nhiều người nghĩ rằng một domain chỉ đượcIndex một lượng trang nhất định. Nhưng googlebot không hoàn toàn làmviệc như thế.“…số lượng trang mà chúng tôi Crawl tương ứng với Pagerank của trangđó”Cũng không có một giới hạn nào cho việc crawl. Cách tốt nhất để nắm đượcvấn đề này là chúng ta nên hiểu số lượng trang được Index tương ứng vớiPagerank. Chính vì thế nếu bạn có nhiều liên kết tới trang chủ của bạn,chúng tôi sẽ crawl trang đó. Sau đó trang chủ của bạn có thể liên kết tới rấtnhiều những trang khác và những trang đó sẽ có được Pagerank. Chúng tôicũng sẽ crawl luôn những trang đó. Tuy nhiên, khi trang của bạn càng sâuthì đồng nghĩa với việc Pagerank của bạn sẽ có xu hướng giảm xuống.Một cách lý giải khác là những trang có Pagerank thấp trong website củabạn sẽ phải cạnh tranh với rất nhiều những trang khác có cùng Pagerankhoặc có Pagerank cao hơn. Có rất nhiều trang trong website của bạn cóPagerank rất thấp hoặc bằng 0. Những trang có nhiều liên kết thường đượcnhận ra và crawl khá nhanh. Những trang có Pagerank thấp có xu hướngđược crawl không thường xuyên.Một điều cũng vô cùng thú vị khi nghiên cứu thuật ngữ “crawl budget” làmặc dù không có bất cứ một giới hạn nào trong crawl nhưng vẫn có kháiniệm “host load”. Host load là số lượng kết nối đồng thời mà server có thểxử lý được. Tưởng tượng rằng website của bạn chỉ có thể xử lý 1 kết nốicùng 1 lúc. Điều này chỉ cho phép googlebot lấy 1 trang tại 1 thời điểm vàdẫn tới việc “host load” sẽ rất thấp. Trong khi đó có một số trang nhưFacebook hoặc Twitter có thể có “host load” rất cao vì cùng một lúc cácwebsite này cho phép thực hiện nhiều kết nối.Trang của bạn có thể ở trong một host ảo với rất nhiều website khác cùngmột địa chỉ IP. Về mặt lý thuyết, website của bạn sẽ bị hạn chế về số lượngtrang googlebot crawl. Nếu chúng ta chỉ có thể lấy ra 2 trang từ 1 websitevào một thời điểm và chúng ta chỉ có thể crawl chúng vào một thời điểm cụthể, sẽ đặt ra một câu hỏi liệu chúng ta có thể lấy được bao nhiêu trang từhost đó.Eric Enge: Chính vì vậy ở đây anh sẽ có hai nhân tố. Một là Pagerank, từđây chúng ta có thể tính được số lượng trang có thể crawl được trênwebsite. Nhưng “host load” cũng có thể ảnh hưởng tới kết quả của kết quảnày.Matt Cutts: Đúng như vậy. Cho tới nay, có một lượng lớn các website đứngở vị trí hàng đầu mà Pagerank và những nhân tố khác có thể quyết định việcchúng ta sẽ đi sâu vào nghiên cứu website này như thế nào.Tuy nhiên “hostload” cũng có thể có những ảnh hưởng nhất định với một website. Điều nàydẫn tới vấn đề những nội dung trùng lặp. Tưởng tượng rằng chúng ta kiểmtra 3 trang từ 1 website và phát hiện ra rằng hai trang kia lại là bản sao củatrang thứ 3. Chúng ta sẽ loại hai trang kia và chỉ giữ lại một trang. Đó là lýdo tại sao nội dung của các trang có vẻ ít. Chính vì thế chúng ta có thể sẽkiểm tra nhiều tới mức có thể từ 1 trang.Nếu mà “host load” của bạn bị giới hạn, bạn chỉ có một lượng hữu hạn cáctrang đượng Crawl do giới hạn của webserver, khi bạn có những trang trùnglặp chúng tôi sẽ loại bỏ những trang đó điều này đồng nghĩa với việc bạn bỏlỡ cơ hội có những trang có nội dung đặc biệt, chất lượng tốt được Index.Eric Enge: Chính vì chi phí cho những trang có nội dung giống nhau sẽlãng phí “crawl budget”.Matt Cutts: Đúng như vậy. Có một ý kiến cho rằng nếu nếu bạn có mộtlượng Pagerank cụ thể, chúng tôi sẽ kiểm tra nhiều website đó. Nhưng mộtsố trang có thể bị loại và đó là một kiểu lãng phí. Điều này cũng có thể xảyra ở host load khi chúng ta không thể truy cập rất nhiều trang.Eric Enge: Một khái niệm nữa mà chúng ta cần đề cập tới đó là khái niệm“link juice”. Tôi sẽ sử dụng ...