Thông tin tài liệu:
Câu hỏi được đặt ra là bằng việc bỏ qua các mẫu trích boilerplate, Google cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từ khóa làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫn tới trang chủ?... 1. Mẫu trích Boilerplate là gì và tại sao bị Google bỏ qua?
Nội dung trích xuất từ tài liệu:
BoilerPlate bị Google, Yahoo, Microsoft bỏ qua BoilerPlate bị Google, Yahoo, Microsoft bỏ quaCâu hỏi được đặt ra là bằng việc bỏ qua các mẫu trích boilerplate, Google cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từ khóa làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫn tới trang chủ?... 1. Mẫu trích Boilerplate là gì và tại sao bị Google bỏ qua? Rất nhiều trang Web hoặc tài liệu sử dụng các ký tự y hệt nhau trongphần sidebar hoặc phần cuối trang (footer)ví dụ như lưu ý bản quyền, liên lạc hay các thanh duyệt (navigation bar). Các nhân viên lập trình đôi khi sử dụng thuật ngữ “boilerplate” tạmdịch là mẫu trích (1) để ám chỉ các đoạn mã chuẩn thư viện được dùng đểchèn vào trong chương trình. Trong khi đó các luật sư sử dụng trích mẫutrong các hợp đồng - phần văn bản nằm ở mặt sau của hợp đồng luôn cốđịnh cho các loại hợp đồng khác nhau. Các máy tìm kiếm hiện nay rấtcó thể bỏ qua các mẫu trích boilerplate khi đánh chỉ số những trang này.Ngoài ra máy tìm kiếm còn có thể sử dụng nội dung các trang này sau khiloại bỏ mẫu trích boilerplate có thể làm nhiễu nội dung chính của trang đểđưa ra các gợi ý tìm kiếm cho người dùng sử dụng chức năng tìm kiếm cánhân hóa. Việc loại bỏ các mẫu trích boilerplate này giúp cải thiện việc sắpxếp thứ hạng trang kết quả tìm kiếm cá nhân hóa. Câu hỏi được đặt ra là bằng việc bỏ qua các mẫu trích boilerplate,Google cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từkhóa làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫntới trang chủ ? Liệu các chuỗi ký tự liên kết nằm trong đường dẫn trỏ tới cácliên kết bạn bè có được tính đến hay không ?Mẫu trích boilerplate của bách khoa toàn thư Wikipedia Thật khó đưa ra một câu trả lời chính xác là Google tính đến các mẫutrích boilerplate bị lặp này như thế nào. Google tính đến các từ khóa trongđiều khoản bản quyền, giới thiệu và thông cáo ra sao trên tất cả các trang.Nhưng một điều có thể chắc là Google sẽ không còn quan tâm thật nhiều tớichúng trong tương lai.2. Mẫu trích boilerplate và máy tìm kiếm Google thế hệ mới? Theo dự đoán thì Google thế hệ tiếp theo sẽ được “lai tạp” giữa tìmkiếm Internet và tìm kiếm trong máy tính các nhân cũng như tìm kiếm trongmạng nội bộ Intranet với nhiều tính năng mới. Theo các đăng ký bằng sángchế gần đây thì hiện đã có trên dưới 50 ứng dụng mà tương lai có thể đượctích hợp trong chức năng tìm kiếm thế hệ tiếp theo.a. Google và các mẫu trích boilerplate Trong số 50 ứng dụng kể trên có một vài ứng dụng khá mới vừa đượcgiới thiệu, nó cho phép bỏ qua mẫu văn bản lặp này :Systems and methods for analyzing boilerplateInvented by Stephen R. LawrenceUS Patent Application 20080040316Published February 14, 2008Filed March 31, 2004 Hệ thống và phương pháp phân tích mẫu trích boilerplate cho phépphát hiện các yếu tố trong nhiều các bài viết liên quan. Sau đó, hệ thốngđánh chỉ số sẽ xem các yếu tố chung này như là một mẫu văn bản chung.Ví dụ, hệ thống đánh chỉ số sẽ xác định qui định về bản quyền tác giải xuấthiện trong các bài viết. Và phần qui định bản quyền sẽ bị qui vào mẫu tríchboilerplate để trích dẫn chung. Các máy tìm kiếm lại xử lý các mẫu trích boilerplate này một cáchkhác nhau.Ví dụ chúng có thể coi tất cả các ký tự nằm sau chữ “Bản quyền” chẳng hạnsẽ bị coi là mẫu văn bản trích dẫn nếu chúng lại xuất hiện trên nhiều trangkhác nhau. Các văn bản trên thanh trượt, tiêu đề, khẩu hiệu trang Web, địa chỉcuối trang cũng có thể bị qui vào mẫu trích boilerplate.b. Tìm kiếm nội dung và mẫu trích boilerplate Có hai cách thức khác nhau mà các máy tìm kiếm (search engine) sẽsử dụng để xác định ra các mẫu trích boilerplate(mẫu văn bản trích dẫnchung) này:o Truy vấn ẩn: Hệ thống đánh chỉ số sẽ tìm kiếm và xác định cácphần văn bản trích dẫn chung so với phần văn bản chính. Sau đó chúng sẽtạo ra các truy vấn tìm kiếm ẩn chứa các từ khóa tìm kiếm từ phần nội dungchính.o Truy vấn hiện: Hệ thống truy vấn sẽ tách bỏ hoặc coi nhẹ phầnmẫu trích boilerplate khi người dùng tìm kiếm. Trong cả hai trường hợp truy vấn ẩn hay hiện thì trọng số của mẫutrích boilerplate - phần văn bản trích dẫn chung luôn sẽ bị coi nhẹ hơn làphần văn bản chính của trang. Và vì thế một bài viết sẽ không cần phải đượcđánh chỉ số lại sau khi phần văn bản trích dẫn chung bị thay đổi hay xóakhỏi trang liên quan. Điều đó có nghĩa là chỉ có văn bản chính của trang mớiảnh hưởng tới các truy vấn tìm kiếm.3. Định dạng chung của mẫu trích boilerplate Mẫu trích boilerplate : Các văn bản của mẫu trích thường nằm tạiphần tiêu đề, cuối trang hay các thanh duyệt và chúng xuất hiện trên nhiềutrang. Mẫu trích được xác định khi phân tích một số các chủ đề liên đới vídụ tập hợp nhiều trang trong một trang. Cũng có thể xác định chúng trongmột trang đơn. Xác định mẫu trích boilerplate : Trình chỉ số hóa có thể xác địnhmẫu trích theo vài cách khác nhau : Có thẻ phân tích tần xuất của các từ haycâu trong một số chủ đề liên quan để xác dịnh ra các thành phần chung củacác trang này. Trình chỉ số hóa sau đó xếp hạng các thành phần chung nàynhư là mẫu trích.Ví dụ, một câu như “Copyright 2008″ xuất hiện trong một số các bài viếtchung có thể coi là mẫu trích boilerplate. Vị trí vệ tinh cả từ và câu : Một số từ hay câu xuất hiện tại một số vịtrí nhất định trên một trang có thể sẽ bị qui vào mẫu trích. Ví dụ các phầnvăn bản chung luôn xuất hiện cuối trang sẽ bị coi là mẫu trích.Ví dụ các lưu ý về bản quyền hay địa chỉ liên lạc cuối trang sẽ bị coi là mẫutrích boilerplate. Thành phần duyệt, di chuyển : Các thành phần chung của mã nguồnHTML trong trang cũng có thể bị coi là mẫu trích.Ví dụ, một đoạn mã JavaScript cho phép thay đổi cách thức hiển thị ...