Danh mục

Google, Yahoo, Microsofts bỏ qua Boilerplate

Số trang: 8      Loại file: pdf      Dung lượng: 198.03 KB      Lượt xem: 14      Lượt tải: 0    
10.10.2023

Hỗ trợ phí lưu trữ khi tải xuống: 1,000 VND Tải xuống file đầy đủ (8 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Google, Yahoo, Microsofts bỏ qua Boilerplate Các máy tìm kiếm (Google, Yahoo và Microsofts) xử lý các văn bản lặp trên phần Header, Footer, trên Sidebar hay mục liên lạc, bản quyền (Copyright) hay thanh duyệt (Navigation bar). 1. 1. 2. 3. 4. Máy tìm kiếm Google thế hệ mới ? Google và các mẫu trích Tìm kiếm nội dung và mẫu trích Định dạng chung của mẫu trích Kết luận về mẫu trích.
Nội dung trích xuất từ tài liệu:
Google, Yahoo, Microsofts bỏ qua Boilerplate Google, Yahoo, Microsofts bỏ qua BoilerplateCác máy tìm kiếm (Google, Yahoo và Microsofts) xử lýcác văn bản lặp trên phần Header, Footer, trên Sidebar haymục liên lạc, bản quyền (Copyright) hay thanh duyệt(Navigation bar). Máy tìm kiếm Google thế hệ mới ?1. Google và các mẫu trích1. Tìm kiếm nội dung và mẫu trích2. Định dạng chung của mẫu trích3. Kết luận về mẫu trích4.Rất nhiều trang Web hoặc tài liệu sử dụng các ký tự y hệtnhau trong phần sidebar hoặc phần cuối trang (footer), vídụ như lưu ý bản quyền, liên lạc hay các thanh duyệt(navigation bar).Các nhân viên lập trình đôi khi sử dụng thuật ngữ“boilerplate” tạm dịch là mẫu trích1 để ám chỉ các đoạn mãchuẩn thư viện được dùng để chèn vào trong chương trình.Trong khi đó các luật sư sử dụng trích mẫu trong các hợpđồng – phần văn bản nằm ở mặt sau của hợp đồng luôn cốđịnh cho các loại hợp đồng khác nhau.Các máy tìm kiếm hiện nay rất có thể bỏ qua các văn bảnmẫu này khi đánh chỉ số những trang này. Ngoài ra máytìm kiếm còn có thể sử dụng nội dung các trang này sau khiloại bỏ văn bản mẫu có thể làm nhiễu nội dung chính củatrang để đưa ra các gợi ý tìm kiếm cho người dùng sử dụngchức năng tìm kiếm cá nhân hóa. Việc loại bỏ các văn bảnmẫu này giúp cải thiện việc sắp xếp thứ hạng trang kết quảtìm kiếm cá nhân hóa.Câu hỏi được đặt ra là bằng việc bỏ qua các văn bản mẫu,Google cố gắng hiểu nội dung chính của trang thì liệu nó cótính đến các từ khóa làm trong cảnh báo bản quyền cuốitrang hay việc sử dụng đường dẫn tới trang chủ ? Liệu cácchuỗi ký tự liên kết nằm trong đường dẫn trỏ tới các liênkết bạn bè có được tính đến hay không ?Boilerplate của bách khoa toàn thư WikipediaThật khó đưa ra một câu trả lời chính xác là Google tínhđến các mẫu văn bản lặp này như thế nào. Google tính đếncác từ khóa trong điều khoản bản quyền, giới thiệu vàthông cáo ra sao trên tất cả các trang. Nhưng một điều cóthể chắc là Google sẽ không còn quan tâm thật nhiều tớichúng trong tương lai.Máy tìm kiếm Google thế hệ mới ?Theo dự đoán thì Google thế hệ tiếp theo sẽ được “lai tạp”giữa tìm kiếm Internet và tìm kiếm trong máy tính các nhâncũng như tìm kiếm trong mạng nội bộ Intranet với nhiềutính năng mới. Theo các đăng ký bằng sáng chế gần đây thìhiện đã có trên dưới 50 ứng dụng mà tương lai có thể đượctích hợp trong chức năng tìm kiếm thế hệ tiếp theo.Google và các mẫu tríchTrong số 50 ứng dụng kể trên có một vài ứng dụng khá mớivừa được giới thiệu, nó cho phép bỏ qua mẫu văn bản lặpnày :Systems and methods for analyzing boilerplateInvented by Stephen R. LawrenceUS Patent Application 20080040316Published February 14, 2008Filed March 31, 2004Hệ thống và phương pháp phân tích boilerplate cho phépphát hiện các yếu tố trong nhiều các bài viết liên quan. Sauđó, hệ thống đánh chỉ số sẽ xem các yếu tố chung này nhưlà một mẫu văn bản chung. Ví dụ, hệ thống đánh chỉ số sẽxác định qui định về bản quyền tác giải xuất hiện trong cácbài viết. Và phần qui định bản quyền sẽ bị qui vào mẫu vănbản chung.Các máy tìm kiếm lại xử lý các boilerplate này một cáchkhác nhau. Ví dụ chúng có thể coi tất cả các ký tự nằm sauchữ “Bản quyền” chẳng hạn sẽ bị coi là mẫu văn bản tríchdẫn nếu chúng lại xuất hiện trên nhiều trang khác nhau.Các văn bản trên thanh trượt, tiêu đề, khẩu hiệu trang Web,địa chỉ cuối trang cũng có thể bị qui vào mẫu văn bản tríchdẫn chung.Tìm kiếm nội dung và mẫu tríchCó hai cách thức khác nhau mà các máy tìm kiếm (searchengine) sẽ sử dụng để xác định ra các mẫu văn bản tríchdẫn chung này :Truy vấn ẩnHệ thống đánh chỉ số sẽ tìm kiếm và xác định các phần vănbản trích dẫn chung so với phần văn bản chính. Sau đóchúng sẽ tạo ra các truy vấn tìm kiếm ẩn chứa các từ khóatìm kiếm từ phần nội dung chính.Truy vấn hiệnHệ thống truy vấn sẽ tách bỏ hoặc coi nhẹ phần văn bảntrích dẫn chung khi người dùng tìm kiếm.Trong cả hai trường hợp truy vấn ẩn hay hiện thì trọng sốcủa phần văn bản trích dẫn chung luôn sẽ bị coi nhẹ hơn làphần văn bản chính của trang. Và vì thế một bài viết sẽkhông cần phải được đánh chỉ số lại sau khi phần văn bảntrích dẫn chung bị thay đổi hay xóa khỏi trang liên quan.Điều đó có nghĩa là chỉ có văn bản chính của trang mới ảnhhưởng tới các truy vấn tìm kiếm.Định dạng chung của mẫu trích Boilerplate : Các văn bản của mẫu trích thường nằmtại phần tiêu đề, cuối trang hay các thanh duyệt và chúngxuất hiện trên nhiều trang. Mẫu trích của thể được xác địnhkhi phân tích một số các chủ đề liên đới ví dụ tập hợp nhiềutrang trong một trang. Cũng có thể xác định chúng trongmột trang đơn. Xác định mẫu trích : Trình chỉ số hóa có thể xác địnhmẫu trích theo vài cách khác nhau : Có thẻ phân tích tầnxuất của các từ hay câu trong một số chủ đề liên quan đểxác dịnh ra các thành phần chung của các trang này. Trìnhchỉ số hóa sau đó xếp hạng cá ...

Tài liệu được xem nhiều: