Danh mục

Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông: Phần 2 - NXB. Khoa học kỹ thuật

Số trang: 222      Loại file: pdf      Dung lượng: 8.49 MB      Lượt xem: 17      Lượt tải: 0    
10.10.2023

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phần 2 Kỷ yếu hội thảo: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông gồm các bài viết tham gia như "Một phương pháp xử lý kết quả tìm kiếm trên web", "Một số cải tiến nâng cao tốc độ xử lý của phương pháp mã hóa số học",..., nhằm giúp những người làm công tác nghiên cứu khoa học trẻ, nghiên cứu sinh, học viên cao học có điều kiện trao đổi, tìm kiếm sự tài trợ hợp tác.
Nội dung trích xuất từ tài liệu:
Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông: Phần 2 - NXB. Khoa học kỹ thuật Một số vần đề chọn ỉọc cùa Công nghệ thông tỉn và truvền thông, Hưng Yên, ĩ 9-20 tháng 08 năm 2 0 ĩ 0 MỘT PHƯƠNG PHÁP XỬ LÝ KÉT QUẢ TÌM KIẾM TRÊN WEB Trần Ngọc Hà *, Hoàng Xuân Huấn Nguyễn Phương Chi^ (1) Khoa Toán, Đại học S ư phạm, Đại học Thái Nguyên (2) Khoa Công nghệ thông tin, Đại học Công nghệ, Đại học Quốc Gia Hà Nội (3)Khoa Cơ bản, Đại học Ngoại thương Khí sử dụng các công cụ tìm kiếm thông dụng hiện nay, kết quả tìm idem thicờng là rất nhiều tài liệu và các kết quả được đảnh giá là cỏ liên quan tời từ khỏa nhiều nhất sẽ được iru tiên hiển thị trước. Phương pháp này nhiều khi không tiện lợi cho người dùng, thậm chí người dùng có thể bỏ qua các kết quả cần tìm vì chủng không cỏ thứ hạng cao trong tập kết quả tìm kiếm. Để giải quyết vẩn đề này, báo cáo đề xuất hiển thị kết quả tìm kiếm web theo chủ đề. Để xác định chủ đề cho tài liệu, tnrởc hết sử dụng mô hĩnh tập thô dung sai để tăng chất lượng việc biểu diễn các tài liệu và các cụm từ nhằm tăng hiệu qitả phân cụm; sau đó sử dụng phương pháp phân cụm bán giảm sát Seeded - KMeans vào việc phân cụm và xác định chủ đề tài liệu. Nhờ cách xử lý này, người dùng dựa trên từ khỏa cỏ thể tìm tài liệu theo chủ đề. Từ khóa: tập thô dung sai, đồng xuất hiện, phân cụm bán giám sát, Seeded - KMeans, tìm kiếm web... 1. Giới thiệu Cùng với sự phát triển rộng rãi của Internet, các máy tìm kiếm hiệu quả trên web đang được nhiều người quan tâm nghiên cứu (xem [2],[3],[8]). Mỗi khi cần tìm kiếm một thông tin nào đó, người dùng sẽ cung cấp cho máy tìm kiếm một số từ khóa, các máy tìm kiếm sẽ trả về cho người dùng các tài liệu có chứa từ khóa này. Thường thì có hàng trăm hoặc hàng ngàn tài liệu như vậy, điều này gây khó khăn cho người dùng trong việc tìm đúng tài liệu cần tìm. Thực tể cho thấy nếu các kết quả tìm kiếm được chia thành các chủ đề sẽ giúp người dùng dễ xác định được tài liệu mình cần tìm hơn. Điều này gợi ra cách tiếp cận mới là phân cụm kết quả tìm kiểm theo chủ đề và hiển thị kết quả dựa trên chủ đề theo lựa chọn của người dùng. Việc phân cụm kết quả tim kiếm web gặp phải một số khó khăn sau: • Không thể xác định trước được số cụm để gán chủ đề. • Sau khi phân cụm, chọn nhãn nào cho từng cụm để phù hợp cho người dùng? 181 Một số vẩn đề chọn lọc cùa Câng nghệ thông tin và truyền thông, Hung Yén, 19-20 tháng 08 năm 2010 • Vì thực hiện trực tuyến nên yêu cầu phải có tốc độ xử lý nhanh. Để giải quyết được các khó khăn trên, trong báo cáo này chúng tôi sử dụng mô hình tập thô dung sai (xem [2], [3], [5]) vào việc biểu diễn tài liệu làm tăng chất lượng biểu diễn tài liệu. Để tạo ra được nhãn cho các cụm kết quả tìm kiếm và tăng chất lượng của việc phân cụm, chúng tôi sử dụng thuật toán phân cụm bán giám sát Seeded - KMeans vào việc phân cụm, trong đó nhân của cụm sẽ dựa vào nhãn của tài liệu ở tập giống (seed) trong các trang web được chọn trước. Phần còn lại của báo cáo bao gồm các nội dung sau: mục 2 trình bày về máy tìm kiếm web, mục 3 giới thiệu bài toán phân cụm kết quả tìm kiếm web và mô hình tập thô dung sai, mục 4 trình bày thuật toán phân cụm bán giám sát dựa trên mô hình tập thô dung sai, mục 5 trình bày thử nghiệm của chúng tôi, và cuối cùng là kết luận. 2. M áy tìm kiếm web Máy tìm kiếm Web là một công cụ giúp người sử dụng tìm kiếm thông tin trên mạng một cách nhanh chóng và đầy đủ. Cấu trúc của một máy tìm kiếm web gồm các thành phần sau (xem [3], [8]): Trình thu thập web (Web Crawler) hay còn được gọi là Web Spider là một trong hai thành phần tương tác trực tiếp với World Wide Web (WWW). Web crawler CÓ nhiệm vụ phát hiện các trang mới trên WWW bằng cách thu thập các siêu liên kết từ các trang tài liệu. Quá trình này được thực hiện đệ qui để thăm dò hầu hết các trang web trên Internet. Web crawler sẽ phải sử dụng một số kỹ thuật để tránh không bị lấy thông tin trùng lặp; nó vừa thu thập các trang web mới nhưng cũng đồng thời kiểm tra lại những siêu liên kết đã không còn tồn tại trên WWW để loại chúng khỏi các kết quả tìm kiếm. Chỉ mục tài liệu (Document Index): Thành phần lập chỉ mục tài liệu thực hiện chức năng xây dựng bảng chỉ số tài liệu hỗ trợ công việc tìm kiếm. Thông thường, các hộ thống tìm kiếm thông tin thực hiện việc tìm kiếm các tài liệu hoặc dựa trên phương pháp lựa chọn tài liệu có chứa các từ trong câu hỏi tray vấn, hoặc dựa trên phương pháp xếp hạng tài liệu (Document Ranking) liên quan đến câu hỏi truy vấn. Do đó hầu hết các máy tìm kiếm đều sử dụng biến dữ liệu có cấu trúc chỉ mục ngược (inverted index) để hỗ trợ thực hiện công việc này. Lưu trữ tài liệu (Document Cache): Hiện nay có nhiều máy tìm kiếm vừa lưu trữ bảng chỉ số tài liệu như ở phần trên, vừa lưu trữ tài liệu gốc. Tính hạng tài liệu (Document Ranking) World Wide Web càng ngày càng phát triển do vậy lượng thông tin ngày càng lớn, số kết quả tìm kiếm với một từ khóa bất kỳ đều rất lớn, ngay cả với những câu hỏi truy vấn hoàn thiện và chính xác, số kết quả tìm kiếm vẫn có thể lên đến hàng ngàn hoặc hàng triệu. Chính vì vậy cần có module tính hạne; tài 182 M ột sẩ vấn đề chọn lọc cùa Công nghệ thông tin và truyền thông, Hưng Yên, 19-20 tháng 08 năm 2010 liệu để xác định được tài liệu nào có độ liên quan đến các từ khóa mà người dùng tìm kiểm nhất. Xử lí truy vấn là thành phần có nhiệm vụ phân tích cú pháp tìm kiếm của người dùng thông qua các toán tử và cú pháp được định nghĩa, sau đó bộ xử lí truy vấn kết hợp với bảng chỉ số tài liệu, các tài liệu được lưu trừ, và thành p ...

Tài liệu được xem nhiều:

Tài liệu cùng danh mục:

Tài liệu mới: