Danh mục

Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ

Số trang: 10      Loại file: pdf      Dung lượng: 424.90 KB      Lượt xem: 4      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trùng lặp nội dung văn bản là vấn đề phổ biến từ các trang báo, trang tin đến các tác phẩm. Bài viết này trình bày việc đề xuất một cải tiến độ đo tương tự dựa trên logic mờ và ứng dụng trong vấn đề phát hiện trùng lặp nội dung bài báo.
Nội dung trích xuất từ tài liệu:
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờTẠP CHÍ KHOA HỌC − SỐ 8/2016 105 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ 1 Đỗ Nam Tiến1( ), Khiếu Văn Bằng1, Nguyễn Tu Trung1, Trần Thành Trung2, Nguyễn Huy Đức3 1 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam 2 Trường Đại học Sư phạm Hà nội 2 3 Trường Cao ñẳng Sư phạm Trung Ương Tóm tắ tắt: Trùng lặp nội dung văn bản là vấn ñề phổ biến từ các trang báo, trang tin ñến các tác phẩm. Việc phát hiện trùng lặp là rất cần thiết. Bản chất là kiểm tra sự tương tự giữa các tài liệu. Tuy nhiên, ñây là bài toán phức tạp và ñang ñược quan tâm nghiên cứu. Hiện nay, có nhiều phương pháp ñược nghiên cứu ñể giải quyết vấn ñề này. Trong bài báo này, chúng tôi ñề xuất một cải tiến ñộ ño tương tự dựa trên logic mờ và ứng dụng trong vấn ñề phát hiện trùng lặp nội dung bài báo. Từ khoá: khoá Văn bản, phát hiện trùng lặp, ñộ tương tự.1. ĐẶT VẤN ĐỀ Trùng lặp nội dung văn bản là hiện tượng phổ biến trong ñời sống. Vì nhiều nguyênnhân, các văn bản thường bị sao chép, trích dẫn. Đây là lí do mà các văn bản có thể tìmñược từ nhiều nguồn khác nhau như các trang báo ñiện tử. Vì những lí do khác nhau, nhiềukhi chúng ta muốn tìm và phát hiện sự trùng lặp giữa các văn bản. Ví dụ liên quan ñến vấnñề tác quyền, tác giả muốn kiểm tra xem nội dung tác phẩm của họ có bị sử dụng dụng lạimột cách trái phép hay không. Vấn ñề ñạo nhạc, ñạo bài hát, tác phẩm văn học... hiện ñangkhiến giới chuyên môn bức xúc. Đối với các hệ thống lưu trữ tài liệu, việc lưu các văn bảncó ñộ trùng lặp cao chỉ gây lãng phí và tốn tài nguyên. Với các máy tìm kiếm, khi thu thậpdữ liệu từ Internet, nếu ñánh giá tốt ñộ trùng lặp của dữ liệu mới so với các tài liệu có trongkho dữ liệu sẽ tránh ñược việc tiếp tục tải thêm và lưu trữ một dữ liệu mới trùng lặp vàokho dữ liệu... Vì vậy, vấn ñề phát hiện trùng lặp hiện ñang ñược quan tâm.(1) Nhận bài ngày 11.8.2016; gửi phản biện và duyệt ñăng ngày 15.9.2016 Liên hệ tác giả: Đỗ Nam Tiến; Email: tiendonam@gmail.com106 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI Phát hiện trùng lặp là bài toán phức tạp vì các văn bản thường không bị sao chép toànphần mà chỉ một phần có thể ít, có thể nhiều. Các phần bị sao chép có thể bị thay ñổi vànằm ở vị trí khác nhau trong văn sao chép. Hiện tại, có nhiều kĩ thuật phát hiện trùng lặpkhác nhau bao gồm: Shingling[1], I-Match[2], Phép chiếu ngẫu nhiên, SpotSigs, Sự tươngtự giữa hai tài liệu... Có thể thấy vấn ñề phát hiện trùng lặp thực chất là việc tính toán ñộ tương tự trong nộidung của văn bản cần so sánh với các văn bản có sẵn trong kho dữ liệu (Corpus). Độ tươngtự của văn bản ñược xác ñịnh dựa trên các chỉ số như: • Độ tương tự về ngữ nghĩa của các văn bản: Từ khoá, TF - IDF; • Độ tương tự về câu văn, ñoạn văn; • Độ tương tự về ngữ pháp của văn bản: Cú pháp câu, từ loại,... • Độ tương tự về các thẻ HTML của các trang web; Việc sử dụng một tiêu chí ñể ñánh giá ñộ tương tự của các văn bản trong kho văn bảnngày càng trở nên thiếu hiệu quả do người dùng Internet và các công cụ sao chép nội dungngày càng thông minh hơn. Do ñó, ngày càng có nhiều nghiên cứu tập trung vào việc kếthợp các tiêu chí ñánh giá ñộ tương tự với nhau ñể từ ñó làm tăng ñộ chính xác của cáccông cụ ñánh giá ñộ tương tự văn bản, phát hiện trùng lặp, máy tìm kiếm,... Trong [4], Muneer và cộng sự ñã ñề xuất thuật toán cho việc thiết lập các cụm trangweb trùng lặp. Ngoài ra, Fresno và cộng sự ñã ñề xuất hàm trọng số FCC là hệ mờ cho việcgán các trọng số ñặc trưng và sự kết hợp của chúng [5][3]. Hiện nay, trong nước cũng ñã có một số công trình nghiên cứu về việc phát hiện nộidung trùng lặp trong kho văn bản tiếng Việt [9], [6], [8], các nghiên cứu cho thấy việc kếthợp các tiêu chí ñánh giá nội dung văn bản ñể phát hiện sự trùng lặp trong kho văn bảntiếng Việt làm tăng ñộ chính xác trong việc ñánh giá của các thuật toán. Tuy nhiên, cácnghiên cứu cũng cho thấy vẫn cần phải nghiên cứu thêm ñể cải tiến, tối ưu hoá việc kếthợp các tiêu chí ñánh giá ñể nâng cao ñộ chính xác của việc phát hiện trùng lặp. Bài báo này ñề xuất cải tiến ñánh giá ñộ tương tự giữa hai văn bản tiếng Việt.Các phầncòn lại của bài báo này ñược trình bày như sau. Phần 2 trình bày hệ thống tra cứu văn bảnnói chung và ñô ño tương tự giữa hai văn bản. Phần 3 trình bày ñộ ño tươn ...

Tài liệu được xem nhiều: