Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản
Số trang: 3
Loại file: pdf
Dung lượng: 312.99 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản đề xuất cải tiến đánh giá độ tương tự giữa hai văn bản tiếng Việt và ứng dụng trong hệ thống tra cứu văn bản.
Nội dung trích xuất từ tài liệu:
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ VÀ ỨNG DỤNG TRONG TRA CỨU VĂN BẢN Nguyễn Tu Trung Trường Đại học Thủy lợi, email: trungnt@tlu.edu.vn 1. GIỚI THIỆU CHUNG hiện kiểm tra một bài báo điện tử được thu thập về xem có giống/gần giống với các bài Trùng lặp nội dung văn bản là hiện tượng phổ biến trong đời sống. Vì nhiều nguyên đã được thu thập trước đó hay không. nhân, các văn bản thường bị sao chép, trích 2.2. Độ đo tương tự dẫn. Đối với các hệ thống lưu trữ tài liệu, việc lưu các văn bản có độ trùng lặp cao chỉ gây lãng phí và tốn tài nguyên. Với các máy tìm kiếm, khi thu thập dữ liệu từ Internet, nếu đánh giá tốt độ trùng lặp của dữ liệu mới so với các tài liệu có trong kho dữ liệu sẽ tránh được việc tiếp tục tải thêm và lưu trữ một dữ liệu mới trùng lặp vào kho dữ liệu... Phát hiện trùng lặp là bài toán phức tạp vì các văn bản thường không bị sao chép toàn Hình 1. Mô hình không gian vector phần mà chỉ một phần có thể ít, có thể nhiều. cho văn bản [4]. Các phần bị sao chép có thể bị thay đổi và Văn bản thường được biểu diễn dưới dạng nằm ở vị trí khác nhau trong văn sao chép. vector dựa theo mô hình tần suất [4] mà tiêu Trong [1], Muneer và cộng sự đã đề xuất biểu là các phương pháp dựa trên tần số (TF) và thuật toán cho việc thiết lập các cụm trang nghịch đảo tần số (IDF). Hình 2 là ví dụ trong web trùng lặp. Ngoài ra, Fresno và cộng sự trường hợp biểu diễn văn bản với số Token là đã đề xuất hàm trọng số FCC là hệ mờ cho 2. Về mặt tổng quát, số Token rất nhiều, ví dụ: việc gán các trọng số đặc trưng và sự kết hợp Tổng số âm tiết (nếu dùng đặc trưng âm tiết), của chúng [2]. Hiện nay, trong nước cũng đã Tổng số từ (nếu dùng đặc trưng từ). có một số công trình nghiên cứu về việc phát Có một số độ đo được sử dụng như: hiện nội dung trùng lặp trong kho văn bản độ tương tự cosine (cosine similarity), hệ tiếng Việt [3], [5], các nghiên cứu cho thấy số Jaccard (Jaccard coeficient), khoảng cách việc kết hợp các tiêu chí đánh giá nội dung Euclide(Euclideandistance), hệ số tương quan văn bản để phát hiện sự trùng lặp trong kho Pearson (Pearson Correlation coeficient) văn bản tiếng Việt làm tăng độ chính xác [4]... Trong bài báo này, chúng tôi xem xét trong việc đánh giá của các thuật toán. Bài báo này đề xuất cải tiến đánh giá độ độ đo khoảng cách Euclide được biểu diễn tương tự giữa hai văn bản tiếng Việt và ứng theo công thức sau đây: dụng trong hệ thống tra cứu văn bản. d Euclide ( A,B ) = ∑ ( Ai − Bi ) 2 (1) i 2. PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Hệ thống tra cứu văn bản trùng lặp 2.3. Thuật toán phân cụm dữ liệu Trong [3] đưa ra một mô hình hệ thống tra Khi cơ sở dữ liệu văn bản rất lớn, việc tra cứu văn bản trùng lặp. Chương trình thực cứu trên toàn bộ kho văn bản khiến tốc độ thực 142 Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 thi rất chậm. Vì vậy, người ta có thể tiến hành hợp lý. Lý do là vì các từ thông thường sẽ được phân cụm kho văn bản trước để tăng tốc độ tra sử dụng nhiều hơn so với tên riêng, tên người, cứu. Ngoài ra, kĩ thuật phân cụm còn được sử con số… nên khả năng lặp lại cao hơn rất dụng để hỗ trợ phân lớp kho dữ liệu văn bản. nhiều. Hay chữ viết tắt có khả năng lặp lại rất Thuật toán KMeans [6] bao gồm 4 bước, thấp trong các văn bản. Nói cách khác, xét về được trình bày như sau: khả năng lặp lại thì các từ thông thường có ảnh Đầu vào: n đối tượng xi với i = 1..n và số hưởng lớn nhất còn các chữ viết tắt ảnh hưởng cụm c ít nhất. Như vậy, nếu chúng ta phân hạng đặc Đầu ra: Các cụm Cj (j = 1..c) sao cho hàm trưng theo các mức khác nhau thì có thể đánh mục tiêu E sau đây đạt cực tiểu: giá độ tương tự văn bản chính xác hơn. c ∑ d 2 ( x,C j ) Từ đây, nhóm tác giả đề xuất tập luật để E=∑ (2) j =1 x∈C j xác định mức độ ảnh hưởng của các loại đặc trưng như sau: Các bước thuật toán như sau: 1) Nếu đặc trưng là Từ thông thường thì Bước 1: Khởi tạo ảnh hưởng rất lớn. Chọn k đối tượng Cj (j = 1..c) là tâm ban 2) Nếu đặc trưng là Tên riêng thì ảnh đầu của c cụm dữ liệu đầu vào (lựa chọn hưởng lớn. ngẫu nhiên hoặc theo kinh nghiệm). 3) Nếu đặc trưng là Tên người hoặc tên Bước 2: Gán tâm cụm theo khoảng cách thực thể thì ảnh hưởng trung bình. Với mỗi đối tượng xi (i = 1..n), tính 4) Nếu đặc trưng là Phần trăm hoặc Số thì khoảng cách của nó tới mỗi tâm Cj với ảnh hưởng nhỏ. j = 1..c. Đối tượng thuộc về cụm CS mà 5) Nếu đặc trưng là Chữ viết tắt thì ảnh khoảng ...
Nội dung trích xuất từ tài liệu:
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ và ứng dụng trong tra cứu văn bản Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ VÀ ỨNG DỤNG TRONG TRA CỨU VĂN BẢN Nguyễn Tu Trung Trường Đại học Thủy lợi, email: trungnt@tlu.edu.vn 1. GIỚI THIỆU CHUNG hiện kiểm tra một bài báo điện tử được thu thập về xem có giống/gần giống với các bài Trùng lặp nội dung văn bản là hiện tượng phổ biến trong đời sống. Vì nhiều nguyên đã được thu thập trước đó hay không. nhân, các văn bản thường bị sao chép, trích 2.2. Độ đo tương tự dẫn. Đối với các hệ thống lưu trữ tài liệu, việc lưu các văn bản có độ trùng lặp cao chỉ gây lãng phí và tốn tài nguyên. Với các máy tìm kiếm, khi thu thập dữ liệu từ Internet, nếu đánh giá tốt độ trùng lặp của dữ liệu mới so với các tài liệu có trong kho dữ liệu sẽ tránh được việc tiếp tục tải thêm và lưu trữ một dữ liệu mới trùng lặp vào kho dữ liệu... Phát hiện trùng lặp là bài toán phức tạp vì các văn bản thường không bị sao chép toàn Hình 1. Mô hình không gian vector phần mà chỉ một phần có thể ít, có thể nhiều. cho văn bản [4]. Các phần bị sao chép có thể bị thay đổi và Văn bản thường được biểu diễn dưới dạng nằm ở vị trí khác nhau trong văn sao chép. vector dựa theo mô hình tần suất [4] mà tiêu Trong [1], Muneer và cộng sự đã đề xuất biểu là các phương pháp dựa trên tần số (TF) và thuật toán cho việc thiết lập các cụm trang nghịch đảo tần số (IDF). Hình 2 là ví dụ trong web trùng lặp. Ngoài ra, Fresno và cộng sự trường hợp biểu diễn văn bản với số Token là đã đề xuất hàm trọng số FCC là hệ mờ cho 2. Về mặt tổng quát, số Token rất nhiều, ví dụ: việc gán các trọng số đặc trưng và sự kết hợp Tổng số âm tiết (nếu dùng đặc trưng âm tiết), của chúng [2]. Hiện nay, trong nước cũng đã Tổng số từ (nếu dùng đặc trưng từ). có một số công trình nghiên cứu về việc phát Có một số độ đo được sử dụng như: hiện nội dung trùng lặp trong kho văn bản độ tương tự cosine (cosine similarity), hệ tiếng Việt [3], [5], các nghiên cứu cho thấy số Jaccard (Jaccard coeficient), khoảng cách việc kết hợp các tiêu chí đánh giá nội dung Euclide(Euclideandistance), hệ số tương quan văn bản để phát hiện sự trùng lặp trong kho Pearson (Pearson Correlation coeficient) văn bản tiếng Việt làm tăng độ chính xác [4]... Trong bài báo này, chúng tôi xem xét trong việc đánh giá của các thuật toán. Bài báo này đề xuất cải tiến đánh giá độ độ đo khoảng cách Euclide được biểu diễn tương tự giữa hai văn bản tiếng Việt và ứng theo công thức sau đây: dụng trong hệ thống tra cứu văn bản. d Euclide ( A,B ) = ∑ ( Ai − Bi ) 2 (1) i 2. PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Hệ thống tra cứu văn bản trùng lặp 2.3. Thuật toán phân cụm dữ liệu Trong [3] đưa ra một mô hình hệ thống tra Khi cơ sở dữ liệu văn bản rất lớn, việc tra cứu văn bản trùng lặp. Chương trình thực cứu trên toàn bộ kho văn bản khiến tốc độ thực 142 Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 thi rất chậm. Vì vậy, người ta có thể tiến hành hợp lý. Lý do là vì các từ thông thường sẽ được phân cụm kho văn bản trước để tăng tốc độ tra sử dụng nhiều hơn so với tên riêng, tên người, cứu. Ngoài ra, kĩ thuật phân cụm còn được sử con số… nên khả năng lặp lại cao hơn rất dụng để hỗ trợ phân lớp kho dữ liệu văn bản. nhiều. Hay chữ viết tắt có khả năng lặp lại rất Thuật toán KMeans [6] bao gồm 4 bước, thấp trong các văn bản. Nói cách khác, xét về được trình bày như sau: khả năng lặp lại thì các từ thông thường có ảnh Đầu vào: n đối tượng xi với i = 1..n và số hưởng lớn nhất còn các chữ viết tắt ảnh hưởng cụm c ít nhất. Như vậy, nếu chúng ta phân hạng đặc Đầu ra: Các cụm Cj (j = 1..c) sao cho hàm trưng theo các mức khác nhau thì có thể đánh mục tiêu E sau đây đạt cực tiểu: giá độ tương tự văn bản chính xác hơn. c ∑ d 2 ( x,C j ) Từ đây, nhóm tác giả đề xuất tập luật để E=∑ (2) j =1 x∈C j xác định mức độ ảnh hưởng của các loại đặc trưng như sau: Các bước thuật toán như sau: 1) Nếu đặc trưng là Từ thông thường thì Bước 1: Khởi tạo ảnh hưởng rất lớn. Chọn k đối tượng Cj (j = 1..c) là tâm ban 2) Nếu đặc trưng là Tên riêng thì ảnh đầu của c cụm dữ liệu đầu vào (lựa chọn hưởng lớn. ngẫu nhiên hoặc theo kinh nghiệm). 3) Nếu đặc trưng là Tên người hoặc tên Bước 2: Gán tâm cụm theo khoảng cách thực thể thì ảnh hưởng trung bình. Với mỗi đối tượng xi (i = 1..n), tính 4) Nếu đặc trưng là Phần trăm hoặc Số thì khoảng cách của nó tới mỗi tâm Cj với ảnh hưởng nhỏ. j = 1..c. Đối tượng thuộc về cụm CS mà 5) Nếu đặc trưng là Chữ viết tắt thì ảnh khoảng ...
Tìm kiếm theo từ khóa liên quan:
Trùng lặp nội dung văn bản Tra cứu văn bản Phương pháp nghịch đảo tần số Thuật toán phân cụm dữ liệu Phân cụm kho văn bảnTài liệu liên quan:
-
4 trang 15 0 0
-
Luận văn Thạc sĩ Công nghệ thông tin: Tập thô và bài toán phân cụm dữ liệu
70 trang 14 0 0 -
78 trang 10 0 0
-
10 trang 9 0 0
-
Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu
68 trang 6 0 0 -
26 trang 5 0 0
-
Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ
10 trang 3 0 0