Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩ
Số trang: 10
Loại file: pdf
Dung lượng: 446.09 KB
Lượt xem: 17
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài báo này, chúng tôi trình bày về việc sử dụng cấu trúc văn bản xây dựng đồ thị liên kết giữa các câu trong văn bản kết hợp với từ điển đồng nghĩa để tóm tắt văn bản tiếng Việt. Kết quả thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết quả tốt nhất với độ đo F đạt trung bình 52,41, tốc độ tóm tắt trung bình đạt 8 phút/50 văn bản (với trung bình 40 câu/văn bản).
Nội dung trích xuất từ tài liệu:
Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩ JOURNAL OF SCIENCE OF HNUE Natural Sci., 2013, Vol. 58, No. 3, pp. 154-163 This paper is available online at http://stdb.hnue.edu.vn TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG CẤU TRÚC VĂN BẢN VÀ TỪ ĐIỂN ĐỒNG NGHĨA Lê Quý Tài Khoa Hệ thống thông tin quản lý, Học viện Ngân hàng Tóm tắt. Tóm tắt văn bản là một lĩnh vực quan trọng của xử lí ngôn ngữ tự nhiên. Đối với tiếng Việt, do tính phức tạp của ngôn ngữ nên hiện nay các phương pháp tóm tắt còn gặp nhiều khó khăn. Trong bài báo này, chúng tôi trình bày về việc sử dụng cấu trúc văn bản xây dựng đồ thị liên kết giữa các câu trong văn bản kết hợp với từ điển đồng nghĩa để tóm tắt văn bản tiếng Việt. Kết quả thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết quả tốt nhất với độ đo F đạt trung bình 52,41%, tốc độ tóm tắt trung bình đạt 8 phút/50 văn bản (với trung bình 40 câu/văn bản). Từ khóa: Tóm tắt văn bản, đồ thị liên kết, từ đồng nghĩa, xử lí ngôn ngữ. 1. Mở đầu Tóm tắt văn bản là một lĩnh vực của xử lí ngôn ngữ tự nhiên và đã được nghiên cứu từ những năm 50 của thế kỉ 20. Đối với ngôn ngữ tiếng Anh đã có nhiều nghiên cứu về tóm tắt văn bản và thu được những kết quả rất khả quan [3]. Với tiếng Việt, do sự phức tạp về ngôn ngữ nên kết quả của các công trình nghiên cứu về tóm tắt băn bản tiếng Việt còn có nhiều hạn chế. Hiện nay đã có những công trình nghiên cứu về tóm tắt văn bản tiếng Việt sử dụng các phương pháp thống kê, một số dựa trên ngữ nghĩa. Chẳng hạn, Đỗ Phúc, Hoàng Kiếm [6] đã sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, rồi dùng kĩ thuật gom cụm để gom các câu trong văn bản. Nguyễn Trọng Phúc, Lê Thanh Hương [7] lại sử dụng cấu trúc diễn ngôn để tóm tắt văn bản; một số sử dụng phương pháp xây dựng đồ thị quan hệ thực thể để tăng cường tính ngữ nghĩa cho độ tương đồng câu hoặc sử dụng phương pháp phân đoạn văn bản dựa trên chuỗi từ vựng để tóm tắt văn bản. Phương pháp sử dụng cấu trúc văn bản đã được sử dụng với tiếng Anh [4] và đã thu được kết quả khá tốt. Trong bài báo này chúng tôi trình bày về việc cải tiến phương pháp này kết hợp với từ điển đồng nghĩa để thực hiện tóm tắt văn bản tiếng Việt. Ngày nhận bài: 6/9/2012. Ngày nhận đăng: 5/6/2013. Tác giả liên lạc: Lê Quý Tài, địa chỉ e-mail: quytai3985@gmail.com 154 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa 2. Nội dung nghiên cứu 2.1. Mô hình tóm tắt văn bản tiếng Việt Hình 1. Mô hình tóm tắt văn bản tiếng Việt Để đánh giá hiệu quả của việc sử dụng bộ tách từ và từ điển đồng nghĩa, chúng tôi đã xây dựng 3 phiên bản cho ứng dụng này. - Phiên bản 1: Hoàn toàn không sử dụng bộ tách từ, các từ được tách ra căn cứ vào dấu trắng phân cách. - Phiên bản 2: Sử dụng bộ tách từ tiếng Việt để tách ra các từ. - Phiên bản 3: Sử dụng bộ tách từ tiếng Việt, kết hợp với từ điển từ dừng và từ điển đồng nghĩa. 2.2. Tiền xử lí Các tập tin được dùng để thử nghiệm được lấy từ trang báo điện tử vnexpress.net và một số bài báo khoa học. Các tập tin được loại bỏ các thẻ HTML, loại bỏ các câu không liên quan đến nội dung và chỉ giữ lại nội dung chính, đồng thời cũng được chuẩn hoá về mặt chính tả. Nội dung của mỗi văn bản được lưu trữ trong một file text và được mã hoá bằng mã Unicode UTF-8. Công cụ WordSegForTV [2] được sử dụng để phân tách các từ và các câu trong toàn bộ các băn bản, kết quả của bước này được dùng làm đầu vào cho pha tiếp theo. 155 Lê Quý Tài 2.3. Xử lí từ Pha này thực hiện tách ra các từ, các câu từ các văn bản có được từ pha trước. Trong bước này, chúng tôi xây dựng tập T chứa toàn bộ các từ có trong văn bản. Chúng tôi sử dụng từ điển từ dừng do website xulyngonngu.com cung cấp để loại bỏ các từ dừng. Đồng thời, từ điển đồng nghĩa cũng được sử dụng để thêm vào tập T các từ đồng nghĩa. Thuật toán dưới đây thể hiện việc chọn ra các từ, các câu, các từ đồng nghĩa và loại bỏ các từ dừng. Từ điển đồng nghĩa được sử dụng là của tài liệu [1]. Thuật toán xử lí từ Input: Tập tin văn bản đã tách từ. Output: Tập các từ T, Tập các câu Sent. 1. Mở tập tin văn bản ST=Nội dung file 2. {Tách ra các câu} n=0; {đếm số lượng câu} k=1; while k Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa 2.4. Xây dựng đồ thị liên kết Trong lĩnh vực xử lí ngôn ngữ và tìm kiếm thông tin, mỗi văn bản thường được biểu diễn dưới dạng vector, chẳng hạn Di = (di1 , di2 , ..., din ) trong đó dik biểu diễ ...
Nội dung trích xuất từ tài liệu:
Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩ JOURNAL OF SCIENCE OF HNUE Natural Sci., 2013, Vol. 58, No. 3, pp. 154-163 This paper is available online at http://stdb.hnue.edu.vn TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG CẤU TRÚC VĂN BẢN VÀ TỪ ĐIỂN ĐỒNG NGHĨA Lê Quý Tài Khoa Hệ thống thông tin quản lý, Học viện Ngân hàng Tóm tắt. Tóm tắt văn bản là một lĩnh vực quan trọng của xử lí ngôn ngữ tự nhiên. Đối với tiếng Việt, do tính phức tạp của ngôn ngữ nên hiện nay các phương pháp tóm tắt còn gặp nhiều khó khăn. Trong bài báo này, chúng tôi trình bày về việc sử dụng cấu trúc văn bản xây dựng đồ thị liên kết giữa các câu trong văn bản kết hợp với từ điển đồng nghĩa để tóm tắt văn bản tiếng Việt. Kết quả thử nghiệm cho thấy, phương pháp duyệt đồ thị liên kết theo chiều sâu cho kết quả tốt nhất với độ đo F đạt trung bình 52,41%, tốc độ tóm tắt trung bình đạt 8 phút/50 văn bản (với trung bình 40 câu/văn bản). Từ khóa: Tóm tắt văn bản, đồ thị liên kết, từ đồng nghĩa, xử lí ngôn ngữ. 1. Mở đầu Tóm tắt văn bản là một lĩnh vực của xử lí ngôn ngữ tự nhiên và đã được nghiên cứu từ những năm 50 của thế kỉ 20. Đối với ngôn ngữ tiếng Anh đã có nhiều nghiên cứu về tóm tắt văn bản và thu được những kết quả rất khả quan [3]. Với tiếng Việt, do sự phức tạp về ngôn ngữ nên kết quả của các công trình nghiên cứu về tóm tắt băn bản tiếng Việt còn có nhiều hạn chế. Hiện nay đã có những công trình nghiên cứu về tóm tắt văn bản tiếng Việt sử dụng các phương pháp thống kê, một số dựa trên ngữ nghĩa. Chẳng hạn, Đỗ Phúc, Hoàng Kiếm [6] đã sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, rồi dùng kĩ thuật gom cụm để gom các câu trong văn bản. Nguyễn Trọng Phúc, Lê Thanh Hương [7] lại sử dụng cấu trúc diễn ngôn để tóm tắt văn bản; một số sử dụng phương pháp xây dựng đồ thị quan hệ thực thể để tăng cường tính ngữ nghĩa cho độ tương đồng câu hoặc sử dụng phương pháp phân đoạn văn bản dựa trên chuỗi từ vựng để tóm tắt văn bản. Phương pháp sử dụng cấu trúc văn bản đã được sử dụng với tiếng Anh [4] và đã thu được kết quả khá tốt. Trong bài báo này chúng tôi trình bày về việc cải tiến phương pháp này kết hợp với từ điển đồng nghĩa để thực hiện tóm tắt văn bản tiếng Việt. Ngày nhận bài: 6/9/2012. Ngày nhận đăng: 5/6/2013. Tác giả liên lạc: Lê Quý Tài, địa chỉ e-mail: quytai3985@gmail.com 154 Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa 2. Nội dung nghiên cứu 2.1. Mô hình tóm tắt văn bản tiếng Việt Hình 1. Mô hình tóm tắt văn bản tiếng Việt Để đánh giá hiệu quả của việc sử dụng bộ tách từ và từ điển đồng nghĩa, chúng tôi đã xây dựng 3 phiên bản cho ứng dụng này. - Phiên bản 1: Hoàn toàn không sử dụng bộ tách từ, các từ được tách ra căn cứ vào dấu trắng phân cách. - Phiên bản 2: Sử dụng bộ tách từ tiếng Việt để tách ra các từ. - Phiên bản 3: Sử dụng bộ tách từ tiếng Việt, kết hợp với từ điển từ dừng và từ điển đồng nghĩa. 2.2. Tiền xử lí Các tập tin được dùng để thử nghiệm được lấy từ trang báo điện tử vnexpress.net và một số bài báo khoa học. Các tập tin được loại bỏ các thẻ HTML, loại bỏ các câu không liên quan đến nội dung và chỉ giữ lại nội dung chính, đồng thời cũng được chuẩn hoá về mặt chính tả. Nội dung của mỗi văn bản được lưu trữ trong một file text và được mã hoá bằng mã Unicode UTF-8. Công cụ WordSegForTV [2] được sử dụng để phân tách các từ và các câu trong toàn bộ các băn bản, kết quả của bước này được dùng làm đầu vào cho pha tiếp theo. 155 Lê Quý Tài 2.3. Xử lí từ Pha này thực hiện tách ra các từ, các câu từ các văn bản có được từ pha trước. Trong bước này, chúng tôi xây dựng tập T chứa toàn bộ các từ có trong văn bản. Chúng tôi sử dụng từ điển từ dừng do website xulyngonngu.com cung cấp để loại bỏ các từ dừng. Đồng thời, từ điển đồng nghĩa cũng được sử dụng để thêm vào tập T các từ đồng nghĩa. Thuật toán dưới đây thể hiện việc chọn ra các từ, các câu, các từ đồng nghĩa và loại bỏ các từ dừng. Từ điển đồng nghĩa được sử dụng là của tài liệu [1]. Thuật toán xử lí từ Input: Tập tin văn bản đã tách từ. Output: Tập các từ T, Tập các câu Sent. 1. Mở tập tin văn bản ST=Nội dung file 2. {Tách ra các câu} n=0; {đếm số lượng câu} k=1; while k Tóm tắt văn bản tiếng Việt sử dụng cấu trúc văn bản và từ điển đồng nghĩa 2.4. Xây dựng đồ thị liên kết Trong lĩnh vực xử lí ngôn ngữ và tìm kiếm thông tin, mỗi văn bản thường được biểu diễn dưới dạng vector, chẳng hạn Di = (di1 , di2 , ..., din ) trong đó dik biểu diễ ...
Tìm kiếm theo từ khóa liên quan:
Tóm tắt văn bản Đồ thị liên kết Từ đồng nghĩa Xử lí ngôn ngữ Xử lí ngôn ngữ tự nhiên Tóm tắt văn bản tiếng ViệtGợi ý tài liệu liên quan:
-
100 câu trắc nghiệm bồi dưỡng HSG môn tiếng Việt lớp 5
10 trang 55 0 0 -
Một số đặc trưng trong tóm tắt văn bản báo mạng điện tử tiếng Việt
6 trang 47 0 0 -
Kiến thức cơ bản môn Tiếng Việt bậc Tiểu học
26 trang 34 0 0 -
Đề thi kết thúc học phần học kì 1 môn Tiếng Việt năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
2 trang 33 0 0 -
Phương pháp học tiếng Việt thực hành (In lần thứ 3): Phần 1
143 trang 32 0 0 -
Bộ đề trắc nghiệm ôn tập môn Tếng Việt lớp 5
17 trang 30 0 0 -
Các lớp từ: Từ đồng nghĩa Từ trái nghĩa.
8 trang 29 0 0 -
7 trang 28 0 0
-
PHÂN BIỆT CÁC TỪ ĐỐNG NGHĨA TRONG TIẾNG ANH ( PHẦN 1)
7 trang 28 0 0 -
Một số cặp từ dễ gây nhầm lẫn trong tiếng Anh
84 trang 25 0 0