Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng
Số trang: 11
Loại file: pdf
Dung lượng: 299.75 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Mời các bạn tham khảo!
Nội dung trích xuất từ tài liệu:
Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng Nghiên cứu khoa học công nghệ Tãm t¾t v¨n b¶n tiÕng viÖt Dùa TRªn bé hÖ sè ®Æc trng NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU** Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản theo hướng tiếp cận này cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng trong thực tế. Từ khóa: Tóm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật tối ưu đàn kiến. 1. ĐẶT VẤN ĐỀ Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi. Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là: tóm tắt văn bản là tóm tắt rút trích (Extraction Summarization) và tóm tắt tóm lược (Abstraction Summarization). Đối với tóm tắt văn bản tiếng Việt, số lượng các nghiên cứu còn chưa nhiều như các ngôn ngữ khác như tiếng Anh, tiếng Nhật, tiếng Trung.... Các nghiên cứu chủ yếu dựa theo hướng trích rút dựa vào các đặc trưng văn bản như tần suất từ, vị trí câu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút [3,4,5,6,7,8]. Trong nghiên cứu [3] đã chỉ ra cách tính toán trọng số câu thông qua các đặc trưng văn bản, tuy nhiên hệ số các đặc trưng được xác định thông qua thử nghiệm. Nhận thấy việc xác định bộ hệ số đặc trưng có thể thực hiện thông qua việc học cách tóm tắt văn bản do con người thực hiện. Vì vậy, trong bài báo này, chúng tôi đề xuất phương pháp tóm tắt văn bản tiếng Việt mới theo hướng trích rút dựa trên bộ hệ số đặc trưng. Bộ hệ số đặc trưng được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản với hướng tiếp cận này cho thấy, văn bản tóm tắt có độ chính xác cao. Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu; Phần 3 trình bày các kết quả thử nghiệm, đánh giá; Kết luận được trình bày trong Phần 4. 2. NỘI DUNG CẦN GIẢI QUYẾT 2.1. Mô hình tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng Quy trình thực hiện tóm tắt văn bản theo hướng trích rút câu được mô tả như hình 2-1. Công thức tổng quát để tính trọng số câu thông qua tập đặc trưng: n Score s ki Score f s i (2.1) i 1 trong đó: s là câu văn bản; n là số đặc trưng; ki là hệ số đặc trưng thứ i của văn bản; Score f s là trọng số của đặc trưng thứ i trong câu s. i Qua công thức (2.1), ta có thể nhận xét rằng, bài toán tóm tắt văn bản tiếng Việt cần xác định được 2 yếu tố quan trọng là: Tạp chí Nghiên cứu KH&CN quân sự, Số 35, 02 - 2015 59 Kỹ thuật điện tử & Khoa học máy tính TIỀN XỬ TÍNH SẮP XẾP XUẤT LÝ TRỌNG theo CÂU Văn bản Tách câu, SỐ CÂU trọng số, Theo tứ tự Văn bản tách từ, theo các rút trích xuất hiện Tóm tắt loại hư từ đặc trưng theo tỉ lệ trong văn bản gốc Hình 2-1 Quy trình cách tiếp cận TTVB dựa trên trích rút câu. - Lựa chọn tập đặc trưng quan trọng của văn bản tiếng Việt. - Xác định bộ hệ số đặc trưng như thế nào? Đây chính là hạn chế của một số phương pháp tóm tắt văn bản tiếng Việt trước đây. Chính vì vậy bài báo này đề xuất mô hình tóm tắt đơn văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số đặc trưng (sau đây gọi tắt là VTS_FC) được mô tả như hình 2-2: Tập văn bản mẫu Văn bản Các đặc trưng Tóm tắt bằng tay Các đặc trưng HỌC MÁY (ACO) Bộ hệ số đặc trưng Hệ số đặc trưng: k k1 , k2 , kn k1 , k2 , kn Hàm mục tiêu F ( d ) Văn bản tóm tắt Hình 2-2 Mô hình tóm tắt văn bản tiếng Việt VTS_FC Mô hình được thực hiện theo 2 bước: Bước 1: Sử dụng phương pháp học máy bằng giải thuật tối ưu đàn kiến để xác định bộ hệ số đặc trưng của văn bản tiếng Việt thông qua việc học kho ngữ liệu tóm tắt mẫ ...
Nội dung trích xuất từ tài liệu:
Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng Nghiên cứu khoa học công nghệ Tãm t¾t v¨n b¶n tiÕng viÖt Dùa TRªn bé hÖ sè ®Æc trng NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU** Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản theo hướng tiếp cận này cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng trong thực tế. Từ khóa: Tóm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật tối ưu đàn kiến. 1. ĐẶT VẤN ĐỀ Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi. Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là: tóm tắt văn bản là tóm tắt rút trích (Extraction Summarization) và tóm tắt tóm lược (Abstraction Summarization). Đối với tóm tắt văn bản tiếng Việt, số lượng các nghiên cứu còn chưa nhiều như các ngôn ngữ khác như tiếng Anh, tiếng Nhật, tiếng Trung.... Các nghiên cứu chủ yếu dựa theo hướng trích rút dựa vào các đặc trưng văn bản như tần suất từ, vị trí câu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút [3,4,5,6,7,8]. Trong nghiên cứu [3] đã chỉ ra cách tính toán trọng số câu thông qua các đặc trưng văn bản, tuy nhiên hệ số các đặc trưng được xác định thông qua thử nghiệm. Nhận thấy việc xác định bộ hệ số đặc trưng có thể thực hiện thông qua việc học cách tóm tắt văn bản do con người thực hiện. Vì vậy, trong bài báo này, chúng tôi đề xuất phương pháp tóm tắt văn bản tiếng Việt mới theo hướng trích rút dựa trên bộ hệ số đặc trưng. Bộ hệ số đặc trưng được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản với hướng tiếp cận này cho thấy, văn bản tóm tắt có độ chính xác cao. Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu; Phần 3 trình bày các kết quả thử nghiệm, đánh giá; Kết luận được trình bày trong Phần 4. 2. NỘI DUNG CẦN GIẢI QUYẾT 2.1. Mô hình tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng Quy trình thực hiện tóm tắt văn bản theo hướng trích rút câu được mô tả như hình 2-1. Công thức tổng quát để tính trọng số câu thông qua tập đặc trưng: n Score s ki Score f s i (2.1) i 1 trong đó: s là câu văn bản; n là số đặc trưng; ki là hệ số đặc trưng thứ i của văn bản; Score f s là trọng số của đặc trưng thứ i trong câu s. i Qua công thức (2.1), ta có thể nhận xét rằng, bài toán tóm tắt văn bản tiếng Việt cần xác định được 2 yếu tố quan trọng là: Tạp chí Nghiên cứu KH&CN quân sự, Số 35, 02 - 2015 59 Kỹ thuật điện tử & Khoa học máy tính TIỀN XỬ TÍNH SẮP XẾP XUẤT LÝ TRỌNG theo CÂU Văn bản Tách câu, SỐ CÂU trọng số, Theo tứ tự Văn bản tách từ, theo các rút trích xuất hiện Tóm tắt loại hư từ đặc trưng theo tỉ lệ trong văn bản gốc Hình 2-1 Quy trình cách tiếp cận TTVB dựa trên trích rút câu. - Lựa chọn tập đặc trưng quan trọng của văn bản tiếng Việt. - Xác định bộ hệ số đặc trưng như thế nào? Đây chính là hạn chế của một số phương pháp tóm tắt văn bản tiếng Việt trước đây. Chính vì vậy bài báo này đề xuất mô hình tóm tắt đơn văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số đặc trưng (sau đây gọi tắt là VTS_FC) được mô tả như hình 2-2: Tập văn bản mẫu Văn bản Các đặc trưng Tóm tắt bằng tay Các đặc trưng HỌC MÁY (ACO) Bộ hệ số đặc trưng Hệ số đặc trưng: k k1 , k2 , kn k1 , k2 , kn Hàm mục tiêu F ( d ) Văn bản tóm tắt Hình 2-2 Mô hình tóm tắt văn bản tiếng Việt VTS_FC Mô hình được thực hiện theo 2 bước: Bước 1: Sử dụng phương pháp học máy bằng giải thuật tối ưu đàn kiến để xác định bộ hệ số đặc trưng của văn bản tiếng Việt thông qua việc học kho ngữ liệu tóm tắt mẫ ...
Tìm kiếm theo từ khóa liên quan:
Tóm tắt văn bản tiếng Việt Hệ số đặc trưng Phân tích đường viền Nhận dạng ô tô Phương pháp học máy Vị trí câu Độ dài câu Trọng số TFxISFGợi ý tài liệu liên quan:
-
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 133 0 0 -
Áp dụng phương pháp học máy để phát hiện tấn công DDoS trong môi trường thực nghiệm mạng SDN
5 trang 100 0 0 -
Một số đặc trưng trong tóm tắt văn bản báo mạng điện tử tiếng Việt
6 trang 47 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 trang 30 0 0 -
Mô hình hệ thống khai thác dữ liệu phi cấu trúc hỗ trợ khách hàng ra quyết định mua hàng trực tuyến
6 trang 28 0 0 -
Luận án Tiến sĩ Răng hàm mặt: Hiệu quả của chẩn đoán sâu răng giai đoạn sớm bằng phương pháp học máy
201 trang 27 0 0 -
Bộ dữ liệu dạng Netflow dùng trong phát hiện xâm nhập trái phép và ứng dụng
12 trang 27 0 0 -
5 trang 26 0 0
-
Bài giảng Máy học và mạng neural: Bài 1 - TS. Vũ Đức Lung
55 trang 25 0 0 -
26 trang 25 0 0