Danh mục

Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng

Số trang: 11      Loại file: pdf      Dung lượng: 299.75 KB      Lượt xem: 15      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Mời các bạn tham khảo!
Nội dung trích xuất từ tài liệu:
Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng Nghiên cứu khoa học công nghệ Tãm t¾t v¨n b¶n tiÕng viÖt Dùa TRªn bé hÖ sè ®Æc tr­ng NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU**  Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản theo hướng tiếp cận này cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng trong thực tế. Từ khóa: Tóm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật tối ưu đàn kiến.    1. ĐẶT VẤN ĐỀ Trong thời đại bùng nổ thông tin điện tử, nhu cầu tự động tổng hợp thông tin nổi bật từ  kho văn bản điện tử khổng lồ đó trở nên đặc biệt quan trọng và được sự quan tâm rộng rãi.  Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng  của văn bản. Kỹ thuật tóm tắt văn bản được các nhà nghiên cứu phân ra thành hai loại là:  tóm  tắt  văn  bản  là  tóm  tắt  rút  trích  (Extraction  Summarization)  và  tóm  tắt  tóm  lược   (Abstraction Summarization). Đối với tóm tắt văn bản tiếng Việt, số lượng các nghiên cứu  còn  chưa  nhiều  như  các  ngôn  ngữ  khác  như  tiếng  Anh,  tiếng  Nhật,  tiếng  Trung....  Các  nghiên cứu chủ yếu dựa theo hướng trích rút dựa vào các đặc trưng văn bản như tần suất  từ, vị trí câu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút  [3,4,5,6,7,8]. Trong nghiên cứu [3] đã chỉ ra cách tính toán trọng số câu thông qua các đặc  trưng văn bản, tuy nhiên hệ số các đặc trưng được xác định thông qua thử nghiệm.  Nhận thấy việc xác định bộ hệ số đặc trưng có thể thực hiện thông qua việc học cách  tóm  tắt  văn  bản  do  con  người  thực  hiện.  Vì  vậy,  trong  bài  báo  này,  chúng  tôi  đề  xuất  phương pháp tóm tắt văn bản tiếng Việt mới theo hướng trích rút dựa trên bộ hệ số đặc  trưng. Bộ hệ số đặc trưng được xác định bằng phương pháp học máy sử dụng giải thuật tối  ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Thử nghiệm  tóm tắt văn bản với hướng tiếp cận này cho thấy, văn bản tóm tắt có độ chính xác cao.  Nghiên  cứu  được  trình  bày  theo  thứ  tự  sau:  Phần  2  trình  bày  nội  dung  nghiên  cứu;  Phần 3 trình bày các kết quả thử nghiệm, đánh giá; Kết luận được trình bày trong Phần 4.    2. NỘI DUNG CẦN GIẢI QUYẾT 2.1. Mô hình tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng Quy trình thực hiện tóm tắt văn bản theo hướng trích rút câu được mô tả như hình 2-1.  Công thức tổng quát để tính trọng số câu thông qua tập đặc trưng:  n Score  s   ki  Score f  s    i (2.1)  i 1 trong đó: s là câu văn bản; n là số đặc trưng;  ki là hệ số đặc trưng thứ i của văn bản;  Score f  s   là trọng số của đặc trưng thứ i trong câu s.   i Qua công thức (2.1), ta có thể nhận xét rằng, bài toán tóm tắt văn bản tiếng Việt cần  xác định được 2 yếu tố quan trọng là:    Tạp chí Nghiên cứu KH&CN quân sự, Số 35, 02 - 2015                               59 Kỹ thuật điện tử & Khoa học máy tính     TIỀN XỬ TÍNH SẮP XẾP XUẤT   LÝ TRỌNG theo   CÂU   Văn bản  Tách câu,  SỐ CÂU trọng số,   Theo tứ tự  Văn bản  tách từ,  theo các  rút trích   xuất hiện  Tóm tắt   loại hư từ  đặc trưng  theo tỉ lệ  trong văn  bản gốc  Hình 2-1 Quy trình cách tiếp cận TTVB dựa trên trích rút câu.   - Lựa chọn tập đặc trưng quan trọng của văn bản tiếng Việt.  - Xác định bộ hệ số đặc trưng như thế nào?   Đây chính là hạn chế của một số phương pháp tóm tắt văn bản tiếng Việt trước đây.  Chính vì vậy bài báo này đề xuất mô hình tóm tắt đơn văn bản tiếng Việt theo hướng trích  rút dựa trên bộ hệ số đặc trưng (sau đây gọi tắt là VTS_FC) được mô tả như hình 2-2:    Tập văn bản mẫu  Văn bản  Các đặc trưng  Tóm tắt bằng tay  Các đặc trưng  HỌC MÁY (ACO)   Bộ hệ số đặc trưng  Hệ số đặc trưng:   k   k1 , k2  , kn    k1 , k2  , kn   Hàm mục tiêu  F ( d )   Văn bản tóm tắt    Hình 2-2 Mô hình tóm tắt văn bản tiếng Việt VTS_FC Mô hình được thực hiện theo 2 bước:  Bước 1: Sử dụng phương pháp học máy bằng giải thuật tối ưu đàn kiến để xác định bộ  hệ số đặc trưng của văn bản tiếng Việt thông qua việc học kho ngữ liệu tóm tắt mẫ ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: