Danh mục

Tóm tắt Luận án Tiến sĩ: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu

Số trang: 24      Loại file: pdf      Dung lượng: 2.18 MB      Lượt xem: 11      Lượt tải: 0    
Hoai.2512

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục tiêu nghiên cứu của luận án "Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu" trình bày các nội dung chính sau: Tổng quan về tóm tắt văn bản; Các kiến thức nền tảng; Phát triển các phương pháp tóm tắt đơn văn bản hướng trích rút; Phát triển phương pháp tóm tắt đơn văn bản hướng tóm lược; Phát triển các phương pháp tóm tắt đa văn bản.


Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ: Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu MỞ ĐẦU1. Bối cảnh nghiên cứu Trong kỷ nguyên số và mạng Internet phát triển mạnh mẽ như hiện nay, các tài nguyên trên internet nhưcác trang web, đánh giá của người dùng, tin tức, blog, mạng xã hội,... là những nguồn dữ liệu văn bản to lớn.Bên cạnh đó, có một khối lượng nội dung văn bản phong phú khác trên các kho lưu trữ như các bài báo tintức, tiểu thuyết, sách, văn bản pháp luật, tài liệu y sinh, bài báo khoa học,... Các nội dung văn bản này tănglên theo cấp số nhân hàng ngày. Do đó, người dùng mất rất nhiều thời gian để tìm kiếm thông tin mà mìnhmong muốn. Kết quả là người dùng thậm chí không thể đọc và hiểu hết được tất cả nội dung văn bản kết quảtìm kiếm. Có nhiều thông tin bị lặp lại hoặc không quan trọng trong các văn bản kết quả tìm kiếm. Do đó,việc tóm tắt và cô đọng các nguồn văn bản trở nên cấp thiết và quan trọng hơn rất nhiều. Tóm tắt văn bản thủcông là một nhiệm vụ tốn kém và tiêu tốn nhiều thời gian và công sức của con người. Trên thực tế, conngười cũng rất khó tóm tắt thủ công với lượng dữ liệu văn bản khổng lồ này [1]. Để giải quyết các vấn đềnày, các phương pháp tóm tắt văn bản tự động được quan tâm nghiên cứu để phát triển các hệ thống tóm tắtvăn bản tự động. Mục tiêu chính của các hệ thống tóm tắt văn bản tự động là tạo ra bản tóm tắt bao gồm các ý chính củamột văn bản hoặc nhiều văn bản đầu vào và thông tin lặp lại ít nhất [2,3]. Các hệ thống tóm tắt văn bản tựđộng sinh ra các bản tóm tắt giúp người dùng nắm được những điểm chính của văn bản gốc mà không cầnphải đọc toàn bộ văn bản. Người dùng sẽ được hưởng lợi từ các bản tóm tắt được sinh ra tự động, tiết kiệmđược nhiều thời gian và công sức. Các hệ thống tóm tắt văn bản tự động hiện nay có thể được chia thành hai loại là tóm tắt đơn văn bản vàtóm tắt đa văn bản. Tóm tắt đơn văn bản sinh ra bản tóm tắt từ một văn bản đầu vào, trong khi tóm tắt đa vănbản sinh ra bản tóm tắt từ một tập các văn bản đầu vào. Các hệ thống tóm tắt văn bản tự động này được pháttriển bằng việc áp dụng một trong các phương pháp tiếp cận chủ yếu là tóm tắt văn bản hướng trích rút vàtóm tắt văn bản hướng tóm lược.  Tóm tắt văn bản hướng trích rút: Là phương pháp lựa chọn những câu quan trọng nhất trong một vănbản nguồn (hoặc một tập văn bản nguồn) và sử dụng các câu này để sinh bản tóm tắt. Phương pháp này baogồm các nhiệm vụ xử lý chính như: Tạo một biểu diễn thích hợp cho văn bản đầu vào, cho điểm các câu,trích rút các câu có điểm cao. Các hệ thống tóm tắt văn bản hướng trích rút có thể chia thành các phươngpháp chủ yếu sau:  Phương pháp dựa trên thống kê.  Phương pháp dựa trên khái niệm.  Phương pháp dựa trên chủ đề.  Phương pháp dựa trên trọng tâm hay phân cụm câu.  Phương pháp dựa trên đồ thị.  Phương pháp dựa trên ngữ nghĩa.  Phương pháp dựa trên học máy.  Phương pháp dựa trên học sâu. Các hệ thống tóm tắt hướng trích rút này có ưu điểm là thực thi đơn giản, nhanh và cho độ chính xáccao vì phương pháp này thực hiện trích rút trực tiếp các câu để người đọc có thể đọc bản tóm tắt với cácthuật ngữ chính xác có trong văn bản gốc. Tuy nhiên, phương pháp cận này có những hạn chế cần cần quantâm như: Vấn đề dư thừa thông tin trong một số câu tóm tắt, các câu được trích rút có thể dài hơn mức trungbình, vấn đề xung đột về thời gian trong bài toán tóm tắt đa văn bản vì các bản tóm tắt trích rút được chọn từnhiều văn bản đầu vào khác nhau, thiếu ngữ nghĩa và tính liên kết trong các câu tóm tắt vì liên kết khôngchính xác giữa các câu.  Tóm tắt văn bản hướng tóm lược: Phương pháp tiếp cận này biểu diễn văn bản đầu vào ở dạng trunggian, sau đó sinh bản tóm tắt với các từ và câu khác với các câu trong văn bản nguồn [28]. Các hệ thống tómtắt hướng tóm lược sinh ra bản tóm tắt bằng cách hiểu các khái niệm chính trong văn bản đầu vào sử dụngcác phương pháp xử lý ngôn ngữ tự nhiên, sau đó diễn giải văn bản để diễn đạt các khái niệm đó với số từ íthơn và sử dụng ngôn ngữ rõ ràng [29,30]. Một hệ thống tóm tắt tóm lược có thể bao gồm các nhiệm vụ xử lýchính sau: Biểu diễn ngữ nghĩa văn bản và sử dụng các kỹ thuật sinh ngôn ngữ tự nhiên để sinh bản tóm tắt 1gần với các bản tóm tắt của con người tạo ra [31]. Các nghiên cứu theo phương pháp tiếp cận này có thể chiathành các loại chính sau:  Phương pháp dựa trên cấu trúc.  Phương pháp dựa trên ngữ nghĩa.  Phương pháp dựa trên học sâu. Ưu điểm của các phương pháp tóm tắt hướng tóm lược là sinh ra các bản tóm tắt tốt hơn với các từ có thểkhông có trong văn bản gốc bằng cách sử dụng các biểu diễn dựa trên diễn giải, nén. Bản tóm tắt được sinhra gần với bản tóm tắt thủ công của con người hơn. Tuy nhiên, việc sinh một bản tóm tắt tóm lược có chấtlượng tốt là rất khó ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: