Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản
Số trang: 26
Loại file: pdf
Dung lượng: 1.30 MB
Lượt xem: 14
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tóm tắt Luận án Tiến sĩ Kỹ thuật "Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản" được nghiên cứu nhằm: Nghiên cứu và đề xuất các phương pháp kết hợp ưu điểm giữa các phương pháp học máy truyền thống với các phương pháp học sâu nhằm cải thiện hiệu quả hơn nữa cho các nhiệm vụ trích xuất thông tin.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản BỘ THÔNG TIN VÀ TRUYỀN THÔNGHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Nguyễn Thị Thanh ThủyNGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHOTRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN Chuyên ngành: Hệ thống thông tin Mã số: 9.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2023Công trình được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thôngNgười hướng dẫn khoa học: 1. GS.TS. Từ Minh Phương 2. PGS.TS. Ngô Xuân BáchPhản biện 1:Phản biện 2:Phản biện 3:Luận án được bảo vệ trước Hội đồng chấm luận án cấp Học việnhọp tại: Học viện Công nghệ Bưu chính Viễn thôngVào hồi ………. ngày …… tháng …… năm ……….Có thể tìm hiểu luận án tại:1. Thư viện Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU1. Tính cấp thiết của luận án Ngày nay, dữ liệu được coi là một nguồn tài nguyên vôcùng quan trọng với sự gia tăng nhanh chóng theo thời gian.Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tinngười dùng cần từ những nguồn dữ liệu này là điều không dễdàng. Trích xuất thông tin thực hiện trích xuất tự động nhữngthông tin có cấu trúc như các thực thể, mối quan hệ giữa cácthực thể, các ý kiến/quan điểm mô tả thực thể, hay các sự kiệntừ các nguồn dữ liệu không có cấu trúc hoặc bán cấu trúc. Mụctiêu cuối cùng là chuyển thông tin trong văn bản sang một hìnhthức dễ tiếp cận hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốthơn cho người dùng.2. Mục tiêu và phạm vi nghiên cứu luận án Mục tiêu của luận án là nghiên cứu và đề xuất một sốphương pháp học máy nhằm giải quyết và nâng cao hiệu quảcho trích xuất thông tin tự động từ văn bản, bao gồm hai nộidung cụ thể như sau: 1) Nghiên cứu đề xuất phương pháp trích xuất thông tincho ngôn ngữ ít tài nguyên bằng cách khai thác nguồn dữ liệuđã được gán nhãn từ ngôn ngữ khác trong bài toán khai phá quanđiểm dựa trên khía cạnh tiếng Việt, với hai nhiệm vụ: (1) tríchxuất các loại khía cạnh và (2) phân loại quan điểm cho khía cạnh(đã được trích xuất). Đây là một bài toán rất có ý nghĩa trongthực tế và mang tính ứng dụng cao, do có thể cung cấp thông 2tin về ý kiến/quan điểm chi tiết đến từng khía cạnh cụ thể củasản phẩm/dịch vụ được đề cập trong câu (thay vì chỉ xác địnhmột ý kiến/quan điểm tổng thể cho toàn bộ văn bản đầu vào). 2) Nghiên cứu đề xuất phương pháp học sâu tiên tiến đểgiải quyết và nâng cao hiệu quả cho một số nhiệm vụ trích xuấtthông tin trong lĩnh vực xử lý văn bản pháp quy tiếng Việt, với2 nhiệm vụ: (1) trích xuất thực thể tham chiếu từ văn bản phápquy, và (2) phân loại quan hệ giữa các thực thể là tham chiếu vàthực thể là văn bản pháp quy đang xem xét. Văn bản pháp quylà những văn bản do cơ quan Nhà nước ban hành để điều tiếthoạt động của Nhà nước và xã hội, có số lượng lớn và được giatăng, cập nhật theo thời gian. Trích xuất thông tin trong văn bảnpháp quy là bước quan trọng đầu tiên để có thể xây dựng cáccông cụ/hệ thống xử lý văn bản pháp quy tự động, như tìm kiếm,tra cứu, phân tích, truy vấn, nhằm hỗ trợ tốt hơn cho người dùng. Ngoài ra, luận án cũng tập trung nghiên cứu và đề xuấtcác phương pháp kết hợp ưu điểm giữa các phương pháp họcmáy truyền thống với các phương pháp học sâu nhằm cải thiệnhiệu quả hơn nữa cho các nhiệm vụ trích xuất thông tin.3. Các đóng góp của luận án Đóng góp thứ nhất là đề xuất giải pháp nâng cao hiệuquả cho trích xuất khía cạnh và phân loại quan điểm trong ngônngữ tiếng Việt bằng cách khai thác nguồn dữ liệu đã được gánnhãn sẵn từ ngôn ngữ khác. Đóng góp thứ hai là đề xuất phương pháp trích xuấtthông tin sử dụng học máy truyền thống và học sâu cho văn bảnpháp quy tiếng Việt. Các thông tin được trích xuất bao gồm thực 3thể tham chiếu và mối quan hệ giữa các thực thể văn bản phápquy. Đóng góp thứ ba là đề xuất phương pháp trích xuất kếthợp đồng thời thực thể và quan hệ trong văn bản pháp quy tiếngViệt sử dụng mô hình dựa trên học sâu.4. Bố cục của luận án Nội dung luận án được tổ chức thành bốn chương.Chương 1. Tổng quan về trích xuất thông tin tự động từ vănbản. Chương 2. Trích xuất khía cạnh và phân loại quan điểmcho tiếng Việt tận dụng nguồn dữ liệu đã được gán nhãn từ ngônngữ khác [4, 6]. Chương 3. Trích xuất thực thể và quan hệ trongvăn bản pháp quy tiếng Việt sử dụng học máy truyền thống vàhọc sâu [1, 5]. Chương 4. Trích xuất kết hợp đồng thời thực thểvà quan hệ trong văn bản pháp quy tiếng Việt sử dụng phươngpháp học sâu [2, 3]. Cuối cùng là một số Kết luận về luận ánvà định hướng phát triển nghiên cứu tiếp theo. 4 CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN1.1. Giới thiệu về trích xuất thông tin Trích xuất thông tin (Information Extraction, IE) là việcphát hiện và chọn ra được các thông tin có cấu trúc một cách tựđộng từ những nguồn không có cấu trúc hoặc bán cấu trúc (vídụ: các bài báo, văn bản trên web, các bài đánh giá sản phẩmtrên mạng xã hội, các ấn phẩm khoa học, hồ sơ y tế,…). Có thểchia thành bốn nhóm bài toán trích xuất thông tin: 1) Trích xuấtthực thể có tên; 2) Trích xuất ý kiến/quan điểm mô tả thực thể;3) Trích xuất quan hệ; 4) Trích xuất sự kiện và kịch bản. Hiện tại trên thực tế có khá nhiều ứng dụng của tríchxuất thông tin, từ các ứng dụng quản lý thông tin cá nhân, tớicác ứng dụng trong doanh nghiệp (như theo dõi tin tức, chămsóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong cáclĩnh vực khoa học (ví dụ, tin sinh học), và đặc biệt là sự pháttriển mạnh mẽ của các ứng dụng hướng web (như cơ sở dữ liệutrích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang web cộngđồng, ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Kỹ thuật: Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản BỘ THÔNG TIN VÀ TRUYỀN THÔNGHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Nguyễn Thị Thanh ThủyNGHIÊN CỨU CÁC PHƯƠNG PHÁP HỌC MÁY CHOTRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN Chuyên ngành: Hệ thống thông tin Mã số: 9.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2023Công trình được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thôngNgười hướng dẫn khoa học: 1. GS.TS. Từ Minh Phương 2. PGS.TS. Ngô Xuân BáchPhản biện 1:Phản biện 2:Phản biện 3:Luận án được bảo vệ trước Hội đồng chấm luận án cấp Học việnhọp tại: Học viện Công nghệ Bưu chính Viễn thôngVào hồi ………. ngày …… tháng …… năm ……….Có thể tìm hiểu luận án tại:1. Thư viện Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU1. Tính cấp thiết của luận án Ngày nay, dữ liệu được coi là một nguồn tài nguyên vôcùng quan trọng với sự gia tăng nhanh chóng theo thời gian.Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tinngười dùng cần từ những nguồn dữ liệu này là điều không dễdàng. Trích xuất thông tin thực hiện trích xuất tự động nhữngthông tin có cấu trúc như các thực thể, mối quan hệ giữa cácthực thể, các ý kiến/quan điểm mô tả thực thể, hay các sự kiệntừ các nguồn dữ liệu không có cấu trúc hoặc bán cấu trúc. Mụctiêu cuối cùng là chuyển thông tin trong văn bản sang một hìnhthức dễ tiếp cận hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốthơn cho người dùng.2. Mục tiêu và phạm vi nghiên cứu luận án Mục tiêu của luận án là nghiên cứu và đề xuất một sốphương pháp học máy nhằm giải quyết và nâng cao hiệu quảcho trích xuất thông tin tự động từ văn bản, bao gồm hai nộidung cụ thể như sau: 1) Nghiên cứu đề xuất phương pháp trích xuất thông tincho ngôn ngữ ít tài nguyên bằng cách khai thác nguồn dữ liệuđã được gán nhãn từ ngôn ngữ khác trong bài toán khai phá quanđiểm dựa trên khía cạnh tiếng Việt, với hai nhiệm vụ: (1) tríchxuất các loại khía cạnh và (2) phân loại quan điểm cho khía cạnh(đã được trích xuất). Đây là một bài toán rất có ý nghĩa trongthực tế và mang tính ứng dụng cao, do có thể cung cấp thông 2tin về ý kiến/quan điểm chi tiết đến từng khía cạnh cụ thể củasản phẩm/dịch vụ được đề cập trong câu (thay vì chỉ xác địnhmột ý kiến/quan điểm tổng thể cho toàn bộ văn bản đầu vào). 2) Nghiên cứu đề xuất phương pháp học sâu tiên tiến đểgiải quyết và nâng cao hiệu quả cho một số nhiệm vụ trích xuấtthông tin trong lĩnh vực xử lý văn bản pháp quy tiếng Việt, với2 nhiệm vụ: (1) trích xuất thực thể tham chiếu từ văn bản phápquy, và (2) phân loại quan hệ giữa các thực thể là tham chiếu vàthực thể là văn bản pháp quy đang xem xét. Văn bản pháp quylà những văn bản do cơ quan Nhà nước ban hành để điều tiếthoạt động của Nhà nước và xã hội, có số lượng lớn và được giatăng, cập nhật theo thời gian. Trích xuất thông tin trong văn bảnpháp quy là bước quan trọng đầu tiên để có thể xây dựng cáccông cụ/hệ thống xử lý văn bản pháp quy tự động, như tìm kiếm,tra cứu, phân tích, truy vấn, nhằm hỗ trợ tốt hơn cho người dùng. Ngoài ra, luận án cũng tập trung nghiên cứu và đề xuấtcác phương pháp kết hợp ưu điểm giữa các phương pháp họcmáy truyền thống với các phương pháp học sâu nhằm cải thiệnhiệu quả hơn nữa cho các nhiệm vụ trích xuất thông tin.3. Các đóng góp của luận án Đóng góp thứ nhất là đề xuất giải pháp nâng cao hiệuquả cho trích xuất khía cạnh và phân loại quan điểm trong ngônngữ tiếng Việt bằng cách khai thác nguồn dữ liệu đã được gánnhãn sẵn từ ngôn ngữ khác. Đóng góp thứ hai là đề xuất phương pháp trích xuấtthông tin sử dụng học máy truyền thống và học sâu cho văn bảnpháp quy tiếng Việt. Các thông tin được trích xuất bao gồm thực 3thể tham chiếu và mối quan hệ giữa các thực thể văn bản phápquy. Đóng góp thứ ba là đề xuất phương pháp trích xuất kếthợp đồng thời thực thể và quan hệ trong văn bản pháp quy tiếngViệt sử dụng mô hình dựa trên học sâu.4. Bố cục của luận án Nội dung luận án được tổ chức thành bốn chương.Chương 1. Tổng quan về trích xuất thông tin tự động từ vănbản. Chương 2. Trích xuất khía cạnh và phân loại quan điểmcho tiếng Việt tận dụng nguồn dữ liệu đã được gán nhãn từ ngônngữ khác [4, 6]. Chương 3. Trích xuất thực thể và quan hệ trongvăn bản pháp quy tiếng Việt sử dụng học máy truyền thống vàhọc sâu [1, 5]. Chương 4. Trích xuất kết hợp đồng thời thực thểvà quan hệ trong văn bản pháp quy tiếng Việt sử dụng phươngpháp học sâu [2, 3]. Cuối cùng là một số Kết luận về luận ánvà định hướng phát triển nghiên cứu tiếp theo. 4 CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ VĂN BẢN1.1. Giới thiệu về trích xuất thông tin Trích xuất thông tin (Information Extraction, IE) là việcphát hiện và chọn ra được các thông tin có cấu trúc một cách tựđộng từ những nguồn không có cấu trúc hoặc bán cấu trúc (vídụ: các bài báo, văn bản trên web, các bài đánh giá sản phẩmtrên mạng xã hội, các ấn phẩm khoa học, hồ sơ y tế,…). Có thểchia thành bốn nhóm bài toán trích xuất thông tin: 1) Trích xuấtthực thể có tên; 2) Trích xuất ý kiến/quan điểm mô tả thực thể;3) Trích xuất quan hệ; 4) Trích xuất sự kiện và kịch bản. Hiện tại trên thực tế có khá nhiều ứng dụng của tríchxuất thông tin, từ các ứng dụng quản lý thông tin cá nhân, tớicác ứng dụng trong doanh nghiệp (như theo dõi tin tức, chămsóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong cáclĩnh vực khoa học (ví dụ, tin sinh học), và đặc biệt là sự pháttriển mạnh mẽ của các ứng dụng hướng web (như cơ sở dữ liệutrích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang web cộngđồng, ...
Tìm kiếm theo từ khóa liên quan:
Luận án Tiến sĩ Luận án Tiến sĩ Kỹ thuật Hệ thống thông tin Phương pháp học máy Phương pháp học sâu Trích xuất thông tin tự độngGợi ý tài liệu liên quan:
-
205 trang 431 0 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 385 1 0 -
174 trang 336 0 0
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 321 0 0 -
206 trang 305 2 0
-
228 trang 272 0 0
-
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 251 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 234 0 0 -
32 trang 230 0 0
-
Luận án tiến sĩ Ngữ văn: Dấu ấn tư duy đồng dao trong thơ thiếu nhi Việt Nam từ 1945 đến nay
193 trang 226 0 0