Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên
Số trang: 5
Loại file: pdf
Dung lượng: 606.14 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đề xuất giải pháp kết hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên.
Nội dung trích xuất từ tài liệu:
Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên 120 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING Đặng Đại Thọ1, Huỳnh Công Pháp1, Doãn Hằng Diệu2 1 Trường Cao Đẳng Công nghệ Thông tin, Đại học Đà Nẵng; Email: ddtho.dt@gmail.com, hcphap@gmail.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: doanhangdieu@gmail.com Tóm tắt - Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ Abstract - Extraction and classification of named entities from liệu, phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề corpora in Natural Language Processing (NLP) is an important cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ initial step for extending and building semantic oriented corpora. nghĩa. Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện Though there have been many researches on the extraction and với nhiều ngôn ngữ. Tuy nhiên, đến nay vẫn chưa có công trình nào classification of information from internet resources in foreign nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ languages, no research has dealt with corpora in NLP. Moreover, liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa, các phương pháp trích information extraction and classification methods currently used rút và phân loại thông tin đã sử dụng như nêu trên đều có những nhược such as rule based, machine learning or hidden Markov have điểm riêng của nó. Trong bài báo này, chúng tôi đề xuất giải pháp kết shown some drawbacks. In this paper, we propose a solution hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan combining Maximum Matching method and contextual relation hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại analysis of entities in the text for extracting and classifying named các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự entities from corpora in NLP. In the first stage of our research, this nhiên. Giải pháp này bước đầu đã mang lại kết quả rất đáng khích lệ. proposed solution has given positive results. Từ khóa - trích rút thông tin; phân loại thông tin; kho ngữ liệu; trích Key words - Information extraction; information classification; rút tên riêng; phân loại tên riêng. named entity extraction; named entity classification; corpora. ngữ liệu, các kho ngữ liệu cần được mở rộng theo hướng 1. Giới thiệu ngữ nghĩa bằng cách xây dựng thêm tầng ngữ nghĩa cho Trích rút thông tin là bài toán quan trọng trong lĩnh vực kho ngữ liệu. Tầng ngữ nghĩa có thể đơn giản là các chú xử lý ngôn ngữ tự nhiên, trong đó trích rút thực thể danh từ thích, các từ/ cụm từ đồng nghĩa, các từ/cụm từ trái riêng theo thể loại có ý nghĩa thiết thực nhằm phục vụ cho nghĩa,… Ở mức độ phức tạp, tầng ngữ nghĩa được xây nhiều bài toán khác nhau như hỗ trợ web ngữ nghĩa, xây dựng mạng lưới ontology, trong đó mỗi ontology gồm tập dựng hệ thống hỏi đáp, xây dựng các máy tìm kiếm hướng hợp các lớp thuộc một lĩnh vực hẹp nào đó [1]. thực thế theo các đặc trưng riêng biệt… Như vậy, để có được các kho ngữ liệu theo hướng ngữ Theo đó, bài toán trích rút và phân loại các thực thể nghĩa thì mỗi tài liệu trong đó phải được tổ chức, biểu diễn danh từ riêng đã được quan tâm nghiên cứu và thực hiện dạng dữ liệu “thông minh”, tức là chỉ khả năng kết hợp, phổ biến trên thế giới và trong nước [2], [3]. Tuy nhiên, đa phân lớp và khả năng suy diễn trên dữ liệu đó [3]. Bài toán số các công trình này nhằm khai thác và trích rút tên riêng trích rút và phân loại các thực thể danh từ riêng mà chúng từ các nguồn dữ liệu Internet và các văn bản thông thường. tôi đề cập trong bài báo này với mục đích làm tiền đề cho Việc áp dụng bài toán này để khai thác và trích rút thực thể việc giải quyết và đặt nền móng cho việc xây dựng kho ngữ danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ liệu theo hướng ngữ nghĩa. tự nhiên là rất cần thiết nhưng vẫn chưa được quan tâm nghiên cứu. 2. Một số hướng tiếp cận trích chọn thực thể danh từ riêng Việc xây dựng và mở rộng các kho ngữ liệu theo hướng ngữ nghĩa là rất quan trọng, bởi vì đa số các kho ngữ liệu Trong tiếng Việt, danh từ riêng là những danh từ để gọi phục vụ xử lý ngôn ngữ tự nhiên nói chung và dịch tự động riêng từng người, từng tổ c ...
Nội dung trích xuất từ tài liệu:
Giải pháp trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên 120 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING Đặng Đại Thọ1, Huỳnh Công Pháp1, Doãn Hằng Diệu2 1 Trường Cao Đẳng Công nghệ Thông tin, Đại học Đà Nẵng; Email: ddtho.dt@gmail.com, hcphap@gmail.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: doanhangdieu@gmail.com Tóm tắt - Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ Abstract - Extraction and classification of named entities from liệu, phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề corpora in Natural Language Processing (NLP) is an important cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ initial step for extending and building semantic oriented corpora. nghĩa. Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện Though there have been many researches on the extraction and với nhiều ngôn ngữ. Tuy nhiên, đến nay vẫn chưa có công trình nào classification of information from internet resources in foreign nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ languages, no research has dealt with corpora in NLP. Moreover, liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa, các phương pháp trích information extraction and classification methods currently used rút và phân loại thông tin đã sử dụng như nêu trên đều có những nhược such as rule based, machine learning or hidden Markov have điểm riêng của nó. Trong bài báo này, chúng tôi đề xuất giải pháp kết shown some drawbacks. In this paper, we propose a solution hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan combining Maximum Matching method and contextual relation hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại analysis of entities in the text for extracting and classifying named các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự entities from corpora in NLP. In the first stage of our research, this nhiên. Giải pháp này bước đầu đã mang lại kết quả rất đáng khích lệ. proposed solution has given positive results. Từ khóa - trích rút thông tin; phân loại thông tin; kho ngữ liệu; trích Key words - Information extraction; information classification; rút tên riêng; phân loại tên riêng. named entity extraction; named entity classification; corpora. ngữ liệu, các kho ngữ liệu cần được mở rộng theo hướng 1. Giới thiệu ngữ nghĩa bằng cách xây dựng thêm tầng ngữ nghĩa cho Trích rút thông tin là bài toán quan trọng trong lĩnh vực kho ngữ liệu. Tầng ngữ nghĩa có thể đơn giản là các chú xử lý ngôn ngữ tự nhiên, trong đó trích rút thực thể danh từ thích, các từ/ cụm từ đồng nghĩa, các từ/cụm từ trái riêng theo thể loại có ý nghĩa thiết thực nhằm phục vụ cho nghĩa,… Ở mức độ phức tạp, tầng ngữ nghĩa được xây nhiều bài toán khác nhau như hỗ trợ web ngữ nghĩa, xây dựng mạng lưới ontology, trong đó mỗi ontology gồm tập dựng hệ thống hỏi đáp, xây dựng các máy tìm kiếm hướng hợp các lớp thuộc một lĩnh vực hẹp nào đó [1]. thực thế theo các đặc trưng riêng biệt… Như vậy, để có được các kho ngữ liệu theo hướng ngữ Theo đó, bài toán trích rút và phân loại các thực thể nghĩa thì mỗi tài liệu trong đó phải được tổ chức, biểu diễn danh từ riêng đã được quan tâm nghiên cứu và thực hiện dạng dữ liệu “thông minh”, tức là chỉ khả năng kết hợp, phổ biến trên thế giới và trong nước [2], [3]. Tuy nhiên, đa phân lớp và khả năng suy diễn trên dữ liệu đó [3]. Bài toán số các công trình này nhằm khai thác và trích rút tên riêng trích rút và phân loại các thực thể danh từ riêng mà chúng từ các nguồn dữ liệu Internet và các văn bản thông thường. tôi đề cập trong bài báo này với mục đích làm tiền đề cho Việc áp dụng bài toán này để khai thác và trích rút thực thể việc giải quyết và đặt nền móng cho việc xây dựng kho ngữ danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ liệu theo hướng ngữ nghĩa. tự nhiên là rất cần thiết nhưng vẫn chưa được quan tâm nghiên cứu. 2. Một số hướng tiếp cận trích chọn thực thể danh từ riêng Việc xây dựng và mở rộng các kho ngữ liệu theo hướng ngữ nghĩa là rất quan trọng, bởi vì đa số các kho ngữ liệu Trong tiếng Việt, danh từ riêng là những danh từ để gọi phục vụ xử lý ngôn ngữ tự nhiên nói chung và dịch tự động riêng từng người, từng tổ c ...
Tìm kiếm theo từ khóa liên quan:
Trích rút thông tin Phân loại thông tin Kho ngữ liệu Trích rút tên riêng Phân loại tên riêngGợi ý tài liệu liên quan:
-
Giáo trình Thông tin học: Phần 1 - Đoàn Phan Tân
166 trang 116 2 0 -
Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine
12 trang 106 0 0 -
Đề cương thảo luận môn: Kỹ năng lãnh đạo quản lý
16 trang 81 0 0 -
Bài giảng Thông tin và xử lí thông tin
28 trang 27 0 0 -
Bài giảng Khai phá web - Bài 7: Trích rút thông tin
64 trang 26 0 0 -
Bài giảng Quản trị học: Chương 10 - Bùi Thị Quỳnh Ngọc
14 trang 23 0 0 -
Bài giảng Kỹ năng thu thập và xử lý thông tin trong lãnh đạo, quản lý của cán bộ cấp cơ sở
69 trang 21 0 0 -
Bài giảng Tin học đại cương: Chương 1 - Thông tin
29 trang 21 0 0 -
49 trang 20 0 0
-
50 trang 20 0 0