Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

Số trang: 8 Loại file: pdf Dung lượng: 3.63 MB Lượt xem: 11 Lượt tải: 0

Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: 1,000 VND

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất, có kích thước và số cặp ngôn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mô hình toán học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ.
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiênHuỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 215 Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, và Đinh Thị Mỹ Hạnh Khoa Công nghệ thông tin và Truyền thông – Đại học Đà Nẵng hcphap@sict.udn.vn, nvbinh@sict.udn.vn, cxtuan@sict.udn.vn, dtmhanh@ac.udn.vn Tóm tắt. Dữ liệu từ điển có vai trò quan trọng và được ứng dụng cho nhiều bài toán khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên như: dịch máy, tìm kiếm, tách từ, gióng hàng... Tuy nhiên, một trong những thực trạng hiện nay là các từ điển đang tồn tại rãi rác, riêng biệt, cấu trúc dữ liệu đa dạng, kích thức nhỏ và số cặp ngôn ngữ hạn chế. Theo đó, việc khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và còn gặp rất nhiều khó khăn. Người dùng có thể phải truy xuất nhiều từ điển đồng thời để có thể tra cứu cùng một từ hoặc tập hợp từ ở các lĩnh vực khác nhau. Trong bài báo này, chúng tôi đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất, có kích thước và số cặp ngôn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mô hình toán học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ. Từ khóa: Hợp nhất dữ liệu; mô hình; thuật toán hợp nhất dữ liệu; từ điển đa ngữ; hợp nhất từ điển; khai phá dữ liệu văn bản.1 Giới thiệu Dữ liệu luôn đóng vai trò quyết định đến chất lượng hoạt động của các công cụ và hệ thốngxử lý ngôn ngữ tự nhiên. Dữ liệu trong lĩnh vực xử lý ngôn ngữ tự nhiên bao gồm các loại phổbiến như các kho ngữ liệu, treebanks, từ điển. Trong đó, dữ liệu từ điển có vai trò rất quan trọngđể phục vụ dịch tự động và phát triển các công cụ xử lý ngôn ngữ tự nhiên, chẳng hạn như cáccông cụ hỗ trợ học tập, tra cứu, các công cụ tách từ dựa trên thuật toán maximum matching, cáccông cụ gióng hàng... Với tính chất quan trọng như vậy nên dữ liệu từ điển đã được xây dựng và phát triển rấtmạnh, tồn tại ở nhiều dạng khác nhau như từ điển giấy, máy từ điển, từ điển trên máy tính.Trong đó, dữ liệu từ điển trên máy tính là dạng được phát triển mạnh và phổ biến nhất hiện nay.Mặc dù vậy, nếu xét từng từ điển riêng lẻ, kích thước và số cặp ngôn ngữ vẫn còn hạn chế sovới yêu cầu sử dụng thực tế và yêu cầu để xây dựng các hệ thống xử lý ngôn ngữ tự nhiên chấtlượng và hiệu quả. Thật vậy, ngay cả các từ điển đa ngữ được xem là lớn nhất hiện nay nhưGregg Cox cũng chỉ chứa khoảng 5 triệu từ với 225 ngôn ngữ, hay từ điển trực tuyến Logoschứa khoảng 8 triệu từ với 250 ngôn ngữ [8]. Trong khi đó, số lượng ngôn ngữ nói trên thế giớihiện nay ước tính khoảng 6500 ngôn ngữ cũng như nhu cầu sử dụng dữ liệu của các hệ thống xửlý ngôn ngữ tự nhiên như dịch tự động thống kê cũng vượt xa rất nhiều con số của các từ điểnkể trên [2]. Hơn nữa, mỗi loại từ điển được xây dựng với cấu trúc dữ liệu, định dạng dữ liệu, lĩnh vực từvựng và nội dung giải nghĩa khác nhau. Do đó, vấn đề đặt ra là làm thế nào để có thể khai thác216 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰCvà sử dụng hiệu quả các nguồn dữ liệu từ điển đang tồn tại nhằm phục vụ tốt hơn nhu cầu củangười sử dụng và yêu cầu xây dựng các hệ thống xử lý ngôn ngữ tự nhiên chất lượng. Giải pháp chúng tôi đề xuất trong bài báo này là tìm cách hợp nhất các nguồn dữ liệu từ điểnđang tồn tại để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, về số cặp ngôn ngữ, đầy đủ hơnvề lĩnh vực, nội dung giải nghĩa, đồng thời có cấu trúc và định dạng chuẩn và đồng nhất nhằmphục vụ tốt hơn cho việc khai thác và sử dụng của người sử dụng và các hệ thống xử lý ngônngữ tự nhiên. Giải pháp hợp nhất các nguồn dữ liệu từ điển bao gồm các khía cạnh: hợp nhất vềmặt cấu trúc và định dạng dữ liệu; hợp nhất về mặt dữ liệu và ngôn ngữ. Trong đó, hợp nhất vềmặt cấu trúc và định dạng là đề xuất một cấu trúc dữ liệu và định dạng lưu trữ tối ưu, chuẩn chophép chuyển đổi các nguồn dữ liệu khác nhau để xây dựng một nguồn dữ liệu có cấu trúc vàđịnh dạng đồng nhất cho phép khai thác hiệu quả và thuận lợi. Hợp nhất về mặt dữ liệu và cặpngôn ngữ là quá trình trộn, liên kết các nguồn dữ liệu để xây dựng nguồn dữ liệu lớn hơn vềkích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ.2 Tổng quan về từ điển và xây dựng tài nguyên dữ liệu lớn2.1 Tổng quan về từ điển và dữ liệu từ điển Từ điển được xem là một trong những công cụ xử lý ngôn ngữ tự nhiên phổ biến và ...