Danh mục

Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ

Số trang: 8      Loại file: pdf      Dung lượng: 560.38 KB      Lượt xem: 42      Lượt tải: 0    
tailieu_vip

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (8 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất phương pháp xây dựng WordNet tiếng Việt chỉ dựa trên WordNet của 4 ngôn ngữ nguồn là Anh, Tây Ban Nha, Pháp, Nhật Bản; Một số cải tiến như sử dụng kho ngữ liệu TEDTalk, cải tiến phương pháp chọn lọc các tập từ đồng nghĩa (synset).
Nội dung trích xuất từ tài liệu:
Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0093 XÂY DỰNG WORDNET TIẾNG VIỆT TỰ ĐỘNG BẰNG NGỮ LIỆU SONG NGỮ Trương Hoàng Bảo, Nguyễn Ngọc Bình, Lê Thành Nguyên, Lê Thị Nhàn, Đinh Điền Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, ĐHQG TP.HCM 1712290@student.hcmus.edu.vn, 1712293@student.hcmus.edu.vn, lethanhnguyen.vn@gmail.com, ltnhan@fit.hcmus.edu.vn, ddien@fit.hcmus.edu.vn TÓM TẮT: Tác giả Farid Haziyev trong nghiên cứu “Automatic WordNet construction using Wikipedia data” đã đề xuất phương pháp xây dựng WordNet sử dụng đồ thị để xử lý nhập nhằng (graph methods), kết hợp 14 WordNet của 14 ngôn ngữ khác nhau để xây dựng WordNet mới. Dựa trên phương pháp của nghiên cứu này, chúng tôi đề xuất phương pháp xây dựng WordNet tiếng Việt chỉ dựa trên WordNet của 4 ngôn ngữ nguồn là Anh, Tây Ban Nha, Pháp, Nhật Bản. Chúng tôi cũng đã thực hiện một số cải tiến như sử dụng kho ngữ liệu TEDTalk, cải tiến phương pháp chọn lọc các tập từ đồng nghĩa (synset). Kết quả khi so sánh WordNet tiếng Trung Quốc được xây dựng bằng phương pháp do chúng tôi đề xuất với WordNet tiếng Trung Quốc (Chinese Open WordNet) có sẵn cho thấy kết quả của chúng tôi tốt hơn về các thông số đánh giá như độ chính xác Precision và độ bao phủ Recall hơn so với dữ liệu mô hình của tác giả xây dựng từ dữ liệu 4 ngôn ngữ. Chúng tôi sử dụng phương pháp đề xuất ở trên để xây dựng WordNet tiếng Việt, kết quả xây dựng được WordNet với 16,143 từ và 17,756 synset. Phương pháp này hoàn toàn có thể được áp dụng để xây dựng WordNet của các ngôn ngữ khác, cũng như thêm vào WordNet của các ngôn ngữ nguồn để tăng số lượng từ và synset được xây dựng. Từ khóa: WordNet, tiếng Việt, TEDTalk, đồ thị, xử lý ngôn ngữ tự nhiên. I. GIỚI THIỆU Ngày nay, các bài toán xử lý ngôn ngữ tự nhiên như: trích xuất thông tin, dịch máy, phân loại văn bản,… được ứng dụng trong nhiều lĩnh vực khác nhau, và WordNet là một trong những nguồn ngữ liệu quan trọng để xây dựng các phương pháp giải quyết những bài toán này. Do đó, chất lượng của WordNet đóng vai trò rất quan trọng đến độ chính xác của các bài toán liên quan. WordNet là một hệ thống dữ liệu về ngữ nghĩa mà ở đó mỗi tập đồng nghĩa (synset) là một lớp đóng vai trò như một nhóm ngữ nghĩa. Mỗi synset chứa các từ đồng nghĩa, kèm với định nghĩa cách dùng, ví dụ và mối quan hệ với các synset khác. Một số mối quan hệ giữa các synset có thể kể đến như quan hệ thượng danh/hạ danh (hypernymy/ hyponymy) và quan hệ bộ phận (meronymy/ holonymy) [1]. Ví dụ synset chứa từ maple (cây gỗ thích) là hạ danh của synset chứa từ tree (cây); synset chứa từ bone (xương) là bộ phận của synset chứa từ arm (tay). Tuy nhiên, thực tế hiện nay cho thấy, những WordNet có chất lượng tốt là của những ngôn ngữ giàu tài nguyên như Anh và Nhật Bản. Đối với ngôn ngữ nghèo tài nguyên như tiếng Việt, mặc dù đã có một số nghiên cứu xây dựng một WordNet tiếng Việt, tuy nhiên chất lượng của các WordNet được xây dựng vẫn chưa cao. Có hai phương pháp xây dựng WordNet là thủ công và tự động. Phương pháp tự động gồm hai hướng là tổng hợp và mở rộng. Trong đó, phương pháp tự động theo hướng mở rộng rất phù hợp với việc xây dựng WordNet cho các ngôn ngữ nghèo tài nguyên như tiếng Việt. Phương pháp này sử dụng WordNet tiếng Anh [2] làm nhân và sau đó ánh xạ đến ngôn ngữ đích thông qua nhiều cách tiếp cận khác nhau. Trong phần II, chúng tôi sẽ giới thiệu các nghiên cứu liên quan trong xây dựng Wordnet tiếng Việt, đồng thời phân tích những ưu nhược điểm của những phương pháp này. Phần III, chúng tôi sẽ giới thiệu mô hình đề xuất của chúng tôi dựa trên mô hình của tác giả Farid Haziyev [3] đồng thời đề xuất một số sự cải tiến để xây dựng Wordnet cho tiếng Việt. Chúng tôi cũng sẽ tiến hành phân tích các kết quả thực nghiệm ở phần IV và nêu một số kết luận tại phần V. II. NHỮNG NGHIÊN CỨU LIÊN QUAN Trong thời gian vừa qua, đã có nhiều nhóm tác giả đề xuất những phương pháp nhằm xây dựng WordNet dành cho tiếng Việt. Những phương pháp có thể được phân thành ba nhóm: thủ công, bán tự động và tự động. Ở hướng tiếp cận thủ công, nhóm tác giả Dương Trọng Hải, Trần Minh Quang và Nguyễn Thị Phương Trang [4] đã đề xuất phương pháp Delphi. Ý tưởng chính của phương pháp là thông qua các cuộc họp có sự tham dự và phân tích của các chuyên gia. WordNet sẽ được xây dựng dựa trên các ý kiến đồng thuận tập thể. Ưu điểm của phương pháp này chính là tận dụng được nguồn tri thức lớn của nhiều chuyên gia, tuy nhiên hạn chế là sẽ mất rất nhiều thời gian và công sức để phân tích vấn đề cho đến khi những vấn đề đều đã được đồng thuận. Hướng tiếp cận thứ hai tiết kiệm được nhiều thời gian hơn cho việc xây dựng WordNet đó là hướng tiếp cận bán tự động. Trong nghiên cứu của Nguyễn Hoàng An và cộng sự [5], một phương pháp bán tự động với hai giai đoạn đã được đề xuất nhằm xây dựng WordNet tiếng Việt. Giai đoạn một là giai đoạn tự động, nhóm tác giả dịch một phần của WordNet tiếng Anh [2] sang tiếng Việt sử dụng từ điển song ngữ và những công cụ dịch máy. Ở giai đoạn này, dữ liệu sẽ là những từ có định nghĩa chung xuất hiện trong cả tiếng Việt và tiếng Anh. Trong giai đoạn 484 XÂY DỰNG WORDNET TIẾNG VIỆT TỰ ĐỘNG BẰNG DỮ LIỆU SONG NGỮ hai, nhóm tác giả sẽ tiến hành theo phương thức thủ công. Với những từ đặc trưng chỉ có ở tiếng Việt như từ láy, từ ghép, những từ thể hiện văn hóa Việt Nam như “bánh chưng”, “bánh giầy”, nhóm tác giả tiến hành tìm synset thích hợp bằng tay để thêm từ vào. Cuối cùng, nhóm tác giả tạo ra một hướng dẫn chi tiết để chỉ ...

Tài liệu được xem nhiều: