Danh mục

Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet

Số trang: 7      Loại file: pdf      Dung lượng: 908.24 KB      Lượt xem: 13      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (7 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Ngữ liệu song ngữ đóng một vai trò rất quan trọng trong nhiều ứng dụng về xử lý ngôn ngữ tự nhiên, đặc biệt là trong các ứng dụng về dịch máy. Có nhiều phương pháp khác nhau để xây dựng ngữ liệu song ngữ, đa ngữ. Trong bài viết này, chúng tôi đề xuất phương pháp thu thập, xác thực và tiền xử lý một tập lớn các câu song ngữ Anh - Việt từ các nguồn tài nguyên trên internet.
Nội dung trích xuất từ tài liệu:
Một phương pháp xây dựng ngữ liệu song ngữ Anh-Việt từ nguồn tài nguyên internet Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00040 MỘT PHƯƠNG PHÁP XÂY DỰNG NGỮ LIỆU SONG NGỮ ANH-VIỆT TỪ NGUỒN TÀI NGUYÊN INTERNET Dƣơng Minh Hùng1, Lê Mạnh Thạnh2, Lê Trung Hiếu3 1 Trƣờng Đại học Ngoại ngữ, Đại học Huế, 57 Nguyễn Khoa Chiêm, Tp Huế 2 Khoa CNTT, Trƣờng Đại học Khoa học, Đại học Huế, 77 Nguyễn Huệ, Tp Huế 3 Trung tâm CNTT, Đại học Huế, 02 Lê Lợi, Tp Huế dmhung1980@gmail.com, lmthanh1953@yahoo.com, hieukien82@gmail.com TÓM TẮT: Ngữ liệu song ngữ đóng một vai trò rất quan trọng trong nhiều ứng dụng về xử lý ngôn ngữ tự nhiên, đặc biệt là trong các ứng dụng về dịch máy. Có nhiều phương pháp khác nhau để xây dựng ngữ liệu song ngữ, đa ngữ. Trong bài báo này, chúng tôi đề xuất phương pháp thu thập, xác thực và tiền xử lý một tập lớn các câu song ngữ Anh - Việt từ các nguồn tài nguyên trên internet. Ngoài ra, chúng tôi sử dụng các bộ lọc chiều dài câu, bộ lọc bao phủ từ và bộ phân lớp Entropy cực đại để rút trích các cặp câu thực sự song song. Từ khóa: Ngữ liệu song ngữ, Entropy cực đại. I. GIỚI THIỆU Ngữ liệu đa ngữ nói chung và song ngữ nói riêng đóng một vai trò rất quan trọng đối với lĩnh vực xử lý ngôn ngữ tự nhiên đặc biệt là trong lĩnh vực dịch máy (Machine Translation - MT) nói chung và dịch máy thống kê, dịch máy mạng neural nói riêng. Độ chính xác của hệ thống dịch máy phụ thuộc rất lớn vào chất lƣợng của ngữ liệu song ngữ. Vì vậy, có rất công trình khoa học nghiên cứu các phƣơng pháp nhằm tạo ra các kho ngữ liệu song ngữ có chất lƣợng tốt làm tài nguyên để phát triển các hệ thống dịch tự động. Trên thế giới, ngƣời ta đã xây dựng đƣợc khá nhiều các kho ngữ liệu song ngữ lớn, chẳng hạn kho ngữ liệu song ngữ HKUST và PKU863 của cặp Anh - Hoa, kho ngữ liệu Europarl đƣợc trích từ văn bản Nghị Viện Châu Âu và văn bản chính phủ của một số nƣớc, kho ngữ liệu song ngữ JENAAD cho cặp ngôn ngữ Anh - Nhật,… Đối với tiếng Việt, số lƣợng các bộ ngữ liệu chƣa đƣợc quan tâm nghiên cứu nhiều. Hiện chỉ có nhóm nghiên cứu Đinh Điền [5] và nhóm VLSP (Vietnamese Language and Speech Processing)1 công bố một số công trình liên quan. Việc xây dựng các bộ dữ liệu song ngữ lớn và có chất lƣợng tốt là rất bức thiết. Tuy nhiên, xây dựng bằng phƣơng pháp thủ công sẽ rất tốn thời gian và công sức, có thể nói là không khả thi. Trong khi đó, trên Internet có rất nhiều nguồn tài liệu song ngữ có sẵn, nhƣ là các trang báo trực tuyến song ngữ, các trang thông tin điện tử, các bộ phim đã dịch phụ đề… Đây chính là những nguồn tài nguyên chứa dữ liệu về ngôn ngữ phong phú có thể khai thác để tạo ra các khối ngữ liệu song ngữ lớn và có chất lƣợng tốt. Trong bài báo này, chúng tôi chỉ tập trung trình bày phƣơng pháp rút trích câu song song từ ngữ liệu song song (parallel corpus) và ngữ liệu chƣa thực sự song song (comparable corpus) đã đƣợc gióng hàng ở mức độ câu. Các vấn đề về gióng hàng văn bản, gióng hàng câu và các vấn đề liên quan khác chúng tôi không tập trung trình bày. II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Đối với bài toán rút trích câu song song từ nguồn ngữ liệu song song, một số công trình có cách tiếp cận dựa vào đặc trƣng độ dài câu (Gale và Church [7], Brown và các đồng sự [2]) Lợi điểm của cách tiếp cận này là đơn giản, tốc độ thực thi nhanh và có thể áp dụng cho văn bản ngắn với độ chính xác cao. Tuy nhiên, cách tiếp cận dựa vào độ dài câu này chỉ tỏ ra hữu hiệu đối với các cặp ngôn ngữ cùng họ nhƣ Anh - Pháp, nhƣng lại kém chính xác đối với những cặp ngôn ngữ khác họ. Haruno và Yamazaki [8] đề xuất một phƣơng pháp rút trích các cặp câu song song cho cặp ngôn ngữ Anh - Nhật bằng cách kết hợp giữa cách tiếp cận dựa trên chiều dài với cách tiếp cận dựa trên từ vựng. Phƣơng pháp kết hợp này cho kết quả tốt hơn so với phƣơng pháp tiếp cận đơn lẻ. Tác giả Wu [11] cũng sử dụng phƣơng pháp kết hợp tƣơng tự để rút trích câu song song Anh - Hoa với độ chính xác trên 90%. Đối với các nguồn ngữ liệu chƣa thực sự song song, Fung và Cheung [6] hay Tillmann và Xu [10] sử dụng một bộ dữ liệu gồm các câu song song để huấn luyện mô hình gióng hàng từ. Thông qua kết quả gióng hàng từ này, mức độ tƣơng đồng của hai câu sẽ đƣợc tính. Ngoài ra, bộ phân lớp câu song song dựa trên mô hình Entropy cực đại kết hợp đặc trƣng liên kết gióng hàng từ đƣợc Munteanu và Marcu [9] thử nghiệm đạt độ chính xác cao đối với cặp ngôn ngữ Anh - Ả Rập. Bộ phân lớp này khá phù hợp với cặp ngôn ngữ khác họ nên chúng tôi áp dụng áp dụng bộ phân lớp này cho cặp ngôn ngữ Anh - Việt. 1 https://vlsp.hpda.vn 316 MỘT PHƢƠNG PHÁP XÂY DỰNG NGỮ LIỆU SONG NGỮ ANH-VIỆT TỪ NGUỒN TÀI NGUYÊN INTERNET Các công trình liên quan đến tiếng Việt, tác giả Đặng Bác Văn và Hồ Bảo Quốc [3] đã công bố một hệ thống có thể tự động tải về các trang web từ một tên miền cho sẵn, sau đó xác định các cặp trang web song ngữ Anh - Việt. Các cặp câu song song đƣợc rút trích dựa vào độ đo sự tƣơng tự thông qua một từ điển song ngữ. Nhóm tác giả Do Thi Ngoc Diep và đồng sự [4] cũng có công trình khai thác câu song song từ các trang web để phục vụ cho hệ thống dịch máy Pháp - Việt. III. CƠ SỞ LÝ THUYẾT A. Mô hình Entropy cực đại trong phấp lớp câu song song Mô hình xác suất Entropy cực đại (Maximum Entropy) cung cấp một cách đơn giản để kết hợp các đặc trƣng của tài liệu trong những ngữ cảnh khác nhau để ƣớc lƣợng xác suất của một số lớp xuất hiện cùng với một số ngữ cảnh này. Tƣ tƣởng ...

Tài liệu được xem nhiều: