Danh mục

Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ

Số trang: 8      Loại file: pdf      Dung lượng: 430.83 KB      Lượt xem: 14      Lượt tải: 0    
Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày việc đề xuất việc áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa vào gióng hàng trong hệ thống dịch máy Việt-Anh; Đề xuất thuật toán tạo bảng gióng hàng từ A* từ bảng A trước khi xây dựng mô hình dịch, giúp giữ nguyên chất lượng mô hình ngôn ngữ trong hệ thống dịch máy.
Nội dung trích xuất từ tài liệu:
Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ Nghiên cứu khoa học công nghệ CẢI TIẾN MÔ HÌNH GIÓNG HÀNG TRONG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2 Tóm tắt: Trong hệ thống dịch máy thống kê (Statistical Machine Translation - SMT), gióng hàng từ là một nhiệm vụ quan trọng và có ảnh hưởng lớn đến chất lượng hệ dịch. Hiện nay, chưa có nghiên cứu nào sử dụng các kỹ thuật chia nhỏ từ cho hệ thống dịch máy thống kê cặp ngôn ngữ Việt-Anh. Trong bài báo này, chúng tôi đề xuất một hướng tiếp cận sử dụng các kỹ thuật chia nhỏ từ vào hệ thống dịch máy thống kê nhằm nâng cao chất lượng gióng hàng từ, từ đó nâng cao chất lượng hệ dịch cho cặp ngôn ngữ Việt-Anh. Ngoài việc áp dụng kỹ thuật chia nhỏ từ như một bước tiền xử lý, chúng tôi còn đề xuất cải tiến mô hình gióng hàng từ để nâng cao chất lượng hệ dịch. Phương pháp đề xuất đã được cài đặt, thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE, Wordpiece, unigram và Morfessor, kết quả thử nghiệm cho thấy, việc áp dụng phương pháp đề xuất đều giúp tăng điểm BLEU so với kết quả baseline, với kết quả cao nhất sử dụng kỹ thuật BPE giúp tăng 0.81 điểm BLEU. Từ khóa: Subword; Gióng hàng từ; Dịch máy thống kê. 1. ĐẶT VẤN ĐỀ Trong hệ thống dịch máy thống kê (SMT), việc gióng hàng từ trên một kho ngữ liệu song ngữ đã gióng hàng mức câu là một bước quan trọng và có ảnh hưởng lớn đến chất lượng hệ dịch [1]. Hiện nay, các mô hình gióng hàng từ phổ biến nhất là các mô hình gióng hàng IBM [2]. Các mô hình này được áp dụng rộng rãi trong các hệ thống dịch máy thống kê. Các tham số của các mô hình IBM được ước tính bằng cách sử dụng nguyên lý hợp lý cực đại (Maximum Likelihood), tức là bằng cách đếm sự đồng xuất hiện của các từ trong văn bản song song. Các mô hình gióng hàng IBM đòi hỏi một lượng lớn dữ liệu song ngữ được gióng hàng mức câu và thường gặp vấn đề khi gióng hàng với các từ có tần suất xuất hiện ít (từ hiếm - rare words). Đã có nhiều nghiên cứu nhằm tăng chất lượng gióng hàng từ cho dịch máy thống kê cho các cặp ngôn ngữ tài nguyên hạn chế, trong đó tập trung vào vấn đề xử lý từ hiếm [4], [3],... Trong dịch máy Việt-Anh, bên cạnh vấn đề từ hiếm, ta gặp các vấn đề về sự không tương đồng về cấu trúc giữa hai ngôn ngữ, trong đó có sự khác biệt về hình thái. Tiếng Việt là ngôn ngữ đơn hình, trong đó, tiếng Anh là ngôn ngữ đa hình (một từ tiếng Anh có nhiều hình thái khác nhau tùy thuộc vào ngữ cảnh sử dụng, các hình thái từ này có chung một từ gốc và được bổ sung thêm các tiền tố, hậu tố tùy theo ngữ cảnh sử dụng). Hiện tượng tương tự đối với các tiếng Anh dạng từ kết hợp (một từ được tạo ra kết hợp bởi hai hoặc nhiều thành phần có nghĩa, khi kết hợp lại được một từ mới có nghĩa mới tương ứng với một hoặc nhiều từ phía tiếng Việt, ví dụ supermarket: siêu thị, wonderland: xứ sở thần tiên,...). Trong bài báo này, chúng tôi đề xuất một phương pháp cải tiến mô hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ trong hệ thống dịch máy thống kê cho cặp ngôn ngữ Việt-Anh nhằm giải quyết vấn đề từ hiếm và khác biệt về hình thái giữa hai ngôn ngữ. Đầu tiên, các kỹ thuật chia nhỏ từ (ví dụ như BPE [4], unigram [5],…) được sử dụng để chia nhỏ từ trong các câu phía tiếng Anh của kho ngữ liệu song ngữ, sau đó thực hiện gióng hàng từ và xây dựng bảng gióng hàng từ Việt-Anh. Chúng tôi đề xuất một thuật toán cải tiến bảng gióng hàng từ để sử dụng huấn luyện mô hình dịch máy Việt-Anh. Kết quả đạt được, hệ thống dịch máy sau khi cải tiến tăng 0.81 điểm BLEU so với hệ thống trước khi cải tiến. Các đóng góp mới của nghiên cứu này bao gồm: 1. Đề xuất việc áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa vào gióng hàng trong hệ thống dịch máy Việt-Anh. Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 121 Công nghệ thông tin & Cơ sở toán học cho tin học 2. Đề xuất thuật toán tạo bảng gióng hàng từ A* từ bảng A trước khi xây dựng mô hình dịch, giúp giữ nguyên chất lượng mô hình ngôn ngữ trong hệ thống dịch máy. Bài báo được trình bày theo thứ tự sau: Phần 2 trình bày các nghiên cứu liên quan; Phần 3 trình bày phương pháp cải tiến mô hình gióng hàng từ sử dụng các kỹ thuật chia nhỏ từ; Phần 4 trình bày các kết quả thử nghiệm, đánh giá; Cuối cùng, kết luận được trình bày trong phần 5. 2. CÁC NGHIÊN CỨU LIÊN QUAN Dịch máy thống kê được quan tâm và nghiên cứu cách đây hơn 20 năm. Chất lượng của một hệ dịch máy thống kê phụ thuộc vào hai yếu tố chính là ngữ liệu huấn luyện và mô hình dịch. Đối với các cặp ngôn ngữ tài nguyên hạn chế (như cặp ngôn ngữ Việt-Anh), việc cải tiến mô hình dịch được ưu tiên vì khó khăn trong bổ sung ngữ liệu huấn luyện. Trong mô hình dịch máy thống kê, gióng hàng từ là một bước quan trọng ảnh hưởng lớn đến chất lượng hệ dịch, xây dựng nên mô hình dịch cho hệ thống. Có nhiều nghiên cứu nhằm nâng cao chất lượng gióng hàng từ cho các cặp ngôn ngữ trên thế giới, tuy nhiên, với cặp ngôn ngữ Việt-Anh chưa có nhiều nghiên cứu về gióng hàng từ. Ngoài ra, các kỹ thuật chia nhỏ từ được sử dụng rộng rãi trong dịch máy trên mạng nơ-ron nhưng chưa có nhiều nghiên cứu áp dụng cho dịch máy thống kê. Trong phần này, chúng tôi sẽ giới thiệu một số nghiên cứu về gióng hàng từ và chia nhỏ từ trong dịch máy. 2.1. Gióng hàng từ trong dịch máy thống kê Trong mô hình dịch máy thống kê, gióng hàng từ (word alignment) có nhiệm vụ xác định sự tương ứng giữa các từ trong một văn bản song ngữ [6]. Đây là bước đầu tiên trong hầu hết các cách tiếp cận hiện tại của SMT và cũng là bước đóng vai trò rất quan trọng cho sự thành công của một hệ thống SMT. Trong các mô hình gióng hàng từ, các mô hình IBM của Brown và cộng ...

Tài liệu được xem nhiều: