Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi
Số trang: 10
Loại file: pdf
Dung lượng: 505.20 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc.
Nội dung trích xuất từ tài liệu:
Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2 Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron (Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU. Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu. 1. ĐẶT VẤN ĐỀ Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy, hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ, dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau, ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích, toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên, đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23 Công nghệ thông tin là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3], các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất” các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi. Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câu khác nhau từ đó cho thấy việc áp dụng dịch ngược với phương án lựa chọn câu phù hợp có thể làm tăng chất lượng của hệ thống dịch máy thống kê. Các đóng góp mới của nghiên cứu này bao gồm: 1. Áp dụng kỹ thuật BT để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh. 2. Đề xuất 02 phương pháp lựa chọn dữ liệu thích nghi sau khi áp dụng kỹ thuật BT để nâng cao chất lượng dữ liệu huấn luyện cho dịch máy thống kê. Hình 1. Mô hình tăng cường dữ liệu đề xuất. 2. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi sẽ giới thiệu một số nghiên cứu về dịch ngược và dịch máy Việt-Anh. 24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường … lựa chọn thích nghi.” Nghiên cứu khoa học công ...
Nội dung trích xuất từ tài liệu:
Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2 Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron (Neural Machine Translation - NMT). Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU. Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu. 1. ĐẶT VẤN ĐỀ Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy, hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ, dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau, ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích, toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên, đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23 Công nghệ thông tin là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3], các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất” các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi. Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câu khác nhau từ đó cho thấy việc áp dụng dịch ngược với phương án lựa chọn câu phù hợp có thể làm tăng chất lượng của hệ thống dịch máy thống kê. Các đóng góp mới của nghiên cứu này bao gồm: 1. Áp dụng kỹ thuật BT để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh. 2. Đề xuất 02 phương pháp lựa chọn dữ liệu thích nghi sau khi áp dụng kỹ thuật BT để nâng cao chất lượng dữ liệu huấn luyện cho dịch máy thống kê. Hình 1. Mô hình tăng cường dữ liệu đề xuất. 2. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi sẽ giới thiệu một số nghiên cứu về dịch ngược và dịch máy Việt-Anh. 24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường … lựa chọn thích nghi.” Nghiên cứu khoa học công ...
Tìm kiếm theo từ khóa liên quan:
Dịch máy thống kê Tăng cường dữ liệu Hệ thống học máy Dịch máy Việt-Anh Kỹ thuật dịch ngượcGợi ý tài liệu liên quan:
-
74 trang 158 0 0
-
LUẬN VĂN: KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB
40 trang 123 0 0 -
Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy
14 trang 29 0 0 -
Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh
13 trang 22 0 0 -
Đánh giá bộ nhãn ngữ nghĩa LLOCE
6 trang 20 0 0 -
24 trang 13 0 0
-
74 trang 13 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 11 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
4 trang 10 0 0 -
Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ
8 trang 10 0 0 -
Xây dựng kho ngữ liệu du lịch song ngữ Việt-Anh gióng hàng mức câu cho dịch máy
8 trang 8 0 0 -
Thiết kế mô hình mạng nơ ron nhân chập cho bài toán nhận dạng giới tính từ ảnh mặt người
4 trang 6 0 0 -
Đề Tài: Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê Anh-Việt
92 trang 5 0 0