Khử mơ hồ nghĩa của cấu trúc '之前 之后 ' trong dịch tự động Hoa – Việt
Số trang: 8
Loại file: pdf
Dung lượng: 867.30 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài báo này, chúng tôi sẽ trình bày phương pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt.
Nội dung trích xuất từ tài liệu:
Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM SỐ 01 THÁNG 10 NĂM 2013 KHỬ MƠ HỒ NGHĨ CỦA CẤU TR C “之前/之后 ” TRONG DỊCH TỰ ĐỘNG HOA – VIỆT Trần Thanh Phước, Trần Văn Thọ* TÓM TẮT Cấu trúc “之前/之后”là dạng ngữ pháp thường gặp trong tiếng Hoa ở cả văn nói và văn viết. Trong dịch tự động thống kê Hoa – Việt, các hệ thống dịch máy thường dịch sai ngữ nghĩa và trật tự từ của cấu trúc ngữ pháp này. Trong bài báo này, chúng tôi sẽ trình bày phương pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt. Chúng tôi đã thực nghiệm phương pháp này trên ngữ liệu song ngữ Hoa-Việt gồm 10.000 cặp câu, từ điển Hoa-Việt gồm 80.000 mục từ, từ điển từ loại động từ tiếng Hoa, từ điển từ loại thời gian của tiếng Hoa và kết quả điểm BLEU dịch Hoa-Việt đạt được là 47,23 so với 14,15 của Google Translator cho những câu tiếng Hoa có chứa cấu trúc này. ABSTRACT Structure “之前/之后” iscommongrammaticalforminChinese forbothspokenand written. InChineseVietnamese SMT (Statistical Machine Translation), themachine translationsystemsusuallymistranslate about semanticand word orderofthisgrammatical structure. In this paper, we will present a methodto fixthe abovewrong translation by being basedon their syntax and semantic information, we classifythemintodifferent types;and thenweconduct to convert word, reorder wordto be suitable to themachine translationfromChineseinto Vietnamese. We experimented this problem on the 10,000 pairs of Chinese-Vietnamese parallel corpus and 80,000-entry Chinese Vietnamese Dictionary, Chinese verb Dictionary, Chinese time Dictionary and we reach the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator forChinesesentencescontainingthese structures. 1. GIỚI THIỆU Đến nay, dịch tự động Hoa-Việt hay ViệtHoa chưa thấy công bố chính thức ngoại trừ Google Translator đã có thực hiện thông qua ngôn ngữ trung gian là tiếng Anh. Việc dịch Hoa-Việt-Hoa ở các wesbite khác (như EVTrans[11], website dichhay.com[12], ...) đều dựa trên Google Translator. Chất lượng dịch Hoa – Việt - Hoa theo cách thức bắc cầu như thế này sẽ cho ra kết quả dịch thấp do kết quả dịch Hoa-Việt phải chịu sai sót qua hai lần dịch (từ Hoa sang Anh và từ Anh sang Việt). Trong nghiên cứu này, chúng tôi sẽ dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt theo phương pháp thống kê dựa trên kho ngữ liệu song ngữ Hoa-Việt (Statistical Machine Translation). Chất lượng dịch tự động Hoa Việt cho ra kết quả tương đối tốt do tiếng Hoa và Việt cùng loại hình đơn lập nên có một số đặc điểm ngữ pháp giống nhau. Tuy nhiên, trong một số cấu trúc đặc biệt của ngữ pháp tiếng Hoa, hệ thống lại cho ra kết quả dịch không mong muốn. Một trong những cấu trúc đặc biệt này là cấu trúc “之前/之后” (sẽ trình *ThS. Trần Thanh Phước – Khoa CNTT - Trường ĐH Công nghiệp Thực phẩm Tp.HCM bày ở phần 2), gây ra các lỗi như: dịch sai nghĩa, sai trật tự từ,... Để khắc phục các cấu trúc ngữ pháp đặc biệt nói trên của tiếng Hoa đã có nhiều phương pháp khác nhau và một trong những phương pháp đó là khử mơ hồ ngữ nghĩa. Ví dụ trong tiếng Hoa, từ 的 rất thường xuất hiện trong cả văn nói cũng như viết và được dịch sang các ngôn ngữ khác với nhiều nghĩa khác nhau tùy vào ngữ cảnh trước và sau của nó. Vì vậy, nhóm tác giả Pi-Chuan Chang, Dan Jurafsky và Christofer D.Manning của trường đại học Stanford đã giải quyết vấn đề này theo cách khử mơ hồ nghĩa của từ “的”[6]. Chính sự mơ hồ nghĩa này là nguyên nhân gây ra lỗi dịch dù ngay cả trong các mô hình dịch thống kê theo ngữ (Phrase-Based SMT). Theo [6], dựa vào ngữ pháp từ 的, nhóm tác giả đã chia từ 的 ra thành 5 lớp riêng biệt. Tương ứng với mỗi phân lớp, nhóm tác giả đã tách các ngữ đứng trước và sau từ 的, đánh nhãn từ 的 theo từng lớp phân biệt; sau đó dựa vào cấu trúc ngữ pháp của từng phân lớp, nhóm tác giả đã đảo 81 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM trật tự các ngữ đứng trước và sau từ 的 . Kết quả thử nghiệm với MT02[6] (878 câu), với hệ cơ sở (Baseline)[5] của hệ dịch Hoa-Anh cho kết quả điểm BLEU là 32.51 và sau khi khử mơ hồ nghĩa từ 的 thì điểm BLEU tăng thêm 1.24 điểm. Trong bài báo này, chúng tôi cũng sẽ sử dụng cùng cách tiếp cận này nhưng áp dụng cho cấu trúc “之前/之后 ”. Cấu trúc này cũng xuất hiện thường xuyên trong các văn bản tiếng Hoa và tùy vào ngữ đứng trước hoặc sau của chúng mà cấu trúc này sẽ cho ra các ý nghĩa khác nhau. Đây chính là nguyên nhân gây ra các lỗi sai về nghĩa và sai về trật tự từ khi chuyển ngữ Hoa - Việt. Để khử mơ hồ nghĩa cấu trúc này chúng tôi chia chúng ra thành các loại khác nhau, cụ thể là cấu trúc “之 前” chia làm 3 loại, cấu trúc “之后” chia làm 3 TRẦN THANH PHƢỚC loại. Tương ứng với từng loại, chúng tôi sẽ biến đổi từ và đảo trật tự từ trong ngữ đứng trước cấu trúc này t ...
Nội dung trích xuất từ tài liệu:
Khử mơ hồ nghĩa của cấu trúc “之前 之后 ” trong dịch tự động Hoa – Việt TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HCM SỐ 01 THÁNG 10 NĂM 2013 KHỬ MƠ HỒ NGHĨ CỦA CẤU TR C “之前/之后 ” TRONG DỊCH TỰ ĐỘNG HOA – VIỆT Trần Thanh Phước, Trần Văn Thọ* TÓM TẮT Cấu trúc “之前/之后”là dạng ngữ pháp thường gặp trong tiếng Hoa ở cả văn nói và văn viết. Trong dịch tự động thống kê Hoa – Việt, các hệ thống dịch máy thường dịch sai ngữ nghĩa và trật tự từ của cấu trúc ngữ pháp này. Trong bài báo này, chúng tôi sẽ trình bày phương pháp khắc phục lỗi dịch sai nói trên bằng cách phân loại cấu trúc nói trên thành các loại khác nhau dựa vào thông tin về cú pháp, ngữ nghĩa của chúng để từ đó chúng tôi tiến hành biến đổi từ, đảo trật tự từ cho phù hợp với dịch tự động từ tiếng Hoa sang tiếng Việt. Chúng tôi đã thực nghiệm phương pháp này trên ngữ liệu song ngữ Hoa-Việt gồm 10.000 cặp câu, từ điển Hoa-Việt gồm 80.000 mục từ, từ điển từ loại động từ tiếng Hoa, từ điển từ loại thời gian của tiếng Hoa và kết quả điểm BLEU dịch Hoa-Việt đạt được là 47,23 so với 14,15 của Google Translator cho những câu tiếng Hoa có chứa cấu trúc này. ABSTRACT Structure “之前/之后” iscommongrammaticalforminChinese forbothspokenand written. InChineseVietnamese SMT (Statistical Machine Translation), themachine translationsystemsusuallymistranslate about semanticand word orderofthisgrammatical structure. In this paper, we will present a methodto fixthe abovewrong translation by being basedon their syntax and semantic information, we classifythemintodifferent types;and thenweconduct to convert word, reorder wordto be suitable to themachine translationfromChineseinto Vietnamese. We experimented this problem on the 10,000 pairs of Chinese-Vietnamese parallel corpus and 80,000-entry Chinese Vietnamese Dictionary, Chinese verb Dictionary, Chinese time Dictionary and we reach the result of 47.23 BLEU score in comparison of 14.15 BLEU of Google Translator forChinesesentencescontainingthese structures. 1. GIỚI THIỆU Đến nay, dịch tự động Hoa-Việt hay ViệtHoa chưa thấy công bố chính thức ngoại trừ Google Translator đã có thực hiện thông qua ngôn ngữ trung gian là tiếng Anh. Việc dịch Hoa-Việt-Hoa ở các wesbite khác (như EVTrans[11], website dichhay.com[12], ...) đều dựa trên Google Translator. Chất lượng dịch Hoa – Việt - Hoa theo cách thức bắc cầu như thế này sẽ cho ra kết quả dịch thấp do kết quả dịch Hoa-Việt phải chịu sai sót qua hai lần dịch (từ Hoa sang Anh và từ Anh sang Việt). Trong nghiên cứu này, chúng tôi sẽ dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt theo phương pháp thống kê dựa trên kho ngữ liệu song ngữ Hoa-Việt (Statistical Machine Translation). Chất lượng dịch tự động Hoa Việt cho ra kết quả tương đối tốt do tiếng Hoa và Việt cùng loại hình đơn lập nên có một số đặc điểm ngữ pháp giống nhau. Tuy nhiên, trong một số cấu trúc đặc biệt của ngữ pháp tiếng Hoa, hệ thống lại cho ra kết quả dịch không mong muốn. Một trong những cấu trúc đặc biệt này là cấu trúc “之前/之后” (sẽ trình *ThS. Trần Thanh Phước – Khoa CNTT - Trường ĐH Công nghiệp Thực phẩm Tp.HCM bày ở phần 2), gây ra các lỗi như: dịch sai nghĩa, sai trật tự từ,... Để khắc phục các cấu trúc ngữ pháp đặc biệt nói trên của tiếng Hoa đã có nhiều phương pháp khác nhau và một trong những phương pháp đó là khử mơ hồ ngữ nghĩa. Ví dụ trong tiếng Hoa, từ 的 rất thường xuất hiện trong cả văn nói cũng như viết và được dịch sang các ngôn ngữ khác với nhiều nghĩa khác nhau tùy vào ngữ cảnh trước và sau của nó. Vì vậy, nhóm tác giả Pi-Chuan Chang, Dan Jurafsky và Christofer D.Manning của trường đại học Stanford đã giải quyết vấn đề này theo cách khử mơ hồ nghĩa của từ “的”[6]. Chính sự mơ hồ nghĩa này là nguyên nhân gây ra lỗi dịch dù ngay cả trong các mô hình dịch thống kê theo ngữ (Phrase-Based SMT). Theo [6], dựa vào ngữ pháp từ 的, nhóm tác giả đã chia từ 的 ra thành 5 lớp riêng biệt. Tương ứng với mỗi phân lớp, nhóm tác giả đã tách các ngữ đứng trước và sau từ 的, đánh nhãn từ 的 theo từng lớp phân biệt; sau đó dựa vào cấu trúc ngữ pháp của từng phân lớp, nhóm tác giả đã đảo 81 TẠP CHÍ KHOA HỌC CÔNG NGHỆ VÀ THỰC PHẨM trật tự các ngữ đứng trước và sau từ 的 . Kết quả thử nghiệm với MT02[6] (878 câu), với hệ cơ sở (Baseline)[5] của hệ dịch Hoa-Anh cho kết quả điểm BLEU là 32.51 và sau khi khử mơ hồ nghĩa từ 的 thì điểm BLEU tăng thêm 1.24 điểm. Trong bài báo này, chúng tôi cũng sẽ sử dụng cùng cách tiếp cận này nhưng áp dụng cho cấu trúc “之前/之后 ”. Cấu trúc này cũng xuất hiện thường xuyên trong các văn bản tiếng Hoa và tùy vào ngữ đứng trước hoặc sau của chúng mà cấu trúc này sẽ cho ra các ý nghĩa khác nhau. Đây chính là nguyên nhân gây ra các lỗi sai về nghĩa và sai về trật tự từ khi chuyển ngữ Hoa - Việt. Để khử mơ hồ nghĩa cấu trúc này chúng tôi chia chúng ra thành các loại khác nhau, cụ thể là cấu trúc “之 前” chia làm 3 loại, cấu trúc “之后” chia làm 3 TRẦN THANH PHƢỚC loại. Tương ứng với từng loại, chúng tôi sẽ biến đổi từ và đảo trật tự từ trong ngữ đứng trước cấu trúc này t ...
Tìm kiếm theo từ khóa liên quan:
Khử mơ hồ nghĩa Cấu trúc “之前 之后 ” Dịch tự động hoa – việt Dịch tự động Cú pháp dịchGợi ý tài liệu liên quan:
-
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 90 0 0 -
Một số đề xuất hỗ trợ chuyển đổi văn bản tiếng Việt sang văn bản tiếng dân tộc thiểu số ở Việt Nam
5 trang 18 0 0 -
Tác động của các ứng dụng dịch tự động đến hiệu quả học tiếng Việt của người nước ngoài
6 trang 12 0 0 -
Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa
7 trang 9 0 0 -
Tóm tắt Luận văn Thạc sĩ Kỹ thuật phần mềm: Chuyển ngữ tự động từ tiếng Nhật sang tiếng Việt
26 trang 7 0 0 -
Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu
8 trang 7 0 0 -
Đánh giá vai trò của kho ngữ liệu đối với chất lượng dịch tự động tiếng Việt
5 trang 5 0 0