Bài viết trình bày nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người.
Nội dung trích xuất từ tài liệu:
Dịch máy mạng neural Anh - Việt theo chủ đề
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0087
DỊCH MÁY MẠNG NEURAL ANH - VIỆT THEO CHỦ ĐỀ
Hoàng Trung Chính1, Nguyễn Hồng Bửu Long1, Lương An Vinh2
Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh
1
2
Khoa Công nghệ Thông tin, Đại học Công nghệ Sài Gòn
petruschinh@gmail.com, nhblong@fit.hcmus.edu.vn, vinh.luongan@stu.edu.vn
TÓM TẮT: Trong những năm gần đây, dịch máy mạng neural đã và đang được áp dụng vào nhiều lĩnh vực khác nhau và
đạt được nhiều thành tựu đáng kể. Trong lĩnh vực dịch máy theo chủ đề, mặc dù dịch máy mạng neural đã đạt được nhiều kết quả
cao, tuy nhiên, mô hình vẫn cần được huấn luyện bởi nguồn dữ liệu được dịch bởi con người vốn tốn nhiều chi phí và thời gian.
Trong bài báo này, chúng tôi nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế.
Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn
dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người. Cụ thể hơn, chúng tôi thử nghiệm phương pháp
chọn lọc mới và đạt được kết quả tốt hơn từ 0,47 đến 2,31 điểm BLEU trong các bộ ngữ liệu Anh - Việt khác nhau.
Từ khóa: Dịch máy, dịch máy mạng neural, dịch máy theo chủ đề.
I. GIỚI THIỆU
Dịch máy mạng neural (Neural Machine Translation - NMT) là một phương pháp dịch máy rất phổ biến trong
những năm gần đây, phương pháp này để đạt được kết quả cao đòi hỏi mô hình cần được huấn luyện trên một lượng dữ
liệu song ngữ rất lớn. Chất lượng của bản dịch phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu huấn luyện thông
thường được dịch bởi con người. Việc tìm nguồn dữ liệu song ngữ vốn đã khó với các chủ đề mang tính phổ thông như
tin tức, báo chí,… nhưng trong nhiều chủ đề chuyên môn khác, nguồn dữ liệu lại càng khan hiếm đòi hỏi chi phí rất lớn
cho việc xây dựng bộ ngữ liệu chất lượng cao.
Nhằm giảm bớt chi phí cũng như tăng hiệu quả của các mô hình dịch máy trong các chủ đề đặc thù, một trong
những phương pháp phổ biến thường được sử dụng là tinh chỉnh (fine-tune) [1], [2] một mô hình tiền huấn luyện bằng
một lượng nhỏ dữ liệu thuộc chủ đề đặc thù. Ví dụ chúng ta có một mô hình dịch máy được huấn luyện từ một triệu
cặp câu song ngữ thuộc chủ đề tin tức. Mô hình này sẽ đạt được kết quả rất cao nếu câu cần dịch (input) thuộc cùng
chủ đề tin tức, nhưng kết quả có thể rất thấp nếu thuộc một chủ đề đặc thù nào khác như Pháp luật (vốn đã không được
huấn luyện trước đó). Do điều kiện hạn chế về tài nguyên (thời gian, tiền bạc,…) nên không có nhiều dữ liệu về các
chủ đề đặc thù trên, do đó phương án tinh chỉnh lại mô hình dịch máy chủ đề tin tức bằng một lượng nhỏ dữ liệu thuộc
chủ đề khác (ví dụ: Pháp luật) dễ thực thi hơn do có chi phí thấp hơn.
Câu hỏi được đặt ra: vậy lượng nhỏ dữ liệu để tinh chỉnh nên được lựa chọn như thế nào để mô hình đạt được
kết quả tốt nhất? Trong bài báo này chúng tôi sẽ trình bày một phương pháp nhằm chọn lọc dữ liệu giàu thông tin để
tinh chỉnh mô hình dịch máy sẵn có. Chúng tôi thử nghiệm trên cặp ngôn ngữ Anh - Việt của chủ đề Pháp luật và Biến
đổi khí hậu. Kết quả cho thấy phương pháp này có thể thực hiện được với chi phí thấp, hiệu quả cải thiện với chất
lượng bản dịch tăng 0,47 đến 2,31 điểm BLEU [3].
Bài báo được trình bày với cấu trúc: Phần I giới thiệu chung. Phần II giới thiệu các nghiên cứu liên quan. Trong
phần III chúng tôi trình bày phương pháp đề xuất. Phần IV trình bày các thử nghiệm và kết quả. Kết luận và hướng
phát triển được tóm tắt trong phần V.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trước đây, các nghiên cứu về dịch máy theo chủ đề [4], [5], [6] được thực hiện bằng phương pháp dịch máy
thống kê (Statistical Machine Translation - SMT). Trong những năm gần đây, với sự trỗi dậy của phương pháp dịch
máy mạng neural, rất nhiều nghiên cứu [7], [8], [9], [10] chỉ ra rằng dịch máy mạng neural đạt được kết quả tối ưu
trong nhiều nhiệm vụ liên quan đến dịch thuật.
Có khá nhiều bài báo nghiên cứu về đề tài dịch máy mạng neural theo chủ đề. Nghiên cứu [11] đưa ra một
phương pháp nhằm chọn ra những cặp câu song ngữ có nội dung gần với chủ đề mong muốn, sau đó tiến hành huấn
luyện trên dữ liệu đó. Cách làm này tương đối đơn giản để có được mô hình nhưng đòi hỏi phải huấn luyện từ đầu,
không có sự kế thừa từ những mô hình sẵn có. Nhóm tác giả [1] trình bày một phương pháp mang tên “mixed fine
tuning” (kết hợp giữa fine tuning và multi domain). Nhóm đã huấn luyện mô hình bằng dữ liệu thuộc lĩnh vực đặc thù
và tinh chỉnh mô hình bằng dữ liệu được trộn từ lĩnh vực đặc thù và lĩnh vực khác, để rồi giải quyết được vấn đề quá
khớp (over-fitting) trong việc tinh chỉnh. Công bố [12] đề xuất một phương án nhằm chọn lựa dữ liệu giàu thông tin
trong lĩnh vực đặc thù nhằm tinh chỉnh mô hình của lĩnh vực khác đã được huấn luyện trước đó. Kết quả chứng minh
rằng việc lựa chọn dữ liệu giàu thông tin giúp mô hình đạt được kết quả tốt hơn so với việc chọn lựa dữ liệu một cách
ngẫu nhiên.
Hoàng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh 441
Các nghiên cứu trên đa phần áp dụng với những cặp ngôn ngữ phổ biến như Anh - Pháp, Anh - Nhật, Đức -
Anh,… Gần đây nhóm tác giả [13] đã trình bày một phương pháp nhằm áp dụng dịch máy mạng neural theo chủ đề với
cặp ngôn ngữ Anh - Việt. Nhóm đã dịch các câu tiếng Anh (input) từ miền đặc thù sang các câu tiếng Việt (output)
bằng một mô hình được huấn luyện với dữ liệu trong lĩnh vực tổng quan, s ...