Dịch máy mạng neural Anh - Việt theo chủ đề

Số trang: 7 Loại file: pdf Dung lượng: 523.56 KB Lượt xem: 17 Lượt tải: 0

tailieu_vip

Phí tải xuống: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người.
Nội dung trích xuất từ tài liệu:
Dịch máy mạng neural Anh - Việt theo chủ đề Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0087 DỊCH MÁY MẠNG NEURAL ANH - VIỆT THEO CHỦ ĐỀ Hoàng Trung Chính1, Nguyễn Hồng Bửu Long1, Lương An Vinh2 Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh 1 2 Khoa Công nghệ Thông tin, Đại học Công nghệ Sài Gòn petruschinh@gmail.com, nhblong@fit.hcmus.edu.vn, vinh.luongan@stu.edu.vn TÓM TẮT: Trong những năm gần đây, dịch máy mạng neural đã và đang được áp dụng vào nhiều lĩnh vực khác nhau và đạt được nhiều thành tựu đáng kể. Trong lĩnh vực dịch máy theo chủ đề, mặc dù dịch máy mạng neural đã đạt được nhiều kết quả cao, tuy nhiên, mô hình vẫn cần được huấn luyện bởi nguồn dữ liệu được dịch bởi con người vốn tốn nhiều chi phí và thời gian. Trong bài báo này, chúng tôi nghiên cứu một phương pháp nhằm tăng chất lượng dịch theo chủ đề với nguồn tài nguyên hạn chế. Việc chọn lọc dữ liệu giàu thông tin trước khi tinh chỉnh một mô hình sẵn có giúp đạt được độ chính xác cao hơn so với việc chọn dữ liệu nghèo thông tin, từ đó giúp tiết kiệm chi phí trong việc dịch bởi con người. Cụ thể hơn, chúng tôi thử nghiệm phương pháp chọn lọc mới và đạt được kết quả tốt hơn từ 0,47 đến 2,31 điểm BLEU trong các bộ ngữ liệu Anh - Việt khác nhau. Từ khóa: Dịch máy, dịch máy mạng neural, dịch máy theo chủ đề. I. GIỚI THIỆU Dịch máy mạng neural (Neural Machine Translation - NMT) là một phương pháp dịch máy rất phổ biến trong những năm gần đây, phương pháp này để đạt được kết quả cao đòi hỏi mô hình cần được huấn luyện trên một lượng dữ liệu song ngữ rất lớn. Chất lượng của bản dịch phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu huấn luyện thông thường được dịch bởi con người. Việc tìm nguồn dữ liệu song ngữ vốn đã khó với các chủ đề mang tính phổ thông như tin tức, báo chí,… nhưng trong nhiều chủ đề chuyên môn khác, nguồn dữ liệu lại càng khan hiếm đòi hỏi chi phí rất lớn cho việc xây dựng bộ ngữ liệu chất lượng cao. Nhằm giảm bớt chi phí cũng như tăng hiệu quả của các mô hình dịch máy trong các chủ đề đặc thù, một trong những phương pháp phổ biến thường được sử dụng là tinh chỉnh (fine-tune) [1], [2] một mô hình tiền huấn luyện bằng một lượng nhỏ dữ liệu thuộc chủ đề đặc thù. Ví dụ chúng ta có một mô hình dịch máy được huấn luyện từ một triệu cặp câu song ngữ thuộc chủ đề tin tức. Mô hình này sẽ đạt được kết quả rất cao nếu câu cần dịch (input) thuộc cùng chủ đề tin tức, nhưng kết quả có thể rất thấp nếu thuộc một chủ đề đặc thù nào khác như Pháp luật (vốn đã không được huấn luyện trước đó). Do điều kiện hạn chế về tài nguyên (thời gian, tiền bạc,…) nên không có nhiều dữ liệu về các chủ đề đặc thù trên, do đó phương án tinh chỉnh lại mô hình dịch máy chủ đề tin tức bằng một lượng nhỏ dữ liệu thuộc chủ đề khác (ví dụ: Pháp luật) dễ thực thi hơn do có chi phí thấp hơn. Câu hỏi được đặt ra: vậy lượng nhỏ dữ liệu để tinh chỉnh nên được lựa chọn như thế nào để mô hình đạt được kết quả tốt nhất? Trong bài báo này chúng tôi sẽ trình bày một phương pháp nhằm chọn lọc dữ liệu giàu thông tin để tinh chỉnh mô hình dịch máy sẵn có. Chúng tôi thử nghiệm trên cặp ngôn ngữ Anh - Việt của chủ đề Pháp luật và Biến đổi khí hậu. Kết quả cho thấy phương pháp này có thể thực hiện được với chi phí thấp, hiệu quả cải thiện với chất lượng bản dịch tăng 0,47 đến 2,31 điểm BLEU [3]. Bài báo được trình bày với cấu trúc: Phần I giới thiệu chung. Phần II giới thiệu các nghiên cứu liên quan. Trong phần III chúng tôi trình bày phương pháp đề xuất. Phần IV trình bày các thử nghiệm và kết quả. Kết luận và hướng phát triển được tóm tắt trong phần V. II. CÁC NGHIÊN CỨU LIÊN QUAN Trước đây, các nghiên cứu về dịch máy theo chủ đề [4], [5], [6] được thực hiện bằng phương pháp dịch máy thống kê (Statistical Machine Translation - SMT). Trong những năm gần đây, với sự trỗi dậy của phương pháp dịch máy mạng neural, rất nhiều nghiên cứu [7], [8], [9], [10] chỉ ra rằng dịch máy mạng neural đạt được kết quả tối ưu trong nhiều nhiệm vụ liên quan đến dịch thuật. Có khá nhiều bài báo nghiên cứu về đề tài dịch máy mạng neural theo chủ đề. Nghiên cứu [11] đưa ra một phương pháp nhằm chọn ra những cặp câu song ngữ có nội dung gần với chủ đề mong muốn, sau đó tiến hành huấn luyện trên dữ liệu đó. Cách làm này tương đối đơn giản để có được mô hình nhưng đòi hỏi phải huấn luyện từ đầu, không có sự kế thừa từ những mô hình sẵn có. Nhóm tác giả [1] trình bày một phương pháp mang tên “mixed fine tuning” (kết hợp giữa fine tuning và multi domain). Nhóm đã huấn luyện mô hình bằng dữ liệu thuộc lĩnh vực đặc thù và tinh chỉnh mô hình bằng dữ liệu được trộn từ lĩnh vực đặc thù và lĩnh vực khác, để rồi giải quyết được vấn đề quá khớp (over-fitting) trong việc tinh chỉnh. Công bố [12] đề xuất một phương án nhằm chọn lựa dữ liệu giàu thông tin trong lĩnh vực đặc thù nhằm tinh chỉnh mô hình của lĩnh vực khác đã được huấn luyện trước đó. Kết quả chứng minh rằng việc lựa chọn dữ liệu giàu thông tin giúp mô hình đạt được kết quả tốt hơn so với việc chọn lựa dữ liệu một cách ngẫu nhiên. Hoàng Trung Chính, Nguyễn Hồng Bửu Long, Lương An Vinh 441 Các nghiên cứu trên đa phần áp dụng với những cặp ngôn ngữ phổ biến như Anh - Pháp, Anh - Nhật, Đức - Anh,… Gần đây nhóm tác giả [13] đã trình bày một phương pháp nhằm áp dụng dịch máy mạng neural theo chủ đề với cặp ngôn ngữ Anh - Việt. Nhóm đã dịch các câu tiếng Anh (input) từ miền đặc thù sang các câu tiếng Việt (output) bằng một mô hình được huấn luyện với dữ liệu trong lĩnh vực tổng quan, s ...