Danh mục

Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu

Số trang: 8      Loại file: pdf      Dung lượng: 880.33 KB      Lượt xem: 37      Lượt tải: 0    
tailieu_vip

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nghiên cứu đề suất hướng tiếp cận học sâu cho bài “Dóng hàng tự động ở mức từ” ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh 10.000 cặp cậu được dóng hàng thủ công.
Nội dung trích xuất từ tài liệu:
Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0094 DÓNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU Lê Hoài Bảo1, Trịnh Vũ Minh Hùng1, Hoàng Khuê1, Lê Thanh Tùng2 1 Khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh 2 Công an tỉnh Quảng Bình 1712049@student.hcmus.edu.vn, 17l2005@student.hcmus.edu.vn, hkhue@mso.hcmus.edu.vn, tungleqb@gmail.com TÓM TẮT: Ngày nay với lượng dữ liệu ngôn ngữ (text, voice) khổng lồ từ internet, đặt ra nhiều bài toán về Xử lý ngôn ngữ tự nhiên. Trong đó “Dóng hàng tự động ở mức từ”cho cặp song ngữ. Nó là một trong những bài toán cơ bản, ảnh hưởng trực tiếp đến độ chính xác cũng như hiệu quả, là đầu vào cho các bài toán còn lại như: “Dịch máy tự động; tóm tắt văn bản; gán nhãn từ loại” của các bài toán khác. Tuy nhiên các hướng nghiên cứu “Dóng hàng tự động ở mức từ”cho cặp song ngữ Việt - Anh hầu như không có đột phá nào ngoài sử dụng các thành tựu của máy học thống kê (mô hình IBM model 1-5, và mô hình HMM) có nhiều hạn chế khi áp dụng trong nghiên cứu ngôn ngữ học. Do đó nhóm nghiên cứu đề suất hướng tiếp cận học sâu cho bài “Dóng hàng tự động ở mức từ” ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh 10.000 cặp cậu được dóng hàng thủ công. Chúng tôi hi vọng với mô hình đề xuất sẽ giúp ích cho những nhà ngôn ngữ học cũng có thể dễ dàng sử dụng “học sâu” khi nghiên cứu các đề tài liên quan đến ngôn ngữ học đối chiếu. Từ khóa: Deep learning, Word alignment, Parallel corpus, Web application. I. GIỚI THIỆU Bài toán “Dóng hàng mức từ” cho các cặp song ngữ đang được rất nhiều nhóm nghiên cứu trên thế giới thực hiện. Tuy nhiên, hầu hết các nhóm đều dựa trên cách tiếp cận thống kê với nền tảng là mô hình IBM1-5 và HMM. Gần đây Deep Learning đã được áp dụng rất nhiều vào các bài toán Xử lý ngôn ngữ tự nhiên và cho ra kết quả rất cao, ví dụ như áp dụng mô hình hồi quy Recurrent Neural Network cho bài toán dóng hàng được công bố bởi Tamura, Akihiro và các cộng sự [1]. Tại Việt Nam, bài toán dóng hàng mức từ cho cặp song ngữ Anh - Việt theo cách tiếp cận học sâu chưa được thực hiện. Hầu như để thực hiện nhiệm vụ dóng hàng cho cặp song ngữ bất kì, các nhóm nghiên cứu tại Việt Nam thường sử dụng Giza++ để giải quyết vấn đề trên. Tuy nhiên, Giza++ không cho kết quả cao với bộ ngữ liệu nhỏ (căn cứ vào kết quả thực nghiệm ở Phần IV mục A). Nhận thấy được sự thiếu sót và tầm quan trọng của bài toán được nêu trên, chúng tôi quyết định nghiên cứu mô hình “Dóng hàng tự động mức từ cho cặp song ngữ Anh-Việt theo cách tiếp cận học sâu”. Và công bố bộ ngữ liệu vàng cho cặp song ngữ Anh-Việt bao gồm 10000 cặp câu đã được dóng hàng mức từ. Trong phạm vi bài báo, chúng tôi đề xuất một hướng tiếp cận mới cho bài toán Dóng hàng mức từ cho cặp ngôn ngữ Anh - Việt. Mà ở đó độ chính xác sẽ vượt trội so với các công bố trước đó khi sử dụng các phương pháp thống kê cổ điển. Cấu trúc mô hình:  Dữ liệu đầu vào: một cặp câu song ngữ Anh - Việt, với một câu là ngôn ngữ nguồn và một câu là ngôn ngữ đích.  Dữ liệu đầu ra là cặp câu song ngữ Anh - Việt đã được đánh chỉ số dóng hàng mức từ. Giả sử ta có cặp câu sau, với là các bản dịch của nhau trong đó: , - là danh sách các từ trong câu nguồn. , - là danh sách các từ trong câu đích. Ta có môt danh sách các chỉ số dóng hàng như sau: , - * + Khi đó: * + là liên kết giữa từ thứ trong câu nguồn với với vị trí thứ trong câu đích. II. XÂY DỰNG NGỮ LIỆU A. Lý do xây dựng Ngữ liệu là tham số đầu vào đối với tất cả các mô hình học máy. Do đó việc xây dựng bộ ngữ liệu tốt, sẽ giúp cho việc huấn luyện mô hình đạt kết quả cao. 492 DÒNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU B. Các bước xây dựng Hình 1. Sơ đồ các bước xây dựng bộ ngữ liệu vàng Bộ ngữ liệu vàng được xây dựng dựa trên các bước chính sau: Bước 1: Khai thác ngữ liệu từ kho ngữ liệu song song CLC 8L của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM. Bước 2: Tiền xử lý ngữ liệu thu thập được ở bước 1. Bước 3: Đánh chỉ số dóng hàng mức từ bán thủ công dựa trên kết quả của GIZA++. Bước 4: Tổng hợp ngữ liệu theo từng cặp câu. C. Quy trình thực hiện chi tiết  Khai thác ngữ liệu Ngữ liệu được lấy từ kho ngữ liệu song song đa ngữ CLC 8L[9] của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM. Từ giờ chúng tôi sẽ gọi tắt là bộ ngữ liệu CLC 8L. Bộ ngữ liệu CLC 8L được xây dựng từ dữ liệu mở TED trên 8 ngôn ngữ phổ biến trong top 20 hiện nay: Việt Nam; Anh; Pháp; Trung Quốc (giản thể); Nhật Bản; Hàn Quốc; Đức; Nga. Kho ngữ liệu CLC 8L được tổ chức thành 8 file *.txt tương ứng cho mỗi ngôn ngữ. Trong đó khi lấy ra bất kì 1 câu tại một file txt (ngôn ngữ) bất kì ở 1 dòng bất kì; thì ở dòng tương ứng ở 7 file còn lại (8 ngôn ngữ còn lại) đều là các câu song song về ngữ nghĩa. bộ ngữ liệu CLC 8L có kích thước 57.044 câu cho mỗi ngôn ngữ.  Tiền xử lý ngữ liệu Quá trình tiền xử lý gồm có hai ...

Tài liệu được xem nhiều:

Tài liệu cùng danh mục:

Tài liệu mới: