Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Dóng hàng tự động mức từ cho song ngữ Anh - Việt sử dụng cách tiếp cận học sâu Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0094 DÓNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU Lê Hoài Bảo1, Trịnh Vũ Minh Hùng1, Hoàng Khuê1, Lê Thanh Tùng2 1 Khoa Công nghệ thông tin, Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh 2 Công an tỉnh Quảng Bình 1712049@student.hcmus.edu.vn, 17l2005@student.hcmus.edu.vn, hkhue@mso.hcmus.edu.vn, tungleqb@gmail.com TÓM TẮT: Ngày nay với lượng dữ liệu ngôn ngữ (text, voice) khổng lồ từ internet, đặt ra nhiều bài toán về Xử lý ngôn ngữ tự nhiên. Trong đó “Dóng hàng tự động ở mức từ”cho cặp song ngữ. Nó là một trong những bài toán cơ bản, ảnh hưởng trực tiếp đến độ chính xác cũng như hiệu quả, là đầu vào cho các bài toán còn lại như: “Dịch máy tự động; tóm tắt văn bản; gán nhãn từ loại” của các bài toán khác. Tuy nhiên các hướng nghiên cứu “Dóng hàng tự động ở mức từ”cho cặp song ngữ Việt - Anh hầu như không có đột phá nào ngoài sử dụng các thành tựu của máy học thống kê (mô hình IBM model 1-5, và mô hình HMM) có nhiều hạn chế khi áp dụng trong nghiên cứu ngôn ngữ học. Do đó nhóm nghiên cứu đề suất hướng tiếp cận học sâu cho bài “Dóng hàng tự động ở mức từ” ở cặp song ngữ Việt - Anh. Kết quả nghiên cứu là mô hình được huấn luyện trên bộ ngữ liệu song ngữ Việt - Anh 10.000 cặp cậu được dóng hàng thủ công. Chúng tôi hi vọng với mô hình đề xuất sẽ giúp ích cho những nhà ngôn ngữ học cũng có thể dễ dàng sử dụng “học sâu” khi nghiên cứu các đề tài liên quan đến ngôn ngữ học đối chiếu. Từ khóa: Deep learning, Word alignment, Parallel corpus, Web application. I. GIỚI THIỆU Bài toán “Dóng hàng mức từ” cho các cặp song ngữ đang được rất nhiều nhóm nghiên cứu trên thế giới thực hiện. Tuy nhiên, hầu hết các nhóm đều dựa trên cách tiếp cận thống kê với nền tảng là mô hình IBM1-5 và HMM. Gần đây Deep Learning đã được áp dụng rất nhiều vào các bài toán Xử lý ngôn ngữ tự nhiên và cho ra kết quả rất cao, ví dụ như áp dụng mô hình hồi quy Recurrent Neural Network cho bài toán dóng hàng được công bố bởi Tamura, Akihiro và các cộng sự [1]. Tại Việt Nam, bài toán dóng hàng mức từ cho cặp song ngữ Anh - Việt theo cách tiếp cận học sâu chưa được thực hiện. Hầu như để thực hiện nhiệm vụ dóng hàng cho cặp song ngữ bất kì, các nhóm nghiên cứu tại Việt Nam thường sử dụng Giza++ để giải quyết vấn đề trên. Tuy nhiên, Giza++ không cho kết quả cao với bộ ngữ liệu nhỏ (căn cứ vào kết quả thực nghiệm ở Phần IV mục A). Nhận thấy được sự thiếu sót và tầm quan trọng của bài toán được nêu trên, chúng tôi quyết định nghiên cứu mô hình “Dóng hàng tự động mức từ cho cặp song ngữ Anh-Việt theo cách tiếp cận học sâu”. Và công bố bộ ngữ liệu vàng cho cặp song ngữ Anh-Việt bao gồm 10000 cặp câu đã được dóng hàng mức từ. Trong phạm vi bài báo, chúng tôi đề xuất một hướng tiếp cận mới cho bài toán Dóng hàng mức từ cho cặp ngôn ngữ Anh - Việt. Mà ở đó độ chính xác sẽ vượt trội so với các công bố trước đó khi sử dụng các phương pháp thống kê cổ điển. Cấu trúc mô hình: Dữ liệu đầu vào: một cặp câu song ngữ Anh - Việt, với một câu là ngôn ngữ nguồn và một câu là ngôn ngữ đích. Dữ liệu đầu ra là cặp câu song ngữ Anh - Việt đã được đánh chỉ số dóng hàng mức từ. Giả sử ta có cặp câu sau, với là các bản dịch của nhau trong đó: , - là danh sách các từ trong câu nguồn. , - là danh sách các từ trong câu đích. Ta có môt danh sách các chỉ số dóng hàng như sau: , - * + Khi đó: * + là liên kết giữa từ thứ trong câu nguồn với với vị trí thứ trong câu đích. II. XÂY DỰNG NGỮ LIỆU A. Lý do xây dựng Ngữ liệu là tham số đầu vào đối với tất cả các mô hình học máy. Do đó việc xây dựng bộ ngữ liệu tốt, sẽ giúp cho việc huấn luyện mô hình đạt kết quả cao. 492 DÒNG HÀNG TỰ ĐỘNG MỨC TỪ CHO SONG NGỮ ANH - VIỆT SỬ DỤNG CÁCH TIẾP CẬN HỌC SÂU B. Các bước xây dựng Hình 1. Sơ đồ các bước xây dựng bộ ngữ liệu vàng Bộ ngữ liệu vàng được xây dựng dựa trên các bước chính sau: Bước 1: Khai thác ngữ liệu từ kho ngữ liệu song song CLC 8L của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM. Bước 2: Tiền xử lý ngữ liệu thu thập được ở bước 1. Bước 3: Đánh chỉ số dóng hàng mức từ bán thủ công dựa trên kết quả của GIZA++. Bước 4: Tổng hợp ngữ liệu theo từng cặp câu. C. Quy trình thực hiện chi tiết Khai thác ngữ liệu Ngữ liệu được lấy từ kho ngữ liệu song song đa ngữ CLC 8L[9] của Trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM. Từ giờ chúng tôi sẽ gọi tắt là bộ ngữ liệu CLC 8L. Bộ ngữ liệu CLC 8L được xây dựng từ dữ liệu mở TED trên 8 ngôn ngữ phổ biến trong top 20 hiện nay: Việt Nam; Anh; Pháp; Trung Quốc (giản thể); Nhật Bản; Hàn Quốc; Đức; Nga. Kho ngữ liệu CLC 8L được tổ chức thành 8 file *.txt tương ứng cho mỗi ngôn ngữ. Trong đó khi lấy ra bất kì 1 câu tại một file txt (ngôn ngữ) bất kì ở 1 dòng bất kì; thì ở dòng tương ứng ở 7 file còn lại (8 ngôn ngữ còn lại) đều là các câu song song về ngữ nghĩa. bộ ngữ liệu CLC 8L có kích thước 57.044 câu cho mỗi ngôn ngữ. Tiền xử lý ngữ liệu Quá trình tiền xử lý gồm có hai ...
Tìm kiếm theo từ khóa liên quan:
Mô hình dóng hàng Bài toán dóng hàng mức từ Bộ ngữ liệu song ngữ Việt - Anh Bài toán xử lý ngôn ngữ tự nhiên Mô hình hồi quy Recurrent Neural NetworkTài liệu cùng danh mục:
-
62 trang 388 3 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 369 6 0 -
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 3 - Hệ điều hành Windowns XP
39 trang 318 0 0 -
Phương pháp truyền dữ liệu giữa hai điện thoại thông minh qua môi trường ánh sáng nhìn thấy
6 trang 307 0 0 -
Đề cương chi tiết học phần Cấu trúc dữ liệu và giải thuật (Data structures and algorithms)
10 trang 299 0 0 -
Đáp án đề thi học kỳ 2 môn cơ sở dữ liệu
3 trang 288 1 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - TS. Nguyễn Hoàng Sơn
158 trang 279 0 0 -
PHÂN TÍCH THIẾT KẾ HỆ THỐNG XÂY DỰNG HỆ THỐNG ĐẶT VÉ TÀU ONLINE
43 trang 276 2 0 -
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 265 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 247 0 0
Tài liệu mới:
-
Khảo sát tình trạng dinh dưỡng trước mổ ở người bệnh ung thư đại trực tràng
9 trang 21 0 0 -
94 trang 19 0 0
-
Tham vấn Thanh thiếu niên - ĐH Mở Bán công TP Hồ Chí Minh
276 trang 20 0 0 -
Kết hợp luân phiên sóng T và biến thiên nhịp tim trong tiên lượng bệnh nhân suy tim
10 trang 19 0 0 -
Đề thi giữa học kì 1 môn Ngữ văn lớp 9 năm 2024-2025 có đáp án - Trường THCS Nguyễn Trãi, Thanh Khê
14 trang 21 0 0 -
Đánh giá hiệu quả giải pháp phát triển thể chất cho sinh viên Trường Đại học Kiến trúc Hà Nội
8 trang 20 0 0 -
Tỉ lệ và các yếu tố liên quan đoạn chi dưới ở bệnh nhân đái tháo đường có loét chân
11 trang 20 0 0 -
39 trang 19 0 0
-
Đề thi học kì 1 môn Tiếng Anh lớp 6 năm 2024-2025 có đáp án - Trường TH&THCS Quang Trung, Hội An
6 trang 19 1 0 -
Tôm ram lá chanh vừa nhanh vừa dễRất dễ làm, nhanh gọn mà lại ngon. Nhà mình
7 trang 19 0 0