Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa
Số trang: 7
Loại file: pdf
Dung lượng: 398.74 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa đề xuất mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa bằng cách thêm tầng ngữ nghĩa vào các kho ngữ liệu hiện tại nhằm nâng cao hiệu quả của các hệ thống khai thác dịch tự động hiện nay.
Nội dung trích xuất từ tài liệu:
Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển 2 MỞ RỘNG KHO NGỮ LIỆU DỊCH TỰ ĐỘNG THEO HƯỚNG NGỮ NGHĨA SEMANTIC ORIENTED EXTENSION FOR MACHINE TRANSLATION CORPORA Đặng Đại Thọ, Huỳnh Công Pháp Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng Email: ddtho.dt@gmail.com, hcphap@gmail.com TÓM TẮT Kho ngữ liệu là tài nguyên ngôn ngữ căn bản và rất cần thiết để phát triển và cải tiến các hệ thống dịch tựđộng. Hiện nay đã tồn tạị rất nhiều kho ngữ liệu dùng cho dịch tự động. Tuy nhiên, việc khai thác chúng còn rấtnhiều hạn chế. Nguyên nhân là các kho ngữ liệu dịch tự động hiện nay chủ yếu tồn tại dưới dạng văn bản hoặccó liên kết các dạng dữ liệu khác như âm thanh, hình ảnh, đồ thị,… mà chưa được tổ chức ở dạng ngữ nghĩa. Vìthế, trong bài báo này, chúng tôi đề xuất mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa bằng cáchthêm tầng ngữ nghĩa vào các kho ngữ liệu hiện tại nhằm nâng cao hiệu quả của các hệ thống khai thác dịch tựđộng hiện nay. Từ khóa: kho ngữ liệu; dịch tự động; ngữ nghĩa; hệ thống khai thác; mở rộng kho ngữ liệu ABSTRACT Corpora play a crucial role in the development and improvement of automatic translation systems. Thereare currently many corpora used in the machine translation (MT) domain. However, exploiting and using thesecorpora are still challenging and limited because of some reasons, of which the main reason is that most corporaare in terms of raw texts or linked to other different kinds of data such as audio, images, graphs.... But they arenot organized into semantic layers. Therefore, in this paper, we want to propose an idea of extending andenlarging corpora by adding to them a semantic layer so that the performance of corpus exploitation systems willbe much improved. Key words: corpus; machine translation; semantic; exploitation system; corpus extension Bất cứ hệ thống dịch tự động hay hệ thống1. Đặt vấn đề khai thác kho ngữ liệu thuộc loại nào cũng đều Dữ liệu dịch tự động, còn gọi là kho ngữ có một quá trình tìm kiếm và so khớp “phần tử”liệu (corpus), là tài nguyên ngôn ngữ căn bản và trong kho ngữ liệu với đầu vào của nó để suyrất cần thiết để phát triển và cải tiến các hệ thống luận và sinh ra đầu ra tương ứng. Chẳng hạn, cácdịch tự động. hệ thống dịch tự động dựa vào tập mẫu sử dụng Hiện nay có nhiều phương pháp phát triển kho ngữ liệu song song.Với mỗi câu đầu vào hệcác hệ thống dịch tự động: dịch theo kinh thống đều tìm kiếm và so khớp với tập dữ liệunghiệm, dịch thống kê, dịch dựa vào tập mẫu, nguồn trong kho ngữ liệu để tìm ra câu ngôn ngữdịch chuyên gia,… Trong đó, mỗi loại hệ thống đích liên kết với câu nguồn mà khớp với đầu vàodịch tự động sử dụng một loại kho ngữ kho liệu của hệ thống. Tương tự như vậy, các hệ tìmkhác nhau. Chẳng hạn, loại hệ thống dịch tự kiếm, hệ hỏi đáp, từ điển… đều phải bao hàmđộng thống kê sử dụng các kho ngữ liệu rất lớn, quá trình này. Điều đó cho thấy quá trình soliên kết ở mức từ (word alignment); loại hệ khớp đầu vào với kho ngữ liệu (cơ sở dữ liệu)thống dịch dựa vào tập mẫu sử dụng kho ngữ của hệ thống khai thác rất quan trọng, quyết địnhliệu có liên kết ở mức câu (sentence alignment) hiệu quả và tính thông minh của một hệ thống.hoặc mức đoạn (paragraph alignement); loại hệ Chính vì vậy mà ngày nay, trong các hệthống dịch chuyên gia sử dụng kho ngữ liệu thống khai thác kho ngữ liệu người ta đã nghiênđược làm giàu bởi nhiều loại thông tin khác nhau cứu, xây dựng nhiều thuật toán tìm kiếm, sonhư âm thanh, ngôn ngữ trung gian (như IF, khớp thông minh giữa đầu vào, dữ liệu trong khoUNL,…) hoặc hình ảnh [2]. ngữ liệu của hệ thống. Tuy nhiên, gần như tất cả110 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển 2các hệ thống hiện nay đều dừng lại ở mức so thực, thông tin URL chỉ nguồn gốc dữ liệu. Cấukhớp dạng chuỗi ký tự hoặc dạng văn bản bằng trúc vật lý của kho ngữ liệu này được mô tả nhưcác thuật toán như tính khoảng cách, tính xác sau:suất, tính tần suất ký tự… Điều này đã hạn chếrất nhiều việc khai thác hiệu quả các kho ngữ JRC - ACQUISliệu. Nguyên nhân là các kho ngữ liệu hiện naychủ yếu tồn tại dưới dạng văn bản h ...
Nội dung trích xuất từ tài liệu:
Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển 2 MỞ RỘNG KHO NGỮ LIỆU DỊCH TỰ ĐỘNG THEO HƯỚNG NGỮ NGHĨA SEMANTIC ORIENTED EXTENSION FOR MACHINE TRANSLATION CORPORA Đặng Đại Thọ, Huỳnh Công Pháp Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng Email: ddtho.dt@gmail.com, hcphap@gmail.com TÓM TẮT Kho ngữ liệu là tài nguyên ngôn ngữ căn bản và rất cần thiết để phát triển và cải tiến các hệ thống dịch tựđộng. Hiện nay đã tồn tạị rất nhiều kho ngữ liệu dùng cho dịch tự động. Tuy nhiên, việc khai thác chúng còn rấtnhiều hạn chế. Nguyên nhân là các kho ngữ liệu dịch tự động hiện nay chủ yếu tồn tại dưới dạng văn bản hoặccó liên kết các dạng dữ liệu khác như âm thanh, hình ảnh, đồ thị,… mà chưa được tổ chức ở dạng ngữ nghĩa. Vìthế, trong bài báo này, chúng tôi đề xuất mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa bằng cáchthêm tầng ngữ nghĩa vào các kho ngữ liệu hiện tại nhằm nâng cao hiệu quả của các hệ thống khai thác dịch tựđộng hiện nay. Từ khóa: kho ngữ liệu; dịch tự động; ngữ nghĩa; hệ thống khai thác; mở rộng kho ngữ liệu ABSTRACT Corpora play a crucial role in the development and improvement of automatic translation systems. Thereare currently many corpora used in the machine translation (MT) domain. However, exploiting and using thesecorpora are still challenging and limited because of some reasons, of which the main reason is that most corporaare in terms of raw texts or linked to other different kinds of data such as audio, images, graphs.... But they arenot organized into semantic layers. Therefore, in this paper, we want to propose an idea of extending andenlarging corpora by adding to them a semantic layer so that the performance of corpus exploitation systems willbe much improved. Key words: corpus; machine translation; semantic; exploitation system; corpus extension Bất cứ hệ thống dịch tự động hay hệ thống1. Đặt vấn đề khai thác kho ngữ liệu thuộc loại nào cũng đều Dữ liệu dịch tự động, còn gọi là kho ngữ có một quá trình tìm kiếm và so khớp “phần tử”liệu (corpus), là tài nguyên ngôn ngữ căn bản và trong kho ngữ liệu với đầu vào của nó để suyrất cần thiết để phát triển và cải tiến các hệ thống luận và sinh ra đầu ra tương ứng. Chẳng hạn, cácdịch tự động. hệ thống dịch tự động dựa vào tập mẫu sử dụng Hiện nay có nhiều phương pháp phát triển kho ngữ liệu song song.Với mỗi câu đầu vào hệcác hệ thống dịch tự động: dịch theo kinh thống đều tìm kiếm và so khớp với tập dữ liệunghiệm, dịch thống kê, dịch dựa vào tập mẫu, nguồn trong kho ngữ liệu để tìm ra câu ngôn ngữdịch chuyên gia,… Trong đó, mỗi loại hệ thống đích liên kết với câu nguồn mà khớp với đầu vàodịch tự động sử dụng một loại kho ngữ kho liệu của hệ thống. Tương tự như vậy, các hệ tìmkhác nhau. Chẳng hạn, loại hệ thống dịch tự kiếm, hệ hỏi đáp, từ điển… đều phải bao hàmđộng thống kê sử dụng các kho ngữ liệu rất lớn, quá trình này. Điều đó cho thấy quá trình soliên kết ở mức từ (word alignment); loại hệ khớp đầu vào với kho ngữ liệu (cơ sở dữ liệu)thống dịch dựa vào tập mẫu sử dụng kho ngữ của hệ thống khai thác rất quan trọng, quyết địnhliệu có liên kết ở mức câu (sentence alignment) hiệu quả và tính thông minh của một hệ thống.hoặc mức đoạn (paragraph alignement); loại hệ Chính vì vậy mà ngày nay, trong các hệthống dịch chuyên gia sử dụng kho ngữ liệu thống khai thác kho ngữ liệu người ta đã nghiênđược làm giàu bởi nhiều loại thông tin khác nhau cứu, xây dựng nhiều thuật toán tìm kiếm, sonhư âm thanh, ngôn ngữ trung gian (như IF, khớp thông minh giữa đầu vào, dữ liệu trong khoUNL,…) hoặc hình ảnh [2]. ngữ liệu của hệ thống. Tuy nhiên, gần như tất cả110 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 12(73).2013, Quyển 2các hệ thống hiện nay đều dừng lại ở mức so thực, thông tin URL chỉ nguồn gốc dữ liệu. Cấukhớp dạng chuỗi ký tự hoặc dạng văn bản bằng trúc vật lý của kho ngữ liệu này được mô tả nhưcác thuật toán như tính khoảng cách, tính xác sau:suất, tính tần suất ký tự… Điều này đã hạn chếrất nhiều việc khai thác hiệu quả các kho ngữ JRC - ACQUISliệu. Nguyên nhân là các kho ngữ liệu hiện naychủ yếu tồn tại dưới dạng văn bản h ...
Tìm kiếm theo từ khóa liên quan:
Kho ngữ liệu Dịch tự động Mở rộng kho ngữ liệu Dữ liệu dịch tự động Hệ thống dịch tự độngGợi ý tài liệu liên quan:
-
Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine
12 trang 106 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 90 0 0 -
6 trang 18 0 0
-
Một số đề xuất hỗ trợ chuyển đổi văn bản tiếng Việt sang văn bản tiếng dân tộc thiểu số ở Việt Nam
5 trang 17 0 0 -
15 trang 13 0 0
-
Gán nhãn từ loại tiếng Việt sử dụng Mô hình Markov ẩn
5 trang 13 0 0 -
5 trang 12 0 0
-
Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt
7 trang 12 0 0 -
29 trang 12 0 0
-
Tác động của các ứng dụng dịch tự động đến hiệu quả học tiếng Việt của người nước ngoài
6 trang 11 0 0