Danh mục

Xây dựng tự động từ điển Việt - Anh và ứng dụng trong lĩnh vực du lịch

Số trang: 9      Loại file: pdf      Dung lượng: 682.01 KB      Lượt xem: 7      Lượt tải: 0    
10.10.2023

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (9 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên, như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ. Bài viết trình bày một phương pháp xây dựng tự động từ điển song ngữ và ứng dụng phương pháp này để xây dựng tự động từ điển song ngữ Việt - Anh miền du lịch.
Nội dung trích xuất từ tài liệu:
Xây dựng tự động từ điển Việt - Anh và ứng dụng trong lĩnh vực du lịchKỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019DOI: 10.15625/vap.2019.00073 XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN VIỆT - ANH VÀ ỨNG DỤNG TRONG LĨNH VỰC DU LỊCH Nguyễn Tiến Hà1, Nguyễn Thị Minh Huyền2 1,2 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội tienhapt@gmail.com, huyenntm@hus.edu.vnTÓM TẮT: Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữtự nhiên, như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ, … Việc xây dựng từ điển có thể được thực hiệnnhờ các phương pháp thu thập thủ công và/hoặc khai thác từ nguồn ngữ liệu song ngữ. Trong khi kho ngữ liệu song ngữ có giónghàng mức câu được mở rộng liên tục nhờ các phương pháp xây dựng bán tự động và tự động, việc tận dụng nguồn tài nguyên nàyđể tự động làm giàu từ điển song ngữ cho phép chúng ta thu được kho từ vựng song ngữ ngày càng giá trị. Trong bài báo này,chúng tôi trình bày một phương pháp xây dựng tự động từ điển song ngữ và ứng dụng phương pháp này để xây dựng tự động từđiển song ngữ Việt - Anh miền du lịch.Từ khóa: Từ điển; Từ điển Anh-Việt; Từ điển song ngữ; Trích rút cụm từ song ngữ; Xây dựng kho ngữ liệu song ngữ; Kho ngữ liệusong ngữ. I. GIỚI THIỆU Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lýngôn ngữ tự nhiên. Hiện nay các phương pháp xây dựng từ điển song ngữ đều là thủ công hoặc bán tự động và chưakhai thác được kho ngữ liệu song ngữ gióng hàng mức câu được cập nhật, bổ sung mở rộng từng ngày. Các phương pháp xây dựng từ điển song ngữ tiếng Việt với một ngôn ngữ khác đã được đề xuất chủ yếu khaithác tài nguyên từ các cuốn từ điển song ngữ đã được xuất bản, chẳng hạn như trong công trình của Văn Ngọc Sang vàcộng sự công bố năm 2007 về xây dựng từ điển song ngữ Việt-Jrai, Jrai-Việt[1] và công trình công bố năm 2014[2] vềxây dựng từ điển điện tử Chăm - Việt từ việc khai thác cuốn từ điển Chăm - Việt đã được xuất bản. Các phương phápđã được đề xuất chưa khai thác được kho ngữ liệu song ngữ gióng hàng mức câu, đồng thời chưa có phương pháp xâydựng tự động. Đặc biệt các phương pháp xây dựng từ điển song ngữ Việt-Anh đã được đề xuất khi được vận dụng vàoxây dựng từ điển song ngữ tiếng Việt với một thứ tiếng bất kỳ thì gặp rất nhiều khó khăn [1], [2]. Trong bài báo này, chúng tôi đề xuất một phương pháp xây dựng tự động từ điển song ngữ Việt - Anh, mộtphương pháp mà có thể áp dụng cho một cặp ngôn ngữ bất kỳ và phương pháp xây dựng tự động từ điển song ngữ Việt- Anh miền du lịch, một phương pháp mà có thể áp dụng xây dựng từ điển cho bất cứ miền dữ liệu nào. Đóng góp của bài báo: 1) Đề xuất phương pháp xây dựng tự động từ điển song ngữ, áp dụng cụ thể cho cặp ngôn ngữ Việt - Anh. 2) Đề xuất phương pháp xây dựng tự động từ điển từ vựng song ngữ chuyên ngành, cụ thể là từ vựng miền vănbản du lịch. Các phần tiếp theo của bài báo là: Mục II trình bày các công trình có liên quan; Mục III trình bày phương phápxây dựng tự động từ điển song ngữ Việt - Anh; Mục IV trình bày phương pháp xây dựng tự động từ điển song ngữViệt-Anh trên miền du lịch; Mục V trình bày thực nghiệm và phân tích kết quả; Mục VI trình bày kết luận và hướngnghiên cứu tiếp theo. II. CÁC CÔNG TRÌNH CÓ LIÊN QUAN Xuất phát từ sự cần thiết của từ điển song ngữ, các nhà nghiên cứu đã sớm tìm cách xây dựng nó. Hiện có nhiềucông trình nghiên cứu đề xuất các phương pháp xây dựng từ điển song ngữ, chẳng hạn: Saba Amsalu(2006)[4] đã đề xuất phương pháp thu thập từ vựng song ngữ Amharic-Anh hướng dữ liệu sửdụng mô hình thống kê. Các phương pháp thống kê thuần túy của phân bố thuật ngữ được sử dụng như là cơ sở để tìmtương quan giữa các thuật ngữ. Một lược đồ tính điểm cho các cặp từ được tạo lập dựa vào các thuộc tính phân bố củatừ. Sau đó dựa vào một giá trị ngưỡng nào đó để trích rút các cặp từ vựng song ngữ.Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 569 Lavecchia Caroline , Smaïli Kamel và Langlois David(2007)[5] đã đề xuất một phương pháp xây dựng từđiển song ngữ từ phụ đề phim. Đầu tiên họ xây dự kho ngữ liệu song ngữ phụ đề phim với 32720 cặp phụ đề đượcgióng hàng với độ chính xác 94%, sau đó dữ liệu này được đưa vào xây dựng từ điển dựa vào inter-lingual trigger vớiInter-lingual trigger là một danh sách bao gồm từ ở ngôn ngữ nguồn và các từ có tương quan nhất ở ngôn ngữ đích. Từnguồn và n từ đích có tương quan tốt nhất trong Inter-lingual trigger được đưa vào từ điển. Davor Blažekovic, Maja Matetic và Marija Brkic (2009)[6] đã đề xuất một kỹ thuật xây dựng từ điển cácthuật ngữ kỹ thuật. Đầu vào là văn bản Croatia trong lĩnh vực kỹ thuật, từ điển được thực hiện như là một cây AVL vớicấu trúc dữ liệu được tạo ra bởi các nhà toán học Adelson, Velskii và Landis[3]. một cây nhị phân mà đảm bảo hiệusuất của các thao tác như chèn và tìm kiếm trong khoảng thời gian logarit. Các nút của cây chứa các từ được gán nhãntừ loại. Nhãn từ loại có được bằng cách sử dụng từ điển hình thái Croatia, thông tin từ loại cho phép lọc nhiễu trongtìm kiếm các cụm từ thường hay đi cùng với nhau để đưa vào xây dựng từ điển. Ajay Dubey and Vasudeva Varma(2013)[7] đã đề xuất một phương pháp xây dựng tự động từ điển song ngữAnh-Hindi từ việc khai thác các thuộc tính cấu trúc của văn bản. Đầu tiên nhóm tác giả xây dựng một từ điển nhỏ sửdụng phương pháp kết hợp từ và phiên âm, sau đó sử dụng từ điển này để tìm r ...

Tài liệu được xem nhiều: