Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt

Số trang: 7 Loại file: pdf Dung lượng: 1.46 MB Lượt xem: 13 Lượt tải: 0

tailieu_vip

Phí lưu trữ: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo này đề xuất ứng dụng giải pháp tách từ sử dụng trí tuệ nhân tạo để chuẩn hóa các kho ngữ liệu, từ đó giúp cải tiến chất lượng của các hệ thống dịch tự động.
Nội dung trích xuất từ tài liệu:
Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt 274 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt Nguyễn Văn Bình1, Huỳnh Công Pháp1, Huỳnh Thị Tâm Thương2 1 Khoa Công nghệ Thông tin và Truyền thông, Đại học Đà Nẵng 2 Ban Khoa học, Công nghệ và Môi trường, Đại học Đà Nẵng nvbinh@sict.udn.vn, hcphap@sict.udn.vn, thuonght2008@gmail.com Abstract. Chất lượng của các hệ thống dịch máy tiếng Việt hiện nay vẫn còn khiêm tốn [8], vì vậy cần tiếp tục nghiên cứu các giải pháp nhằm nâng cao chất lượng của các bản dịch máy. Trong đó, cải tiến kho ngữ liệu là một giải pháp hiệu quả để giúp quá trình huấn luyện đạt hiệu quả và đưa ra các bản dịch tốt hơn. Đã có nhiều nghiên cứu nhằm nâng cao chất lượng và mở rộng số lượng của kho ngữ liệu. Trong bài báo này, tác giả đề xuất ứng dụng giải pháp tách từ sử dụng trí tuệ nhân tạo để chuẩn hóa các kho ngữ liệu, từ đó giúp cải tiến chất lượng của các hệ thống dịch tự động. Keywords: tách từ, kho ngữ liệu, dịch máy, trí tuệ nhân tạo, mạng nơ ron CBOW, skip-gram. 1 Đặt vấn đề Kết quả của quá trình xử lý ngôn ngữ tự nhiên được ứng dụng trong nhiều lĩnh vực đời sống và phục vụ cho các nghiên cứu liên quan đến xử lý văn bản, phân loại văn bản, tóm tắt văn bản, sửa lỗi chính tả, dịch máy… Đặc biệt, tiếng Việt là một ngôn ngữ phức tạp, có nhiều sự nhập nhằng trong ngữ pháp và từ loại, vì vậy các nghiên cứu về xử lý tiếng Việt có vai trò quan trọng giúp nâng cao hiệu quả của các hệ thống nói trên. Trong lĩnh vực dịch máy tiếng Việt, phần lớn các nghiên cứu về cải tiến kho ngữ liệu tập trung giải quyết các vấn đề về tổng hợp và trích rút dữ liệu để xây dựng kho ngữ liệu, hợp nhất và làm giàu kho ngữ liệu [9], chú thích từ loại [4]… Do đặc điểm của tiếng Việt mỗi từ chứa một hoặc nhiều âm tiết, vì vậy nếu phân biệt rõ ranh giới giữa các từ thì sẽ giảm bớt tính nhập nhằng của ngữ nghĩa, xác định từ loại sẽ chính xác hơn, từ đó giúp quá trình xử lý và huấn luyện dữ liệu đạt hiệu quả tốt. Đối với bất kỳ mô hình dịch máy nào, chẳng hạn mô hình dịch thống kê hoặc mô hình dịch máy sử dụng mạng nơ ron, quá trình tiền xử lý dữ liệu kết hợp tách từ vựng sẽ làm giảm kích thước của bộ từ điển, tăng tính chính xác khi gióng hàng và giúp cải tiến chất lượng của bản dịch máy. Một số phương pháp tách từ (word segmentation) tiếng Việt đã được nghiên cứu và ứng dụng, trong đó nổi bật nhất là ứng dụng vnTokenizer [3] và Đông Du [4]. Trong bài báo này, tác giả đề xuất sử dụng trí tuệ nhân tạo để tự động nhận dạng các từ ghép thông qua mạng nơ ron, sử dụng mô hình CBOW và Skip-gram để biểu diễn từ sang vector (Word2Vec). Với giải pháp này, chúng ta có thể tận dụng nguồn dữ liệu tiếng Việt vô tận từ các tài liệu điện tử để giúp hệ thống tự động học và nhận dạng ranh giới giữa các từ một cách hiệu quả. Nguyễn Văn Bình, Huỳnh Công Pháp, Huỳnh Thị Tâm Thương 275 2 Tổng quan về các nghiên cứu về phương pháp tách từ 2.1 Giới thiệu bài toán tách từ Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết). Như vậy, khoảng trống giữa các từ không có vai trò làm ranh giới để phân tách các từ. Mỗi từ có thể là một từ đơn hoặc gồm nhiều từ đơn ghép lại. Vì vậy, trong các vấn đề xử lý ngôn ngữ tiếng Việt như xác định ngữ pháp, phân loại từ loại… không thể bỏ qua quá trình tách từ. Tuy nhiên đây là một bài toán khó giải quyết. Đối với các ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Đức việc tách từ được thực hiện khá đơn giản dựa vào các ký tự phân cách như: khoảng trắng, ký tự tab, các dấu câu, dấu ngoặc, v.v. Ngược lại, đối với tiếng Việt cũng như một số ngôn ngữ châu Á khác như tiếng Trung Quốc, tiếng Nhật Bản… khoảng trắng ngoài việc ngăn cách các từ với nhau, còn được dùng để ngăn cách các âm tiết (syllable) của một từ ghép. Có nhiều phương pháp đã được nghiên cứu để phân tách ranh giới của các từ phục vụ cho các bài toán xử lý ngôn ngữ tự nhiên. Dựa trên đặc điểm của từ kết hợp với cách tiếp cận khác nhau, các phương pháp tách từ này có thể chia thành ba nhóm chính: dựa trên từ điển, dựa trên thống kê và phương pháp lai. 2.2 Các phương pháp tách từ - Tiếp cận dựa trên từ điển: Ý tưởng chính của phương pháp tách từ dựa trên từ điển là từ một từ điển sẵn có, thực hiện so khớp từng âm tiết trong văn bản với các từ có trong từ điển. Tuỳ vào cách thức so khớp mà ta có các phương pháp khác nhau như: so khớp từ dài nhất, so khớp từ ngắn nhất, so khớp chồng lắp và so khớp cực đại [1]. Độ chính xác của phương pháp dựa trên từ điển phụ thuộc rất lớn vào kích thước từ điển được xây dựng. Với đặc điểm là không cần phải có bước huấn luyện nên thời gian xử lý của phương pháp này tương đối nhanh, đơn giản và dễ hiểu. Tuy nhiên, phương pháp này sẽ khó có thể xử lý được các tình huống nhập nhằng cũng như xử lý tình huống xuất hiện từ mới không tồn tại trong từ điển. - Tiếp cận dựa trên thống kê: Với cách tiếp cận dựa trên thống kê, các giải pháp cho việc tách từ thông thường dựa trên mô hình ngôn ngữ (language mode). Một LM thường được xây dựng dựa trên việc thu thập thống kê số lần xuất hiện hoặc đồng xuất hiện của các từ trong một tập lớp các văn bản. - Phương pháp tách từ sử dụng mô hình trường xác suất có điều kiện và độ hỗn loạn cực đại: Với phương pháp tách từ sử dụng mô hình trường xác suất có điều kiện (CRFs) và độ hỗn loạn cực đại (MaxEnt), bài toán tách từ được xem như là công việc gán nhãn cho một dãy các từ. Một từ đơn tiếng Việt mà đứng đầu một từ ghép được gắn nhãn B\_W, một từ đơn nằm trong một từ ghép được gán nhãn I\_W và những thứ khác ví dụ như dấu phẩy, dấu chấm được gán nhãn O (Outside of a word). Bài toán nhằ ...