Danh mục

Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy

Số trang: 5      Loại file: pdf      Dung lượng: 690.75 KB      Lượt xem: 7      Lượt tải: 0    
Hoai.2512

Phí tải xuống: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học máy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc Doc2vec.
Nội dung trích xuất từ tài liệu:
Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máyISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 05(114).2017-Quyển 2 31 BIỂU DIỄN NGỮ CẢNH TRONG KHAI TRIỂN CHỮ VIẾT TẮT DÙNG TIẾP CẬN HỌC MÁY REPRESENTING CONTEXT IN ABBREVIATION EXPANSION USING MACHINE LEARNING APPROACH Ninh Khánh Duy, Nguyễn Văn Quý Trường Đại học Bách khoa, Đại học Đà Nẵng; nkduy@dut.udn.vn, quynguyen3490@gmail.comTóm tắt - Chuẩn hóa văn bản là bài toán rất cần thiết trong các Abstract - Text normalization is an essential problem inứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu applications involving natural language processing since the inputvào thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số, text often contains non-standard words such as abbreviations,và từ ngữ nước ngoài. Bài báo này giải quyết vấn đề chuẩn hóa numbers, and foreign words. This paper deals with the problem ofchữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai normalizing abbreviations in Vietnamese text when there aretriển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học several possible expansions of an abbreviation. To disambiguatemáy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt the abbreviation expansions, the machine learning approach isđược biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc used, in which contextual information of abbreviations isDoc2vec. Các thử nghiệm với bộ phân lớp Naïve Bayes trên một represented by either of the two models: Bag-of-words or Doc2vec.bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai Experiments with Naïve Bayes classifier on a dataset oftriển đúng trung bình của hai mô hình Bag-of-words và Doc2vec abbreviations collected by us show that the average ratios oflần lượt là 86,0% và 79,7%. Kết quả thực nghiệm cũng cho thấy expanding correctly for Bag-of-words and Doc2vec are 86.0% andthông tin ngữ cảnh đóng vai trò quan trọng trong việc lựa chọn khai 79.7%, respectively. Experimental results also show thattriển đúng cho một chữ viết tắt. contextual information plays an important role in the correct expansion of an abbreviation.Từ khóa - chuẩn hóa văn bản; khai triển chữ viết tắt; biểu diễn ngữ Key words - text normalization; abbreviation expansion; contextcảnh; mô hình Bag-of-words; mô hình Doc2vec; học máy representation; Bag-of-words model; Doc2vec model; machine learning1. Đặt vấn đề đề xuất thuật toán khai triển CVT như trong Hình 1. Ý Chuẩn hóa văn bản là một vấn đề cần thiết trong các tưởng của thuật toán này là ưu tiên tìm kiếm khai triểnứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản trong lân cận của CVT trong văn bản, nếu không tìm thấycần xử lý thường chứa những từ không chuẩn (non- thì sẽ tìm kiếm trong từ điển CVT. Nếu có nhiều hơn mộtstandard words) như chữ số, ngày tháng, chữ viết tắt, đơn khai triển trong từ điển thì xử lý nhập nhằng để tìm ra đượcvị tiền tệ, và từ ngữ nước ngoài [1]. Trong nhiều ứng dụng, khai triển tối ưu. Do bài toán tìm kiếm đã được khảo sátchúng ta cần phải chuẩn hóa những từ không chuẩn này nhiều trong các nghiên cứu trước, chúng tôi chỉ tập trungbằng cách thay thế chúng bằng những từ phù hợp với ngữ giải quyết vấn đề khử nhập nhằng khi có nhiều khai triểncảnh. Tuy nhiên, việc này không dễ dàng do các từ không cho một CVT trong bài báo này. Một ví dụ điển hình làchuẩn thường có xu hướng nhập nhằng về ngữ nghĩa hoặc chọn lựa một trong hai khai triển, “bài hát yêu thích” haycách phát âm cao hơn so với các từ thông thường. Do đó, “bảo hiểm y tế”, để chuẩn hóa cho CVT “BHYT”.cần phát triển các thuật toán thông minh để giải quyết bàitoán chuẩn hóa văn bản. Gần đây đã có một vài nghiên cứu về chuẩn hóa vănbản tiếng Việt, chủ yếu phục vụ cho các hệ thống chuyểnvăn bản thành tiếng nói [2] [3]. Các nghiên cứu này đã đưara các giải pháp chuẩn hóa cho tất cả các lớp từ khôngchuẩn của tiếng Việt. Tuy nhiên, việc phải xử lý nhiều lớptừ không chuẩn trong phạm vi một nghiên cứu làm chophương pháp và kết quả chuẩn hóa cho một lớp từ cụ thểkhông được trình bày rõ ràng và thuyết phục. Điều này đặcbiệt đúng với chữ viết tắt (CVT), một lớp từ không chuẩnđược dùng khá phổ biến trong các văn bản tiếng V ...

Tài liệu được xem nhiều: