Danh mục

Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng Việt

Số trang: 7      Loại file: pdf      Dung lượng: 631.49 KB      Lượt xem: 37      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt, góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể.
Nội dung trích xuất từ tài liệu:
Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng ViệtKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00232 XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT Lê Công Cảnh1, Tiêu Vĩnh Phong1, Lương An Vinh2, Huỳnh Quang Đức3 1 Trường Đại học Khoa học Tự nhiên, ĐHQG-TP.HCM 2 Trường Đại học Công nghệ Sài Gòn 3 Khoa Công nghệ thông tin, Robot và Trí tuệ nhân tạo, Trường Đại học Bình Dương TÓM TẮT: n nh n ng tha chiếu là ột v n ề uan t ng t ng ngành l ngôn ng t nhiên N c ứng dụng ộng i t ng việc y d ng hệ thống t ả l i t ộng t ch u t thông tin uy nhiên t ng tiếng iệt bài t a n này g hảinhiều th ch thức d t nh hức t c a ngôn ng tiếng iệt và hông c ầy bộ ng liệu hả t ng h vi bài b nàych ng tôi t nh bày u t nh y d ng bộ ng liệu hu n luyện về ng tha chiếu tiếng iệt d a t ên bộ ng liệu hu n luyện tiếngAnh P eC thông ua h ơng h chiếu nh n t ên ng ng Kết uả cuối c ng ch ng tôi y d ng bộ ng liệu tiếng iệt ghơn 9800 c u t ch từ 502 n hội th i cuộc ống hằng ngày c g n nh n ng tha chiếu Bộ ng liệu này c th dùng làmng liệu ầu và ch c c nghiên cứu liên quan nh n ng tha chiếu t ng tiếng iệt. Từ khóa: G n nh n ng tha chiếu t ng tiếng iệt, l ngôn ng t nhiên, chiếu nhãn trên song ng tiếng Anh. I. GIỚI THIỆU Gán nhãn đồng tham chiếu là một trong những bài toán nhiều thách thức và nhận được sự quan tâm của hầu hếtcác nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ứng dụng của bài toán quan hệ đồng tham chiếu trongtiếng Việt ở lĩnh vực xử lý ngôn ngữ tự nhiên có nhiều ứng dụng khác nhau như: Trích xuất thông tin (Informationextraction), hỏi đáp tự động (Question answering), tóm tắt văn bản (Summarization), … Ví dụ về đồng tham chiếu trong tiếng Việt: Ví dụ 1: Hoàng là inh viên c a T ng Đ i h c Kh a h c nhiên Ng ài gi h c cậu còn là thê t i c ahàng tiện l i gần nhà. Xét ví dụ này, đại từ cậu và danh từ riêng Hoàng có quan hệ đồng tham chiếu với nhau vì cùngchỉ một thực thể người có tên là Hoàng. Ví dụ 2: Trong nhóm, Khiêm là ột ng i c tài anh ấy c e nh là cánh tay phải c a hịnh. Xét ví dụnày, chủ từ Khiêm có quan hệ tham chiếu với đại từ anh y và cụm danh từ c nh tay hải. Việc tìm kiếm và phát hiện cụm đồng tham chiếu có thể được thực hiện bằng cách thủ công, tuy nhiên bằngcách này tốn rất nhiều thời gian và công sức, đặc biệt là việc phát hiện cho một văn bản tiếng Việt phức tạp. Do đó,việc áp dụng máy học là một cách thức phù hợp giúp giải quyết bài toán gán nhãn đồng tham chiếu trong tiếng Việt. Mặc dù có một số nghiên cứu, đề xuất giải pháp cho bài toán gán nhãn đồng tham chiếu tiếng Việt. Tuy nhiênđể có bộ ngữ liệu huấn luyện tiếng Việt đủ lớn đã được gán nhãn đồng tham chiếu cụ thể là điều không dễ dàng. Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt,góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể. Phần còn lại trong bài báo này được trình bày như sau. Phần II sẽ giới thiệu các nghiên cứu liên quan đối với bàitoán gán nhãn đồng tham chiếu trong tiếng Việt. Chúng tôi sẽ giới thiệu phương pháp đề xuất của chúng tôi ở Phần III,cũng như trình bày về kết quả đánh giá ở Phần IV. Và cuối cùng, trong Phần V, chúng tôi sẽ trình bày phần kết luận vàhướng phát triển trong tương lai. II. CÁC NGHIÊN CỨU LIÊN QUAN Ở Việt Nam, vấn đề gán nhãn đồng tham chiếu cũng đã và đang nhận được sự chú ý của các nhà nghiên cứu vềlĩnh vực xử lý ngôn ngữ tự nhiên trong những năm gần đây. Tại một số trường Đại học ở Việt Nam, các giảng viên và sinh viên cũng đang có những hướng nghiên cứu cụthể, đề xuất một số phương pháp tiếp cận khác nhau để giải quyết thực trạng của bài toán đồng tham chiếu trong tiếngViệt. Hầu hết các nghiên cứu đều sử dụng các phương pháp máy học: - Lê Đức Trọng thuộc Trường Đại học Công Nghệ (2011) giải quyết bài toán đồng tham chiếu trong văn bảntiếng Việt bằng phương pháp máy vector hỗ trợ SVM [1]. Tác giả đề xuất hai mô hình PModel và BModel với độchính xác lần lượt là 77,83 % và 71,12 % khi đánh giá cho 10 văn bản tiếng Việt khác nhau. - Hung D. Nguyen và Tru H. Cao thuộc Trường Đại học Bách khoa Thành phố Hồ Chí Minh (2018) giải quyếtbài toán đồng tham chiếu trong hồ sơ bệnh án điện tử Việt Nam theo phương pháp máy học vector hỗ trợ SVM kết hợpBest-first clustering [2].704 XÂY DỰNG B ...

Tài liệu được xem nhiều:

Tài liệu cùng danh mục:

Tài liệu mới: