Danh mục

Đánh giá bộ nhãn ngữ nghĩa LLOCE

Số trang: 6      Loại file: pdf      Dung lượng: 307.51 KB      Lượt xem: 20      Lượt tải: 0    
tailieu_vip

Phí tải xuống: 4,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Xây dựng bộ ngữ liệu bằng phương pháp thủ công sẽ tốn nhiều thời gian và công sức. Vì vậy, việc nghiên cứu xây dựng bộ ngữ liệu tự động đang được các nước quan tâm. Tuy nhiên đối với Tiếng Việt thì vấn đề này chưa được giải quyết. Bài viết trình bày mô hình khảo sát tính hiệu quả của bộ nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon Of Contemporary English) trong quá trình gán nhãn ngữ nghĩa tự động cho ngữ liệu song ngữ Anh-Việt. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Đánh giá bộ nhãn ngữ nghĩa LLOCE Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Đánh giá bộ nhãn ngữ nghĩa LLOCE Hồ Xuân Vinh∗ , Nguyễn Thị Thanh Thảo† , Đinh Điền‡ ∗‡ Khoa Công nghệ thông tin - Đại Học Khoa Học Tự Nhiên TP. Hồ Chí Minh †Khoa Công nghệ thông tin - Cao Đẳng Kinh Tế Kỹ Thuật TP. Hồ Chí Minh Email: ∗ hovinh39@gmail.com, † nguyenthithanhthao@hotec.edu.vn, ‡ ddien@fit.hcmus.edu.vn Tóm tắt—Theo đà phát triển của các phương pháp dịch Nói đến các bộ nhãn ngữ nghĩa ta có thể liệt kê nhưmáy, dịch máy thống kê dựa trên ngữ nghĩa (semantics- sau:based Statistical Machine Translation) được đánh giá làsẽ có triển vọng nhiều nhất. Tuy nhiên, phương pháp này • LLOCE (Longman Lexicon of Contemporary En-đòi hỏi bộ ngữ liệu song ngữ lớn mà có gán nhãn ngữ glish): từ điển về chủ đề, mỗi chủ đề được chianghĩa (semantic-tag). Xây dựng bộ ngữ liệu như thế bằng thành nhiều nhóm, mỗi nhóm chứa nhiều lớp ngữphương pháp thủ công sẽ tốn nhiều thời gian và công sức. nghĩa với từ thuộc lớp nghĩa đó. Tên của mỗi lớpVì vậy, việc nghiên cứu xây dựng bộ ngữ liệu tự động cũng chính là nhãn ngữ nghĩa. Từ điển bao gồmđang được các nước quan tâm. Tuy nhiên đối với TiếngViệt thì vấn đề này chưa được giải quyết. Trong bài báo, 14 chủ đề, 129 nhóm, 2.449 lớp ngữ nghĩa với hơnchúng tôi trình bày mô hình khảo sát tính hiệu quả của bộ 16.000 mục từ.nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon • LDOCE (Longman Dictionary of ContemporaryOf Contemporary English) trong quá trình gán nhãn ngữ English): mỗi từ được phân loại dựa trên từ loại, mãnghĩa tự động cho ngữ liệu song ngữ Anh-Việt. cú pháp, mã ngữ nghĩa, mã chủ đề và mã phong Từ khóa—LLOCE, sense tag, semantic annotation, nhãnngữ nghĩa... cách. Từ điển bao gồm 100 chủ đề, 19 mã ngữ nghĩa, 13 mã ngữ nghĩa phái sinh, 45.000 mục từ I. GIỚI THIỆU với hơn 65.000 nghĩa. • WordNet: hệ thống tri thức khổng lồ về ngữ nghĩa Xử lý ngôn ngữ tự nhiên(Natural Language trong Tiếng Anh với 117.000 ý niệm khác nhau.Processing-NLP) là lĩnh vực quan tâm đến tương tác Được xây dựng bởi đơn vị cơ bản là các tập từngười máy về mặt ngôn ngữ. Khởi động từ năm 1950 đồng nghĩa, nó chứa đựng cả những quan hệ ngônvới phép thử Turing và bài toán dịch máy, nhiều bài toán ngữ phức tạp tương tác đa chiều.mới đã được phát hiện và nghiên cứu. Độ khó cũng tỉ lệthuận theo thời gian, nhiều vấn đề không có thuật toán Ngoại trừ những ngôn ngữ giàu tài nguyên như Tiếngtối ưu tồn tại, đơn giản vì ngôn ngữ luôn mang tính Anh (đơn cử là Wordnet [1], [2], [3], [4]), hầu hết cácnhập nhằng và dường như không thể tìm được một bộ ngôn ngữ còn lại không có bộ nhãn ngữ nghĩa cho riêngluật tổng quát nào cho máy có thể tra cứu và thực hiện. mình. Những năm gần đây, nhiều nỗ lực từ phía ngônRiêng đối với bài toán dịch máy, hướng tiếp cận được ngữ học lẫn tin học đã xây dựng những bộ nhãn riêngmô hình hóa theo dạng kim tự tháp từ thấp lên cao: dựa dựa trên WordNet như EuroWordNet [5] (khối Châutrên từ (word-based), dựa trên cụm từ (phrase-based), Âu), Japanese Wordnet [6](Nhật). . . Như liệt kê ở trên,dựa trên cú pháp (syntax-based) và dựa trên ngữ nghĩa ngoài Wordnet với bộ nhãn khá mịn (ngay cả con người(semantic-based). Người ta nhận thấy rằng, càng lên cao cũng khó phân biệt một số nhãn trong từ điển này) vàthì độ chính xác càng tăng, tuy nhiên hiện nay phát triển có chi phí xây dựng cực kì mắc, có những bộ nhãnsôi động nhất chỉ mới ở tầng phrase-based. Sẽ cực kì tiềm năng khác có thể phục vụ cho mục đích gán nhãn.hiệu quả nếu chúng ta nằm ở đỉnh trên cùng của tháp, Không phổ biến như Wordnet, tuy nhiên LLOCE có bộkhi đó đồng nghĩa với việc tồn tại bộ ngữ liệu song ngữ nhãn không quá thô cùng bộ từ vựng tương đối lớn, dođược gán nhãn ngữ nghĩa toàn bộ. Độ hiệu quả của các đó chúng tôi chọn bộ nhãn này làm đối tượng khảo sátphương pháp trước đây sẽ được đẩy lên một giới hạn và đặt ra những tiêu chí mà bộ nhãn cần đạt yêu cầu.mới. ...

Tài liệu được xem nhiều: