Gán nhãn từ loại tiếng Việt sử dụng Mô hình Markov ẩn
Số trang: 5
Loại file: pdf
Dung lượng: 191.32 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Gãn nhãn từ loại là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên, nó là bước tiền xử lý quan trọng có ảnh hưởng trực tiếp tới các phân tích văn phạm ở mức sâu. Trong bài báo này, chúng tôi trình bày quá trình thực nghiệm áp dụng mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt. Để thuận tiện cho việc so sánh kết quả, chúng tôi sử dụng kho dữ liệu của nhóm VLSP để huấn luyện và đánh giá chương trình.
Nội dung trích xuất từ tài liệu:
Gán nhãn từ loại tiếng Việt sử dụng Mô hình Markov ẩn Phạm Thị Minh Thu và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 96(08): 39 - 43 GÁN NHÃN TỪ LOẠI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV ẨN Phạm Thị Minh Thu*, Đào Thị Thuý Quỳnh Trường Đại học Khoa học – ĐH Thái Nguyên TÓM TẮT Gãn nhãn từ loại là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên, nó là bước tiền xử lý quan trọng có ảnh hưởng trực tiếp tới các phân tích văn phạm ở mức sâu. Trong bài báo này, chúng tôi trình bày quá trình thực nghiệm áp dụng mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt. Để thuận tiện cho việc so sánh kết quả, chúng tôi sử dụng kho dữ liệu của nhóm VLSP để huấn luyện và đánh giá chương trình. Độ chính xác trung bình của bộ gán nhãn đạt 92.2%. Chúng tôi cũng khảo sát tầm ảnh hưởng của tập huấn luyện đến bộ gán nhãn và mở rộng kho ngữ liệu để cải thiện độ chính xác của bộ gán nhãn. Từ khóa: Gán nhãn từ loại, bộ gán nhãn từ loại, mô hình Markov ẩn, kho ngữ liệu, huấn luyện, đánh giá. GIỚI THIỆU* Trong ngôn ngữ tự nhiên, từ vựng được chia thành thành các lớp (danh từ, động từ, tính từ, giới từ, …) theo chức năng ngữ pháp. Việc xác định đúng loại từ đóng vai trò quan trọng trong việc hiểu đúng và viết đúng. Chẳng hạn, một cụm danh từ chuẩn trong tiếng Việt có tính từ đứng sau danh từ được dịch đúng sang tiếng Anh thì tính từ phải đứng trước danh từ mà nó bổ nghĩa. Hay ví dụ câu Con ngựa đá đá con ngựa đá sẽ là một dẫn chứng cho thấy việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không. Việc xác định loại từ cho mỗi từ trong văn bản và gắn cho nó một ký hiệu quy ước được gọi là gán nhãn từ loại (Part-Of-Speech Tagging). Ví dụ câu Con ngựa đá đá con ngựa đá có thể được gán nhãn như sau: Con//NC ngựa//NN đá//VB con//NC ngựa//NN đá//NN. Trong đó: NC là ký hiệu danh từ chỉ loại; NN - danh từ thường và VB là ký hiệu của động từ. Gán nhãn từ loại là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên, là bước tiền xử lý quan trọng để phân tích văn phạm ở mức sâu hơn. Trên thế giới đã có nhiều phương pháp gán nhãn từ loại được áp dụng thành công cho văn bản tiếng Anh với độ chính xác trên 95%. [3] và [8] điểm tên một số mô hình gán nhãn như Mô hình Markov ẩn (HMM), mô hình học máy dựa trên luật (TBL), mô hình cực đại kỳ * Tel: 0988 356337, Email: thupm84@gmail.com vọng (MEM), … Trong đó, bộ gán nhãn dựa trên mô hình Markov ẩn được xây dựng cho tiếng Anh với độ chính xác 93 - 95% [4]. Ở Việt Nam, tính đến nay đã có một số công bố chính thức liên quan đến bài toán gán nhãn từ loại tiếng Việt [2], [3], [5], [6]. Trong đó tiêu biểu nhất là sản phẩm của nhóm VLSP [6] với bộ công cụ gán nhãn sử dụng mô hình học máy MEMs và CRFs được huấn luyện trên tập ngữ liệu gồm 20.000 câu tiếng Việt, đạt độ chính xác 93%. Đặc biệt nhóm VLSP còn chia sẻ kho ngữ liệu để phục vụ cho các nghiên cứu tiếng Việt. Kho ngữ liệu này giúp chúng tôi thuận lợi hơn trong quá trình hiện thực hóa ý tưởng khảo sát hiệu quả của mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt và so sánh kết quả với nhóm VLSP. Trong bài báo này, ngoài việc trình bày kết quả thực nghiệm mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt, chúng tôi còn chỉ ra tầm ảnh hưởng của độ lớn tập dữ liệu huấn luyện đến độ chính xác của bộ gán nhãn. MÔ HÌNH MARKOV ẨN (HIDDEN MARKOV MODEL – HMM) HMM là một mô hình thống kê có chứa các tham số quan sát được và các tham số ẩn chưa biết. Mô hình Markov ẩn được biểu diễn dưới dạng đồ thị chuyển trạng thái (Hình 1). Các nút là các trạng thái, qi là các trạng thái ẩn, oi là các trạng thái quan sát được. Các cung là các chuyển trạng thái có gán xác suất. 39 Phạm Thị Minh Thu và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ Việc xác định các tham số ẩn dựa vào các tham số đã biết thông qua các xác suất chuyển trạng thái (từ trạng thái trước sang trạng thái qt) và xác suất nhả trạng thái (trạng thái quan sát được ot nhận trạng thái ẩn qt). 96(08): 39 - 43 T* = argmax P(S | T)P(T) Áp dụng luật chuỗi xác suất ta được (6) : T* = argmax P(w1, w2,…, wn | t1, t2,…, tn)* P(t1, t2,…, tn) (6) Sử dụng mô hình Markov ẩn bậc 1 công thức (6) trở thành công thức (7). n n (7) T * = arg max ∏ P( wi | ti )∏ P(t i | t i −1 ) i =1 Hình 1: Minh họa mô hình Markov ẩn Trong mô hình Markov ẩn tổng quát bậc n, trạng thái qt phụ thuộc vào n trạng thái đứng trước nó. Trong nghiên cứu này chúng tôi chỉ xét với n = 1, tức trạng thái qt phụ thuộc vào trạng thái qt-1 và độc lập với các trạng thái khác, tức là: P(qt|qt-1,qt-2,…) = P(qt|qt-1) (1) P(qt,qt-1,qt-2,…) = P(qt|qt-1) P(qt-1|qt-2)… (2) SỬ DỤNG MÔ HÌNH MARKOV ẨN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT Mô tả bài toán Đầu vào (Input) của bài toán là một câu hay một văn bản tiếng Việt đã được tách từ. Ta cần gán cho mỗi từ một nhãn từ loại tương ứng để thu được đầu ra (Output) mong muốn. Giả sử cho một chuỗi các từ S = w1 w2 …wn và tập hữu hạn các nhãn từ loại T = {T1, T2, …, Tm}. Khi đó, các từ wi là các đối tượng quan sát được và các ...
Nội dung trích xuất từ tài liệu:
Gán nhãn từ loại tiếng Việt sử dụng Mô hình Markov ẩn Phạm Thị Minh Thu và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 96(08): 39 - 43 GÁN NHÃN TỪ LOẠI TIẾNG VIỆT SỬ DỤNG MÔ HÌNH MARKOV ẨN Phạm Thị Minh Thu*, Đào Thị Thuý Quỳnh Trường Đại học Khoa học – ĐH Thái Nguyên TÓM TẮT Gãn nhãn từ loại là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên, nó là bước tiền xử lý quan trọng có ảnh hưởng trực tiếp tới các phân tích văn phạm ở mức sâu. Trong bài báo này, chúng tôi trình bày quá trình thực nghiệm áp dụng mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt. Để thuận tiện cho việc so sánh kết quả, chúng tôi sử dụng kho dữ liệu của nhóm VLSP để huấn luyện và đánh giá chương trình. Độ chính xác trung bình của bộ gán nhãn đạt 92.2%. Chúng tôi cũng khảo sát tầm ảnh hưởng của tập huấn luyện đến bộ gán nhãn và mở rộng kho ngữ liệu để cải thiện độ chính xác của bộ gán nhãn. Từ khóa: Gán nhãn từ loại, bộ gán nhãn từ loại, mô hình Markov ẩn, kho ngữ liệu, huấn luyện, đánh giá. GIỚI THIỆU* Trong ngôn ngữ tự nhiên, từ vựng được chia thành thành các lớp (danh từ, động từ, tính từ, giới từ, …) theo chức năng ngữ pháp. Việc xác định đúng loại từ đóng vai trò quan trọng trong việc hiểu đúng và viết đúng. Chẳng hạn, một cụm danh từ chuẩn trong tiếng Việt có tính từ đứng sau danh từ được dịch đúng sang tiếng Anh thì tính từ phải đứng trước danh từ mà nó bổ nghĩa. Hay ví dụ câu Con ngựa đá đá con ngựa đá sẽ là một dẫn chứng cho thấy việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không. Việc xác định loại từ cho mỗi từ trong văn bản và gắn cho nó một ký hiệu quy ước được gọi là gán nhãn từ loại (Part-Of-Speech Tagging). Ví dụ câu Con ngựa đá đá con ngựa đá có thể được gán nhãn như sau: Con//NC ngựa//NN đá//VB con//NC ngựa//NN đá//NN. Trong đó: NC là ký hiệu danh từ chỉ loại; NN - danh từ thường và VB là ký hiệu của động từ. Gán nhãn từ loại là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên, là bước tiền xử lý quan trọng để phân tích văn phạm ở mức sâu hơn. Trên thế giới đã có nhiều phương pháp gán nhãn từ loại được áp dụng thành công cho văn bản tiếng Anh với độ chính xác trên 95%. [3] và [8] điểm tên một số mô hình gán nhãn như Mô hình Markov ẩn (HMM), mô hình học máy dựa trên luật (TBL), mô hình cực đại kỳ * Tel: 0988 356337, Email: thupm84@gmail.com vọng (MEM), … Trong đó, bộ gán nhãn dựa trên mô hình Markov ẩn được xây dựng cho tiếng Anh với độ chính xác 93 - 95% [4]. Ở Việt Nam, tính đến nay đã có một số công bố chính thức liên quan đến bài toán gán nhãn từ loại tiếng Việt [2], [3], [5], [6]. Trong đó tiêu biểu nhất là sản phẩm của nhóm VLSP [6] với bộ công cụ gán nhãn sử dụng mô hình học máy MEMs và CRFs được huấn luyện trên tập ngữ liệu gồm 20.000 câu tiếng Việt, đạt độ chính xác 93%. Đặc biệt nhóm VLSP còn chia sẻ kho ngữ liệu để phục vụ cho các nghiên cứu tiếng Việt. Kho ngữ liệu này giúp chúng tôi thuận lợi hơn trong quá trình hiện thực hóa ý tưởng khảo sát hiệu quả của mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt và so sánh kết quả với nhóm VLSP. Trong bài báo này, ngoài việc trình bày kết quả thực nghiệm mô hình Markov ẩn cho bài toán gán nhãn từ loại tiếng Việt, chúng tôi còn chỉ ra tầm ảnh hưởng của độ lớn tập dữ liệu huấn luyện đến độ chính xác của bộ gán nhãn. MÔ HÌNH MARKOV ẨN (HIDDEN MARKOV MODEL – HMM) HMM là một mô hình thống kê có chứa các tham số quan sát được và các tham số ẩn chưa biết. Mô hình Markov ẩn được biểu diễn dưới dạng đồ thị chuyển trạng thái (Hình 1). Các nút là các trạng thái, qi là các trạng thái ẩn, oi là các trạng thái quan sát được. Các cung là các chuyển trạng thái có gán xác suất. 39 Phạm Thị Minh Thu và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ Việc xác định các tham số ẩn dựa vào các tham số đã biết thông qua các xác suất chuyển trạng thái (từ trạng thái trước sang trạng thái qt) và xác suất nhả trạng thái (trạng thái quan sát được ot nhận trạng thái ẩn qt). 96(08): 39 - 43 T* = argmax P(S | T)P(T) Áp dụng luật chuỗi xác suất ta được (6) : T* = argmax P(w1, w2,…, wn | t1, t2,…, tn)* P(t1, t2,…, tn) (6) Sử dụng mô hình Markov ẩn bậc 1 công thức (6) trở thành công thức (7). n n (7) T * = arg max ∏ P( wi | ti )∏ P(t i | t i −1 ) i =1 Hình 1: Minh họa mô hình Markov ẩn Trong mô hình Markov ẩn tổng quát bậc n, trạng thái qt phụ thuộc vào n trạng thái đứng trước nó. Trong nghiên cứu này chúng tôi chỉ xét với n = 1, tức trạng thái qt phụ thuộc vào trạng thái qt-1 và độc lập với các trạng thái khác, tức là: P(qt|qt-1,qt-2,…) = P(qt|qt-1) (1) P(qt,qt-1,qt-2,…) = P(qt|qt-1) P(qt-1|qt-2)… (2) SỬ DỤNG MÔ HÌNH MARKOV ẨN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT Mô tả bài toán Đầu vào (Input) của bài toán là một câu hay một văn bản tiếng Việt đã được tách từ. Ta cần gán cho mỗi từ một nhãn từ loại tương ứng để thu được đầu ra (Output) mong muốn. Giả sử cho một chuỗi các từ S = w1 w2 …wn và tập hữu hạn các nhãn từ loại T = {T1, T2, …, Tm}. Khi đó, các từ wi là các đối tượng quan sát được và các ...
Tìm kiếm theo từ khóa liên quan:
Tạp chí khoa học Gán nhãn từ loại tiếng Việt Mô hình Markov ẩn Gãn nhãn từ loại Kho ngữ liệuGợi ý tài liệu liên quan:
-
6 trang 278 0 0
-
Thống kê tiền tệ theo tiêu chuẩn quốc tế và thực trạng thống kê tiền tệ tại Việt Nam
7 trang 265 0 0 -
5 trang 232 0 0
-
10 trang 208 0 0
-
Quản lý tài sản cố định trong doanh nghiệp
7 trang 206 0 0 -
6 trang 192 0 0
-
Khách hàng và những vấn đề đặt ra trong câu chuyện số hóa doanh nghiệp
12 trang 189 0 0 -
8 trang 187 0 0
-
Khảo sát, đánh giá một số thuật toán xử lý tương tranh cập nhật dữ liệu trong các hệ phân tán
7 trang 186 0 0 -
19 trang 164 0 0