Danh mục

LUẬN VĂN: SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

Số trang: 68      Loại file: pdf      Dung lượng: 684.31 KB      Lượt xem: 11      Lượt tải: 0    
Jamona

Phí tải xuống: 34,000 VND Tải xuống file đầy đủ (68 trang) 0
Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn cả trong các phương pháp đã được công bố. Nội dung...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng QuỳnhSO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng QuỳnhSO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh HÀ NỘI - 2009 LỜI CẢM ƠN Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ HàQuang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫntôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy vàbồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đếncác thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóaluận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai. Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viêntrong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợpthông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứukhoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quátrình nghiên cứu. Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúptôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong họctập. Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biếtơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quantâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này. Sinh viên Lê Hoàng Quỳnh i TÓM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng,đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã cómột số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêmtốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trongtiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơncả trong các phương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gánnhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); môhình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứngdụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm ápdụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sửdụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên cácdữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gánnhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kếtquả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong cácngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt. ii Mục lụcMỞ ĐẦU.........................................................................................................................1Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI ...........................3 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3 1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3 1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4 1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6 1.3. Tập nhãn từ loại....................................................................................................7 1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới.............................................................................................7 1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10Chương 2. CÁ ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: