LUẬN VĂN: SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT
Số trang: 68
Loại file: pdf
Dung lượng: 684.31 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn cả trong các phương pháp đã được công bố. Nội dung...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng QuỳnhSO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng QuỳnhSO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh HÀ NỘI - 2009 LỜI CẢM ƠN Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ HàQuang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫntôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy vàbồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đếncác thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóaluận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai. Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viêntrong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợpthông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứukhoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quátrình nghiên cứu. Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúptôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong họctập. Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biếtơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quantâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này. Sinh viên Lê Hoàng Quỳnh i TÓM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng,đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã cómột số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêmtốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trongtiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơncả trong các phương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gánnhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); môhình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứngdụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm ápdụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sửdụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên cácdữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gánnhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kếtquả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong cácngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt. ii Mục lụcMỞ ĐẦU.........................................................................................................................1Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI ...........................3 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3 1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3 1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4 1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6 1.3. Tập nhãn từ loại....................................................................................................7 1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới.............................................................................................7 1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10Chương 2. CÁ ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng QuỳnhSO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng QuỳnhSO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh HÀ NỘI - 2009 LỜI CẢM ƠN Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ HàQuang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫntôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy vàbồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đếncác thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóaluận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai. Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viêntrong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợpthông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứukhoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quátrình nghiên cứu. Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúptôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong họctập. Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biếtơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quantâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này. Sinh viên Lê Hoàng Quỳnh i TÓM TẮT Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng,đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã cómột số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêmtốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trongtiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơncả trong các phương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gánnhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); môhình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứngdụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm ápdụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sửdụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên cácdữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gánnhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kếtquả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong cácngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt. ii Mục lụcMỞ ĐẦU.........................................................................................................................1Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI ...........................3 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3 1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3 1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4 1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6 1.3. Tập nhãn từ loại....................................................................................................7 1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới.............................................................................................7 1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10Chương 2. CÁ ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin Gán nhãn từ loại ngôn ngữ tự nhiên gán nhãn từ loại tiếng Việt mô hình cực đại hóa xử lý ngôn ngữ tự nhiênGợi ý tài liệu liên quan:
-
52 trang 430 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 314 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 308 0 0 -
12 trang 306 0 0
-
74 trang 300 0 0
-
96 trang 293 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 281 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 275 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 273 0 0