Luận văn Thạc sĩ Khoa học máy tính: Các phương pháp phân đoạn tiếng Việt và ứng dụng
Số trang: 73
Loại file: pdf
Dung lượng: 1.20 MB
Lượt xem: 7
Lượt tải: 0
Xem trước 8 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nhiệm vụ nghiên cứu của đề tài là tìm hiểu những kiến thức tổng quan về tiếng Việt. Tìm hiểu phương pháp phân đoạn tiếng Việt, phương pháp khử nhập nhằng. Cài đặt hệ thống phân đoạn văn bản tiếng Việt. Xây dựng kho ngữ liệu thử nghiệm và đánh giá. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Các phương pháp phân đoạn tiếng Việt và ứng dụng i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - Năm 2015Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i ĐẠI HOẠC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS. BÙI VĂN THANH Thái Nguyên - Năm 2015Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC TrangLỜI CẢM ƠN ............................................................................................... vLỜI CAM ĐOAN ........................................................................................ viDANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................. viiDANH MỤC BẢNG .................................................................................. viiiDANH MỤC HÌNH ..................................................................................... ixMỞ ĐẦU ....................................................................................................... 1Chương 1. TỔNG QUAN ............................................................................. 6 1.1. KHÁI QUÁT VỀ TIẾNG VIỆT ........................................................ 6 1.1.1. Đặc điểm từ tiếng Việt ................................................................ 6 1.1.2. Các từ loại tiếng Việt .................................................................. 7 1.2. VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT ........................................... 10 1.2.1. Từ vựng tiếng Việt .................................................................... 10 1.2.2. Tiếng – đơn vị cấu tạo lên từ .................................................... 11 1.2.3. Cấu tạo từ .................................................................................. 13 1.3. PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH ................... 17 1.4. TỔNG KẾT CHƢƠNG .................................................................... 18Chương 2. MỘT SỐ PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNGVIỆT ............................................................................................................ 19 2.1. MÔ HÌNH LRMM ........................................................................... 19 2.1.1. Thuật toán Maximum Matching đơn giản ................................ 19Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii 2.1.2. Thuật toán Maximum Matching phức tạp ................................ 19 2.2. PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) ........ 20 2.3. MÔ HÌNH HỌC MÁY CRF ............................................................ 23 2.3.1. Định nghĩa CRF ......................................................................... 23 2.3.2. Hàm tiềm năng của các mô hình CRF ....................................... 26 2.3.3. Conditional Random Fields ....................................................... 26 2.4. TỔNG KẾT CHƢƠNG .................................................................... 28Chương 3. BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT ............................... 29 3.1. PHÁT BIỂU BÀI TOÁN ................................................................. 29 3.1.1. Cấu trúc chương trình ............................................................... 30 3.1.2. Tiền xử lý số liệu ...................................................................... 32 3.1.3. Tách câu .................................................................................... 34 3.1.4. Tách từ ...................................................................................... 36 3.1.5. Khử nhập nhằng ........................................................................ 36 3.2. CÁC LOẠI NHẬP NHẰ ...
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Các phương pháp phân đoạn tiếng Việt và ứng dụng i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - Năm 2015Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i ĐẠI HOẠC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS. BÙI VĂN THANH Thái Nguyên - Năm 2015Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC TrangLỜI CẢM ƠN ............................................................................................... vLỜI CAM ĐOAN ........................................................................................ viDANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................. viiDANH MỤC BẢNG .................................................................................. viiiDANH MỤC HÌNH ..................................................................................... ixMỞ ĐẦU ....................................................................................................... 1Chương 1. TỔNG QUAN ............................................................................. 6 1.1. KHÁI QUÁT VỀ TIẾNG VIỆT ........................................................ 6 1.1.1. Đặc điểm từ tiếng Việt ................................................................ 6 1.1.2. Các từ loại tiếng Việt .................................................................. 7 1.2. VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT ........................................... 10 1.2.1. Từ vựng tiếng Việt .................................................................... 10 1.2.2. Tiếng – đơn vị cấu tạo lên từ .................................................... 11 1.2.3. Cấu tạo từ .................................................................................. 13 1.3. PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH ................... 17 1.4. TỔNG KẾT CHƢƠNG .................................................................... 18Chương 2. MỘT SỐ PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNGVIỆT ............................................................................................................ 19 2.1. MÔ HÌNH LRMM ........................................................................... 19 2.1.1. Thuật toán Maximum Matching đơn giản ................................ 19Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii 2.1.2. Thuật toán Maximum Matching phức tạp ................................ 19 2.2. PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) ........ 20 2.3. MÔ HÌNH HỌC MÁY CRF ............................................................ 23 2.3.1. Định nghĩa CRF ......................................................................... 23 2.3.2. Hàm tiềm năng của các mô hình CRF ....................................... 26 2.3.3. Conditional Random Fields ....................................................... 26 2.4. TỔNG KẾT CHƢƠNG .................................................................... 28Chương 3. BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT ............................... 29 3.1. PHÁT BIỂU BÀI TOÁN ................................................................. 29 3.1.1. Cấu trúc chương trình ............................................................... 30 3.1.2. Tiền xử lý số liệu ...................................................................... 32 3.1.3. Tách câu .................................................................................... 34 3.1.4. Tách từ ...................................................................................... 36 3.1.5. Khử nhập nhằng ........................................................................ 36 3.2. CÁC LOẠI NHẬP NHẰ ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Luận văn Thạc sĩ Khoa học máy tính Phương pháp phân đoạn tiếng Việt Phương pháp khử nhập nhằng Đặc điểm từ tiếng ViệtGợi ý tài liệu liên quan:
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 364 5 0 -
97 trang 327 0 0
-
97 trang 308 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 300 0 0 -
155 trang 278 0 0
-
115 trang 268 0 0
-
64 trang 262 0 0
-
26 trang 259 0 0
-
70 trang 225 0 0
-
128 trang 221 0 0