Danh mục

Luận văn Thạc sĩ: Nghiên cứu mô hình ngôn ngữ N-Gram và ứng dụng trong bài toán thêm dấu cho tiếng Việt không dấu

Số trang: 71      Loại file: pdf      Dung lượng: 967.30 KB      Lượt xem: 9      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 35,500 VND Tải xuống file đầy đủ (71 trang) 0
Xem trước 8 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mời các bạn cùng tham khảo tài liệu Luận văn Thạc sĩ: Nghiên cứu mô hình ngôn ngữ N-Gram và ứng dụng trong bài toán thêm dấu cho tiếng Việt không dấu. Một trong những vấn đề có tính cấp thiết trong lĩnh vực xử lí ngôn ngữ tự nhiên tiếng Việt nói riêng vàkhoa học công nghệ trong đời sống xã hội nói chung.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ: Nghiên cứu mô hình ngôn ngữ N-Gram và ứng dụng trong bài toán thêm dấu cho tiếng Việt không dấu ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT&TT CAO ĐỨC TƯNGHIÊN CỨU MÔ HÌNH NGÔN NGỮ N-GRAMVÀ ỨNG DỤNG TRONG BÀI TOÁN THÊM DẤU CHO TIẾNG VIỆT KHÔNG DẤU CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ : KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT&TT CAO ĐỨC TƯNGHIÊN CỨU MÔ HÌNH NGÔN NGỮ N-GRAMVÀ ỨNG DỤNG TRONG BÀI TOÁN THÊM DẤU CHO TIẾNG VIỆT KHÔNG DẤU CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ TẤT THẮNG Thái Nguyên - 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 LỜI CAM ĐOAN Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bàytrong luận văn là bản thân tôi tự tìm hiểu và nghiên cứu, dưới sự hướng dẫnkhoa học của TS. Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoahọc và Công nghệ Việt Nam. Các tài liệu, số liệu tham khảo được trích dẫnđầy đủ nguồn gốc. Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan của mình. Thái Nguyên, ngày 30 tháng 9 năm 2011 Học viên Cao Đức Tư Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 LỜI CẢM ƠN Luận văn được hoàn thành bởi sự nỗ lực của bản thân, sự giúp đỡ tậntình của các thầy cô trường Đại học công nghệ thông tin và truyền thôngthuộc Đại học Thái Nguyên, thầy cô Viện công nghệ thông tin thuộc ViệnKhoa học và Công nghệ Việt Nam.Đã tận tình chỉ dạy, giúp đỡ em trong cảquá trình học tập và hoàn thành luận văn. Xin bày tỏ lòng biết ơn sâu sắc đến TS. Vũ Tất Thắng Viện công nghệthông tin thuộc Viện Khoa học và Công nghệ Việt Nam, người đã tận tình chỉdẫn tôi trong suốt quá trình xây dựng đề cương và hoàn thành luận văn. Xin cảm ơn các anh chị em trong lớp cao học K8 đã giúp đỡ, đóng gópý kiến chia sẽ những kinh nghiệm học tập, nghiên cứu trong suốt khóa học. Mặc dù đã cố gắng hết sức để hoàn thành luận văn , song không thểtránh khỏi sai sót. Xin kính mong nhận được nhận xét và sự đóng góp của qu ýThầy Cô và bạn bè. Thái Nguyên, ngày 30 tháng 9 năm 2011 Học viên Cao Đức Tư Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 MỤC LỤC1CHƢƠNG 1: GIỚI THIỆU CHUNG ............................................................. 5 1.1.Đặt vấn đề: ............................................................................................ 5 1.2.Mục tiêu: ............................................................................................... 7 1.3.Cấu trúc của luận văn: ........................................................................... 7CHƢƠNG 2: MÔ HÌNH NGÔN NGỮ N-GRAM .......................................... 8 2.1.Giới thiệu chung .................................................................................... 8 2.2.Công thức tính “xác suất thô” ................................................................ 9 2.3.Vần đề khó khăn khi xây dựng mô hình ngôn ngữ N-gram.................. 10 2.4.Các phương pháp làm mịn ................................................................... 11 2.5.Kỹ thuật làm giảm kích thước dữ liệu:................................................. 19 2.6.Độ đo .................................................................................................. 23 2.7.Tổng kết chương ................................................................................. 23CHƢƠNG 3: XÂY DỰNG N-GRAM CHO TIẾNG VIỆT .......................... 27 3.1.Giới thiệu ............................................................................................ 27 3.2.Công cụ tách từ cho tiếng Việt - vnTokeni ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: