Luận văn đề tài : Xây dựng mô hình ngôn ngữ cho Tiếng Việt
Số trang: 47
Loại file: pdf
Dung lượng: 990.23 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mô hình ngôn ngữ là một thành phần quan trọng trong các ứng dụng nhưnhận dạng tiếng nói, phân đoạn từ, dịch thống kê, … Và chúng thường được môhình hóa sử dụng các n-gram. Trên thế giới đã có rất nhiều nước công bố nghiêncứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việcnghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mớimẻ và gặp nhiều khó khăn....
Nội dung trích xuất từ tài liệu:
Luận văn đề tài : Xây dựng mô hình ngôn ngữ cho Tiếng Việt BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………….. LUẬN VĂN Xây dựng mô hìnhngôn ngữ cho Tiếng Việt 1 LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy, các cô khoa Công nghệ Thông tinTrường Đại học Dân lập Hải Phòng đã tận tình dạy d kiến thức quý báu trong suốt bốn năm học vừa qua. Em xin tỏ lòng biết ơn sâu sắc đến Ths Nguyễn Thị Xuân Hương, người đãtận tình giúp đỡ và truyền đạt nhiều kinh nghiệm để đề tài có thể được thực hiện vàhoàn thành. Cuối cùng em xin gửi lời cảm ơn chân thành tới tất cả người thân và bạn bè đãgiúp đỡ, động viên em rất nhiều trong quá trình học tập cũng như thực hiện đề tài. Em xin trân thành cảm ơn! Hải Phòng, tháng 07 năm 2011. Sinh viên Lưu Văn SơnSinh viên: Lưu Văn Sơn - CT1102 2 MỤC LỤCDANH MỤC CHỮ VIẾT TẮT ........................................................................................... 4 ....................................................................................................... 4DANH MỤC BẢNG............................................................................................................. 4M ............................................................................................................................... 5CHƢƠNG 1: TỔNG QUAN VỀ MÔ HÌNH NGÔN NGỮ .......................................... 6 1.1 N-gram .................................................................................................. 6 1.2 Xây dựng mô hình ngôn ngữ ................................................................ 7 1.2.1 Ước lượng cực đại hóa khả năng (MLE) ...................................... 7 1.2.2 Các phương pháp làm mịn ............................................................ 8 1.3 Kỹ thuật làm giảm kích thước dữ liệu ................................................ 16 1.3.1 Loại bỏ (pruning): ....................................................................... 17 1.3.2 Đồng hóa (Quantization) ............................................................. 19 1.3.3 Nén (Compression) ..................................................................... 19 1.4 Đánh giá mô hình ngôn ngữ................................................................ 19 1.4.1 Entropy – Độ đo thông tin........................................................... 19 1.4.2 Perplexity – Độ hỗn loạn thông tin ............................................. 21 1.4.3 MSE - Lỗi trung bình bình phương............................................. 22CHƢƠNG 2: NG DỤNG CỦA MÔ HÌNH NGÔN NGỮ TRONG DỊCH MÁYTHỐNG KÊ…… ................................................................................................................ 23 2.1 Dịch máy ............................................................................................. 23 2.2 Dịch máy thống kê .............................................................................. 24 2.2.1 Giới thiệu..................................................................................... 24 2.2.2 Nguyên lý và các thành phần ...................................................... 26 2.2.3 Mô hình dịch ............................................................................... 27 2.2.4 Bộ giải mã ................................................................................... 32 2.3 Các phương pháp đánh giá bản dịch ................................................... 33 2.3.1 Đánh giá trực tiếp bằng con người .............................................. 33 2.3.2 Đánh giá tự động: phương pháp BLEU ...................................... 33CHƢƠNG 3: THỰC NGHIỆM ................................................................................... 35 3.1 Cài đặt hệ thống .................................................................................. 35Sinh viên: Lưu Văn Sơn - CT1102 3 3.1.1 Cấu hình và hệ điều hành. ........................................................... 35 3.1.2 Các công cụ sử dụng. .................................................................. 35 3.1.3 Các bước huấn luyện dich và kiểm tra. ....................................... 36 3.1.4 Chuẩn hóa dữ liệu. ...................................................................... 36 3.1.5 Xây dựng mô hình ngô ...
Nội dung trích xuất từ tài liệu:
Luận văn đề tài : Xây dựng mô hình ngôn ngữ cho Tiếng Việt BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………….. LUẬN VĂN Xây dựng mô hìnhngôn ngữ cho Tiếng Việt 1 LỜI CẢM ƠN Em xin chân thành cảm ơn các thầy, các cô khoa Công nghệ Thông tinTrường Đại học Dân lập Hải Phòng đã tận tình dạy d kiến thức quý báu trong suốt bốn năm học vừa qua. Em xin tỏ lòng biết ơn sâu sắc đến Ths Nguyễn Thị Xuân Hương, người đãtận tình giúp đỡ và truyền đạt nhiều kinh nghiệm để đề tài có thể được thực hiện vàhoàn thành. Cuối cùng em xin gửi lời cảm ơn chân thành tới tất cả người thân và bạn bè đãgiúp đỡ, động viên em rất nhiều trong quá trình học tập cũng như thực hiện đề tài. Em xin trân thành cảm ơn! Hải Phòng, tháng 07 năm 2011. Sinh viên Lưu Văn SơnSinh viên: Lưu Văn Sơn - CT1102 2 MỤC LỤCDANH MỤC CHỮ VIẾT TẮT ........................................................................................... 4 ....................................................................................................... 4DANH MỤC BẢNG............................................................................................................. 4M ............................................................................................................................... 5CHƢƠNG 1: TỔNG QUAN VỀ MÔ HÌNH NGÔN NGỮ .......................................... 6 1.1 N-gram .................................................................................................. 6 1.2 Xây dựng mô hình ngôn ngữ ................................................................ 7 1.2.1 Ước lượng cực đại hóa khả năng (MLE) ...................................... 7 1.2.2 Các phương pháp làm mịn ............................................................ 8 1.3 Kỹ thuật làm giảm kích thước dữ liệu ................................................ 16 1.3.1 Loại bỏ (pruning): ....................................................................... 17 1.3.2 Đồng hóa (Quantization) ............................................................. 19 1.3.3 Nén (Compression) ..................................................................... 19 1.4 Đánh giá mô hình ngôn ngữ................................................................ 19 1.4.1 Entropy – Độ đo thông tin........................................................... 19 1.4.2 Perplexity – Độ hỗn loạn thông tin ............................................. 21 1.4.3 MSE - Lỗi trung bình bình phương............................................. 22CHƢƠNG 2: NG DỤNG CỦA MÔ HÌNH NGÔN NGỮ TRONG DỊCH MÁYTHỐNG KÊ…… ................................................................................................................ 23 2.1 Dịch máy ............................................................................................. 23 2.2 Dịch máy thống kê .............................................................................. 24 2.2.1 Giới thiệu..................................................................................... 24 2.2.2 Nguyên lý và các thành phần ...................................................... 26 2.2.3 Mô hình dịch ............................................................................... 27 2.2.4 Bộ giải mã ................................................................................... 32 2.3 Các phương pháp đánh giá bản dịch ................................................... 33 2.3.1 Đánh giá trực tiếp bằng con người .............................................. 33 2.3.2 Đánh giá tự động: phương pháp BLEU ...................................... 33CHƢƠNG 3: THỰC NGHIỆM ................................................................................... 35 3.1 Cài đặt hệ thống .................................................................................. 35Sinh viên: Lưu Văn Sơn - CT1102 3 3.1.1 Cấu hình và hệ điều hành. ........................................................... 35 3.1.2 Các công cụ sử dụng. .................................................................. 35 3.1.3 Các bước huấn luyện dich và kiểm tra. ....................................... 36 3.1.4 Chuẩn hóa dữ liệu. ...................................................................... 36 3.1.5 Xây dựng mô hình ngô ...
Tìm kiếm theo từ khóa liên quan:
Xây dựng mô hình ngôn ngữ Tiếng Việt luận văn thiết kế hệ thống lập trình hệ thống xây dựng phần mềm kỹ thuật lập trìnhGợi ý tài liệu liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 309 0 0 -
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 290 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 266 0 0 -
Đề tài nguyên lý hệ điều hành: Nghiên cứu tìm hiểu về bộ nhớ ngoài trong hệ điều hành Linux
19 trang 246 0 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 238 0 0 -
79 trang 230 0 0
-
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 219 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 219 0 0 -
Đồ án cung cấp điện: Thiết kế hệ thống cung cấp điện cho xí nghiệp công nghiệp
108 trang 218 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 216 0 0