LUẬN VĂN: XÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT
Số trang: 51
Loại file: pdf
Dung lượng: 1,018.01 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữ như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... Trên thế giới đã có rất nhiều nước công bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn....
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:XÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT Mô hình ngôn ngữ Ngram - Cao Văn Việt K51KHMT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Cao Văn ViệtXÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2010LỜI CẢM ƠN Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người đãtrực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong quá trình hoàn thành luậnvăn này. Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đạihọc Công Nghệ, đặc biệt là các thầy cô trong bộ môn Khoa học Máy tính , nhữngngười đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện cho tôi trong quá trình họctập và thực hành ở trường. Cuối cùng, tôi xin gửi gời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủnghộ, giúp đỡ tôi hoàn thành luận văn TÓM TẮT Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tựnhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữnhư: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... Trên thế giới đã có rất nhiều nướccông bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở ViệtNam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫncòn mới mẻ và gặp nhiều khó khăn. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựachọn và tập trung nghiên cứu vấn đề này để có thể tạo điều kiện cho việc xử lý ngônngữ tiếng Việt vốn vô cùng phong phú của chúng ta. Luận văn sẽ trình bày khái quát về mô hình ngôn ngữ, đồng thời chỉ ra các khókhăn còn tồn tại để rồi đưa ra những phương pháp khắc phục, trong đó trọng tâmnghiên cứu các phương pháp làm mịn. Trong luận văn này này, chúng tôi sử dụng chủyếu bộ công cụ mã nguồn mở SRILIM để xây dựng mô hình ngôn ngữ cho tiếng Việt,sau đó áp dụng mô hình ngôn ngữ đã tạo ra để tính toán độ hỗn loạn thông tin của vănbản và dịch máy thống kê. Kết quả có được sẽ là cơ sở chính để chúng tôi chỉ raphương pháp làm mịn nào là tốt nhất khi sử dụng trong việc xây dựng mô hình ngônngữ tiếng Việt.MỤC LỤCChương 1 Giới thiệu vấn đề ................................................................................ 1 1.1 Đặt vấn đề: ......................................................................................................... 1 1.2 Mục tiêu: ............................................................................................................ 1 1.3 Cấu trúc của luận văn: ........................................................................................ 2Chương 2 Mô hình ngôn ngữ Ngram: ................................................................. 3 2.1 Khái quát: ........................................................................................................... 3 2.2 Công thức tính “xác suất thô”: ............................................................................ 3 2.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ............................................ 4 2.3.1 Phân bố không đều: ................................................................................................. 4 2.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ................................................................ 5 2.4 Các phương pháp làm mịn .................................................................................. 5 2.4.1 Các thuật toán chiết khấu (discounting): ................................................................. 5 2.4.2 Phương pháp truy hồi:.............................................................................................. 8 2.4.3 Phương pháp nộ i suy: ............................................................................................ 10 2.4.4 Phương pháp làm mịn Kneser - Ney: ..................................................................... 10 2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến bởi Chen - GoodMan: ....................... 12 2.5 Kỹ thuật làm giảm kích thước dữ liệu: .............................................................. 13 2.5.1 Loại bỏ (pruning): .................................................................................................. 13 2.5.2 Đồng hóa (Quantization):....................................................................................... 15 2.5.3 Nén (Compression): ............................................................................................... 16 2.6 Độ đo:............................................................................................................... 16 2.6.1 Entropy – Độ đo thông tin:..................................................................................... 16 2.6.2 Perplexity – Độ hỗn loạn thông tin: ........................................................................ 18 2.6.3 Error rate – Tỉ lệ lỗ i: .............................................................................................. 18Chương 3 Ứng dụng của mô hình ngôn ngữ trong mô hình dịch máy thống kê: 19 3.1 Dịch máy: ......................................................................................................... 19 3.2 Dịch máy thống kê:........................................................................................... 19 3.2.1 Giới thiệu: ............................................................................................................. 19 3.2.2 Nguyên lý và các thành phần: ................................................................................ 19 3.2.3 Mô hình dịch: ........................................................................................................ 21 3.2.4 Bộ giải mã: .... ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:XÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT Mô hình ngôn ngữ Ngram - Cao Văn Việt K51KHMT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Cao Văn ViệtXÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính HÀ NỘI – 2010LỜI CẢM ƠN Đầu tiên, cho phép tôi gửi lời cảm ơn sâu sắc tới TS Lê Anh Cường, người đãtrực tiếp hướng dẫn, chỉ bảo và tạo điều kiện cho tôi trong quá trình hoàn thành luậnvăn này. Đồng thời tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đạihọc Công Nghệ, đặc biệt là các thầy cô trong bộ môn Khoa học Máy tính , nhữngngười đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện cho tôi trong quá trình họctập và thực hành ở trường. Cuối cùng, tôi xin gửi gời cảm ơn tới tất cả các bạn đồng học và gia đình đã ủnghộ, giúp đỡ tôi hoàn thành luận văn TÓM TẮT Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lý ngôn ngữ tựnhiên. Có rất nhiều lĩnh vực trong xử lý ngôn ngữ tự nhiên sử dụng mô hình ngôn ngữnhư: kiểm lỗi chính tả, dịch máy hay phân đoạn từ... Trên thế giới đã có rất nhiều nướccông bố nghiên cứu về mô hình ngôn ngữ áp dụng cho ngôn ngữ của họ nhưng ở ViệtNam, việc nghiên cứu và xây dựng một mô hình ngôn ngữ chuẩn cho tiếng Việt vẫncòn mới mẻ và gặp nhiều khó khăn. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựachọn và tập trung nghiên cứu vấn đề này để có thể tạo điều kiện cho việc xử lý ngônngữ tiếng Việt vốn vô cùng phong phú của chúng ta. Luận văn sẽ trình bày khái quát về mô hình ngôn ngữ, đồng thời chỉ ra các khókhăn còn tồn tại để rồi đưa ra những phương pháp khắc phục, trong đó trọng tâmnghiên cứu các phương pháp làm mịn. Trong luận văn này này, chúng tôi sử dụng chủyếu bộ công cụ mã nguồn mở SRILIM để xây dựng mô hình ngôn ngữ cho tiếng Việt,sau đó áp dụng mô hình ngôn ngữ đã tạo ra để tính toán độ hỗn loạn thông tin của vănbản và dịch máy thống kê. Kết quả có được sẽ là cơ sở chính để chúng tôi chỉ raphương pháp làm mịn nào là tốt nhất khi sử dụng trong việc xây dựng mô hình ngônngữ tiếng Việt.MỤC LỤCChương 1 Giới thiệu vấn đề ................................................................................ 1 1.1 Đặt vấn đề: ......................................................................................................... 1 1.2 Mục tiêu: ............................................................................................................ 1 1.3 Cấu trúc của luận văn: ........................................................................................ 2Chương 2 Mô hình ngôn ngữ Ngram: ................................................................. 3 2.1 Khái quát: ........................................................................................................... 3 2.2 Công thức tính “xác suất thô”: ............................................................................ 3 2.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ............................................ 4 2.3.1 Phân bố không đều: ................................................................................................. 4 2.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ................................................................ 5 2.4 Các phương pháp làm mịn .................................................................................. 5 2.4.1 Các thuật toán chiết khấu (discounting): ................................................................. 5 2.4.2 Phương pháp truy hồi:.............................................................................................. 8 2.4.3 Phương pháp nộ i suy: ............................................................................................ 10 2.4.4 Phương pháp làm mịn Kneser - Ney: ..................................................................... 10 2.4.5 Phương pháp làm mịn Kneser - Ney cải tiến bởi Chen - GoodMan: ....................... 12 2.5 Kỹ thuật làm giảm kích thước dữ liệu: .............................................................. 13 2.5.1 Loại bỏ (pruning): .................................................................................................. 13 2.5.2 Đồng hóa (Quantization):....................................................................................... 15 2.5.3 Nén (Compression): ............................................................................................... 16 2.6 Độ đo:............................................................................................................... 16 2.6.1 Entropy – Độ đo thông tin:..................................................................................... 16 2.6.2 Perplexity – Độ hỗn loạn thông tin: ........................................................................ 18 2.6.3 Error rate – Tỉ lệ lỗ i: .............................................................................................. 18Chương 3 Ứng dụng của mô hình ngôn ngữ trong mô hình dịch máy thống kê: 19 3.1 Dịch máy: ......................................................................................................... 19 3.2 Dịch máy thống kê:........................................................................................... 19 3.2.1 Giới thiệu: ............................................................................................................. 19 3.2.2 Nguyên lý và các thành phần: ................................................................................ 19 3.2.3 Mô hình dịch: ........................................................................................................ 21 3.2.4 Bộ giải mã: .... ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin tiếng Việt mô hình ngôn ngữ kiểm lỗi chính tả dịch máy hay phân đoạn từ mã nguồn mở SRILIMGợi ý tài liệu liên quan:
-
52 trang 411 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 291 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 287 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 286 0 0 -
74 trang 275 0 0
-
96 trang 275 0 0
-
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 265 1 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 261 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 251 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 245 0 0