![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce
Số trang: 54
Loại file: pdf
Dung lượng: 1.51 MB
Lượt xem: 11
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nội dung luận văn này được trình bày trong bốn chương. Phần giới thiệu về đề tài; chương 1 trình bày các khái niệm cơ bản phục vụ cho đề tài; chương 2 trình bày các kiến thức cơ bản về Hadoop và MapReduce, giới thiệu về kiến trúc của Hadoop, MapReduce cũng như cơ chế làm việc của chúng, Chương 3 sẽ trình bày về việc ứng dụng Hadoop và MapReduce vào mô hình ngôn ngữ; chương 4 giới thiệu về công cụ thực nghiệm và kết quả thực nghiệm. Phần kết luận đưa ra kết luận, định hướng phát triển cho đề tài.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduceĐẠI HỌC QUỐC GIA HÀ NỘITRƢỜNG ĐẠI HỌC CÔNG NGHỆVŨ THỊ THANHMÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCENgành: Công nghệ thông tinChuyên ngành: Kỹ thuật phần mềmMã Số: 60480103LUẬN VĂN THẠC SĨNGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINHNGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNHHà Nội – 2016iMỤC LỤCMỤC LỤC ............................................................................................................................ iLỜI CẢM ƠN ................................................................................................................... iiiLỜI CAM ĐOAN ................................................................................................................ ivDANH MỤC THUẬT NGỮ VIẾT TẮT .......................................................................... vDANH MỤC HÌNH VẼ..................................................................................................... viDANH MỤC BẢNG .........................................................................................................viiGIỚI THIỆU ....................................................................................................................... 8Chương 1:Mô hình ngôn ngữ .......................................................................................... 101.1 Giới thiệu: ..................................................................................................................... 101.2 Mô hình ngôn ngữ N-gram ........................................................................................... 111.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram .................................................... 131.3.1 Phân bố không đều: .................................................................................................. 131.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ................................................................ 131.4 Các phương pháp làm mịn............................................................................................ 141.4.1 Phương pháp Add-one ............................................................................................... 141.4.2 Phương pháp Good – Turing ..................................................................................... 151.4.3 Phương pháp truy hồi back-off .................................................................................. 161.4.4 Phương pháp nội suy ................................................................................................. 181.4.5 Phương pháp Kneser – Ney ....................................................................................... 191.4.6 Phương pháp Kneser – Ney cải tiến .......................................................................... 201.5 Đánh giá mô hình ngôn ngữ ......................................................................................... 211.5.1 Entropy – Độ đo thông tin: ........................................................................................ 211.5.2 Perplexity – Độ hỗn loạn thông tin: .......................................................................... 221.5.3 Error rate – Tỉ lệ lỗi: .................................................................................................. 23Chương 2:Tổng quan về Hadoop MapReduce .............................................................. 242.1 Hadoop.......................................................................................................................... 242.2 Các thành phần của Hadoop ......................................................................................... 242.2.1 Kiến trúc hệ thống tệp phân tán ................................................................................. 24ii2.3 Mapreduce .................................................................................................................... 262.3.1 Kiến trúc của Mapreduce........................................................................................... 272.3.2 Cơ chế hoạt động ....................................................................................................... 282.4 Ưu điểm của Hadoop .................................................................................................... 31Chương 3:Ƣớc lượng mô hình ngôn ngữ với Mapreduce ............................................. 323.1 Đếm các từ .................................................................................................................... 333.2 Đếm số lần xuất hiện (Generate count of counts) ........................................................ 363.3 Sinh số làm mịn Good-Turing ...................................................................................... 373.4 Ước lượng xác suất n-gram .......................................................................................... 383.5 Sinh bảng Hbase ..... ...
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduceĐẠI HỌC QUỐC GIA HÀ NỘITRƢỜNG ĐẠI HỌC CÔNG NGHỆVŨ THỊ THANHMÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCENgành: Công nghệ thông tinChuyên ngành: Kỹ thuật phần mềmMã Số: 60480103LUẬN VĂN THẠC SĨNGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINHNGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNHHà Nội – 2016iMỤC LỤCMỤC LỤC ............................................................................................................................ iLỜI CẢM ƠN ................................................................................................................... iiiLỜI CAM ĐOAN ................................................................................................................ ivDANH MỤC THUẬT NGỮ VIẾT TẮT .......................................................................... vDANH MỤC HÌNH VẼ..................................................................................................... viDANH MỤC BẢNG .........................................................................................................viiGIỚI THIỆU ....................................................................................................................... 8Chương 1:Mô hình ngôn ngữ .......................................................................................... 101.1 Giới thiệu: ..................................................................................................................... 101.2 Mô hình ngôn ngữ N-gram ........................................................................................... 111.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram .................................................... 131.3.1 Phân bố không đều: .................................................................................................. 131.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ................................................................ 131.4 Các phương pháp làm mịn............................................................................................ 141.4.1 Phương pháp Add-one ............................................................................................... 141.4.2 Phương pháp Good – Turing ..................................................................................... 151.4.3 Phương pháp truy hồi back-off .................................................................................. 161.4.4 Phương pháp nội suy ................................................................................................. 181.4.5 Phương pháp Kneser – Ney ....................................................................................... 191.4.6 Phương pháp Kneser – Ney cải tiến .......................................................................... 201.5 Đánh giá mô hình ngôn ngữ ......................................................................................... 211.5.1 Entropy – Độ đo thông tin: ........................................................................................ 211.5.2 Perplexity – Độ hỗn loạn thông tin: .......................................................................... 221.5.3 Error rate – Tỉ lệ lỗi: .................................................................................................. 23Chương 2:Tổng quan về Hadoop MapReduce .............................................................. 242.1 Hadoop.......................................................................................................................... 242.2 Các thành phần của Hadoop ......................................................................................... 242.2.1 Kiến trúc hệ thống tệp phân tán ................................................................................. 24ii2.3 Mapreduce .................................................................................................................... 262.3.1 Kiến trúc của Mapreduce........................................................................................... 272.3.2 Cơ chế hoạt động ....................................................................................................... 282.4 Ưu điểm của Hadoop .................................................................................................... 31Chương 3:Ƣớc lượng mô hình ngôn ngữ với Mapreduce ............................................. 323.1 Đếm các từ .................................................................................................................... 333.2 Đếm số lần xuất hiện (Generate count of counts) ........................................................ 363.3 Sinh số làm mịn Good-Turing ...................................................................................... 373.4 Ước lượng xác suất n-gram .......................................................................................... 383.5 Sinh bảng Hbase ..... ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Công nghệ thông tin Mô hình ngôn ngữ Hadoop và MapReduce Kiến trúc của Hadoop Công cụ thực nghiệmTài liệu liên quan:
-
52 trang 437 1 0
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 368 5 0 -
97 trang 334 0 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 325 0 0 -
97 trang 319 0 0
-
74 trang 306 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 305 0 0 -
96 trang 303 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 295 0 0 -
155 trang 291 0 0