Danh mục

Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce

Số trang: 54      Loại file: pdf      Dung lượng: 1.51 MB      Lượt xem: 11      Lượt tải: 0    
Thu Hiền

Hỗ trợ phí lưu trữ khi tải xuống: 54,000 VND Tải xuống file đầy đủ (54 trang) 0
Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nội dung luận văn này được trình bày trong bốn chương. Phần giới thiệu về đề tài; chương 1 trình bày các khái niệm cơ bản phục vụ cho đề tài; chương 2 trình bày các kiến thức cơ bản về Hadoop và MapReduce, giới thiệu về kiến trúc của Hadoop, MapReduce cũng như cơ chế làm việc của chúng, Chương 3 sẽ trình bày về việc ứng dụng Hadoop và MapReduce vào mô hình ngôn ngữ; chương 4 giới thiệu về công cụ thực nghiệm và kết quả thực nghiệm. Phần kết luận đưa ra kết luận, định hướng phát triển cho đề tài.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduceĐẠI HỌC QUỐC GIA HÀ NỘITRƢỜNG ĐẠI HỌC CÔNG NGHỆVŨ THỊ THANHMÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCENgành: Công nghệ thông tinChuyên ngành: Kỹ thuật phần mềmMã Số: 60480103LUẬN VĂN THẠC SĨNGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINHNGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNHHà Nội – 2016iMỤC LỤCMỤC LỤC ............................................................................................................................ iLỜI CẢM ƠN ................................................................................................................... iiiLỜI CAM ĐOAN ................................................................................................................ ivDANH MỤC THUẬT NGỮ VIẾT TẮT .......................................................................... vDANH MỤC HÌNH VẼ..................................................................................................... viDANH MỤC BẢNG .........................................................................................................viiGIỚI THIỆU ....................................................................................................................... 8Chương 1:Mô hình ngôn ngữ .......................................................................................... 101.1 Giới thiệu: ..................................................................................................................... 101.2 Mô hình ngôn ngữ N-gram ........................................................................................... 111.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram .................................................... 131.3.1 Phân bố không đều: .................................................................................................. 131.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ................................................................ 131.4 Các phương pháp làm mịn............................................................................................ 141.4.1 Phương pháp Add-one ............................................................................................... 141.4.2 Phương pháp Good – Turing ..................................................................................... 151.4.3 Phương pháp truy hồi back-off .................................................................................. 161.4.4 Phương pháp nội suy ................................................................................................. 181.4.5 Phương pháp Kneser – Ney ....................................................................................... 191.4.6 Phương pháp Kneser – Ney cải tiến .......................................................................... 201.5 Đánh giá mô hình ngôn ngữ ......................................................................................... 211.5.1 Entropy – Độ đo thông tin: ........................................................................................ 211.5.2 Perplexity – Độ hỗn loạn thông tin: .......................................................................... 221.5.3 Error rate – Tỉ lệ lỗi: .................................................................................................. 23Chương 2:Tổng quan về Hadoop MapReduce .............................................................. 242.1 Hadoop.......................................................................................................................... 242.2 Các thành phần của Hadoop ......................................................................................... 242.2.1 Kiến trúc hệ thống tệp phân tán ................................................................................. 24ii2.3 Mapreduce .................................................................................................................... 262.3.1 Kiến trúc của Mapreduce........................................................................................... 272.3.2 Cơ chế hoạt động ....................................................................................................... 282.4 Ưu điểm của Hadoop .................................................................................................... 31Chương 3:Ƣớc lượng mô hình ngôn ngữ với Mapreduce ............................................. 323.1 Đếm các từ .................................................................................................................... 333.2 Đếm số lần xuất hiện (Generate count of counts) ........................................................ 363.3 Sinh số làm mịn Good-Turing ...................................................................................... 373.4 Ước lượng xác suất n-gram .......................................................................................... 383.5 Sinh bảng Hbase ..... ...

Tài liệu được xem nhiều:

Tài liệu liên quan: