Tóm tắt Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduce
Số trang: 36
Loại file: pdf
Dung lượng: 826.50 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đề tài "Mô hình ngôn ngữ sử dụng mapreduce" nhằm mục đích nghiên cứu sử dụng Hadoop và MapReduce vào việc xây dựng mô hình ngôn ngữ nhằm cải tiến tốc độ cho việc xây dựng mô hình ngôn ngữ và ước lượng mô hình để có thể thực hiện với lượng dữ liệu rất lớn để đưa ra mô hình ngôn ngữ chính xác hơn. Mời các bạn cùng tìm đọc toàn văn luận văn này.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduceĐẠI HỌC QUỐC GIA HÀ NỘITRƢỜNG ĐẠI HỌC CÔNG NGHỆVŨ THỊ THANHMÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCENgành: Công nghệ thông tinChuyên ngành: Kỹ thuật phần mềmMã Số: 60480103LUẬN VĂN THẠC SĨNGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINHNGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNHHà nội – 2016iMỤC LỤCMỤC LỤC ............................................................................................................................. iLỜI CẢM ƠN ..................................................................................................................... iiiLỜI CAM ĐOAN ................................................................................................................ ivDANH MỤC THUẬT NGỮ VIẾT TẮT ............................................................................. vGiới thiệu .............................................................................................................................. 6Chương 1: Mô hình ngôn ngữ .............................................................................................. 81.1 Giới thiệu: .................................................................................................................. 81.2 Mô hình ngôn ngữ N-gram ........................................................................................ 91.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ................................................ 111.3.1 Phân bố không đều:.......................................................................................... 111.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ....................................................... 111.4 Các phương pháp làm mịn ....................................................................................... 121.4.1 Phương pháp Add-one ...................................................................................... 121.4.2 Phương pháp Good – Turing ............................................................................ 131.4.3 Phương pháp truy hồi back-off ......................................................................... 141.4.4 Phương pháp nội suy ........................................................................................ 161.4.5 Phương pháp Kneser – Ney .............................................................................. 161.4.6 Phương pháp Kneser – Ney cải tiến ................................................................. 18Trong đó: Ni là số lượng cụm N-gram có số lần xuất hiện ....................................... 181.5 Đánh giá mô hình ngôn ngữ ..................................................................................... 181.5.1 Entropy – Độ đo thông tin: ............................................................................... 191.5.2 Perplexity – Độ hỗn loạn thông tin: .................................................................. 201.5.3 Error rate – Tỉ lệ lỗi: ......................................................................................... 20Chương 2: Tổng quan về Hadoop MapReduce .................................................................. 222.1 Hadoop ..................................................................................................................... 222.2 Các thành phần của Hadoop ..................................................................................... 222.2.1 Kiến trúc hệ thống tệp phân tán ........................................................................ 222.3 Mapreduce ................................................................................................................ 23ii2.3.1 Kiến trúc của Mapreduce .................................................................................. 232.3.2 Cơ chế hoạt động .............................................................................................. 242.4 Ƣu điểm của Hadoop ............................................................................................... 25Chương 3:Ƣớc lượng mô hình ngôn ngữ với Mapreduce .................................................. 263.1 Đếm các từ ............................................................................................................... 263.2 Đếm số lần xuất hiện (Generate count of counts) .................................................... 273.3 Sinh số làm mịn Good-Turing.................................................................................. 273.4 Ƣớc lượng xác suất n-gram ...................................................................................... 283.5 Sinh bảng Hbase ....................................................................................................... 283.5.1 Cấu trúc dựa trên n-gram .................................................................................. 283.5.2 Cấu trúc dựa trên từ hiện tại .................................. ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ: Mô hình ngôn ngữ sử dụng mapreduceĐẠI HỌC QUỐC GIA HÀ NỘITRƢỜNG ĐẠI HỌC CÔNG NGHỆVŨ THỊ THANHMÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCENgành: Công nghệ thông tinChuyên ngành: Kỹ thuật phần mềmMã Số: 60480103LUẬN VĂN THẠC SĨNGƢỜI HƢỚNG DẪN KHOA HỌC CHÍNH: TS. NGUYỄN VĂN VINHNGƢỜI HƢỚNG DẪN KHOA HỌC PHỤ: TS. NGUYỄN PHÚ BÌNHHà nội – 2016iMỤC LỤCMỤC LỤC ............................................................................................................................. iLỜI CẢM ƠN ..................................................................................................................... iiiLỜI CAM ĐOAN ................................................................................................................ ivDANH MỤC THUẬT NGỮ VIẾT TẮT ............................................................................. vGiới thiệu .............................................................................................................................. 6Chương 1: Mô hình ngôn ngữ .............................................................................................. 81.1 Giới thiệu: .................................................................................................................. 81.2 Mô hình ngôn ngữ N-gram ........................................................................................ 91.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram ................................................ 111.3.1 Phân bố không đều:.......................................................................................... 111.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ ....................................................... 111.4 Các phương pháp làm mịn ....................................................................................... 121.4.1 Phương pháp Add-one ...................................................................................... 121.4.2 Phương pháp Good – Turing ............................................................................ 131.4.3 Phương pháp truy hồi back-off ......................................................................... 141.4.4 Phương pháp nội suy ........................................................................................ 161.4.5 Phương pháp Kneser – Ney .............................................................................. 161.4.6 Phương pháp Kneser – Ney cải tiến ................................................................. 18Trong đó: Ni là số lượng cụm N-gram có số lần xuất hiện ....................................... 181.5 Đánh giá mô hình ngôn ngữ ..................................................................................... 181.5.1 Entropy – Độ đo thông tin: ............................................................................... 191.5.2 Perplexity – Độ hỗn loạn thông tin: .................................................................. 201.5.3 Error rate – Tỉ lệ lỗi: ......................................................................................... 20Chương 2: Tổng quan về Hadoop MapReduce .................................................................. 222.1 Hadoop ..................................................................................................................... 222.2 Các thành phần của Hadoop ..................................................................................... 222.2.1 Kiến trúc hệ thống tệp phân tán ........................................................................ 222.3 Mapreduce ................................................................................................................ 23ii2.3.1 Kiến trúc của Mapreduce .................................................................................. 232.3.2 Cơ chế hoạt động .............................................................................................. 242.4 Ƣu điểm của Hadoop ............................................................................................... 25Chương 3:Ƣớc lượng mô hình ngôn ngữ với Mapreduce .................................................. 263.1 Đếm các từ ............................................................................................................... 263.2 Đếm số lần xuất hiện (Generate count of counts) .................................................... 273.3 Sinh số làm mịn Good-Turing.................................................................................. 273.4 Ƣớc lượng xác suất n-gram ...................................................................................... 283.5 Sinh bảng Hbase ....................................................................................................... 283.5.1 Cấu trúc dựa trên n-gram .................................................................................. 283.5.2 Cấu trúc dựa trên từ hiện tại .................................. ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Công nghệ thông tin Mô hình ngôn ngữ Cải tiến tốc độ Ứng dụng Hadoop và MapReduceTài liệu liên quan:
-
52 trang 439 1 0
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 368 5 0 -
97 trang 335 0 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 329 0 0 -
97 trang 322 0 0
-
74 trang 309 0 0
-
96 trang 305 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 305 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 299 0 0 -
155 trang 296 0 0