Danh mục

Luận văn Thạc sĩ Khoa học máy tính: Sử dụng mô hình ngôn ngữ Bloom Filter trong cải tiến dịch máy thống kê

Số trang: 79      Loại file: pdf      Dung lượng: 1.68 MB      Lượt xem: 8      Lượt tải: 0    
10.10.2023

Xem trước 8 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Đề tài này nghiên cứu và tìm hiểu mô hình ngôn ngữ xây dựng dựa trên cấu trúc dữ liệu Bloom Filter. Không lưu trữ toàn bộ tập n-gram giống như các mô hình truyền thống, loại mô hình ngôn ngữ này sử dụng một quy trình mã hóa đặc biệt, cho phép chia sẻ một cách hiệu quả các bit khi lưu trữ thông tin thống kê n-gram, nhờ đó tiết kiệm đáng kể bộ nhớ. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Sử dụng mô hình ngôn ngữ Bloom Filter trong cải tiến dịch máy thống kê ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT & TTSỬ DỤNG MÔ HÌNH NGÔN NGỮ BLOOM FILTER TRONG CẢI TIẾN DỊCH MÁY THỐNG KÊ TRẦN TIẾN THÀNH THÁI NGUYÊN 2015 3 LỜI CAM ĐOAN Em - Trần Tiến Thành, học viên lớp Cao học K12E Trường Đại họcCông nghệ thông tin và Truyền thông Thái Nguyên - cam kết Luận văn thạcsỹ khoa học máy tính: “Sử dụng mô hình ngôn ngữ Bloom Filter trong cảitiến dịch máy thống kê” là công trình nghiên cứu của bản thân em dưới sựhướng dẫn của thầy giáo TS. Nguyễn Văn Vinh, Bộ môn Khoa học máy tính,Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc giaHà Nội. Các kết quả trong luận văn tốt nghiệp là trung thực, không sao chéptoàn văn của bất kỳ công trình nào khác. Thái Nguyên, ngày 05 tháng 10 năm 2015 TÁC GIẢ Trần Tiến Thành 4 LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, TS. Nguyễn VănVinh, Bộ môn Khoa học máy tinh, Khoa Công nghệ thông tin - Trường Đạihọc Công nghệ - Đại học Quốc gia Hà Nội đã khuyến khích và tận tình hướngdẫn em trong suốt quá trình thực hiện luận văn. Em cũng xin cảm ơn anh TrầnHồng Việt, nghiên cứu sinh Trường Đại học Công nghệ, giảng viên TrườngĐại học Kinh tế kĩ thuật công nghiệp đã hết lòng giúp đỡ em trong quá trìnhthực hiện đề tài. Nhờ sự quan tâm chỉ bảo và những ý kiến đóng góp quý báucủa thầy và của anh em mới có thể hoàn thành luận văn này. Em xin chân thành cảm ơn tập thể các thầy, cô giáo Trường Đại họcCông nghệ thông tin và Truyền thông Thái Nguyên đã tận tình giảng dạytruyền đạt cho em những kiến thức, kinh nghiệm quý báu trong suốt nhữngnăm học vừa qua. Em cũng xin cảm ơn Sở Giáo dục và Đào tạo Phú Thọ, Trường THPTMinh Đài đã tạo điều kiện về kinh phí và thời gian để em có thể học tập vàhoàn thành luận văn. Cuối cùng em xin chân thành cảm ơn gia đình, người thân đã hết lònggiúp đỡ, hỗ trợ về vật chất lẫn tinh thần giúp em yên tâm học tập và nghiêncứu trong suốt quá trình học tập và thực hiện luận văn. Trong khoảng thời gian có hạn, cũng như kiến thức còn nhiều hạn chếluận văn không tránh khỏi những sai sót về nội dung cũng như hình thức.Kính mong nhận được sự góp ý của quý thầy cô, bạn bè và đồng nghiệp. Thái Nguyên, ngày 05 tháng 10 năm 2015 TÁC GIẢ Trần Tiến Thành 5 DANH SÁCH CÁC TỪ VIẾT TẮT Viết tắt Đầy đủBF Bloom FilterBF-LM Mô hình ngôn ngữ dựa trên Bloom FilterLF-BF-LM Mô hình ngôn ngữ Log-Frequency Bloom FilterLM Mô hình ngôn ngữMKN Phương pháp làm mịn Kneser-Ney cải tiếnMLE Ước lượng cực đại hóa khả năngMSE Lỗi trung bình bình phươngMT Dịch máyNLP Xử lý ngôn ngữ tự nhiênPDS Cấu trúc dữ liệu xác suấtRDS Cấu trúc dữ liệu ngẫu nhiênSMT Dịch máy bằng phương pháp thống kê 6 DANH MỤC CÁC HÌNH VẼHình Tên hình TrangHình 1 Kiến trúc của một hệ thống SMT 14Hình 2 Minh họa dịch máy thống kê dựa vào cụm 15 Ví dụ về hàm băm. Các xâu ký tự được chuyển thành chữHình 3 ký đại diện. 35 Cặp khóa ki và giá trị ai của tập S được ánh xạ thông quaHình 4 hàm băm vào bảng băm. Xuất hiện xung đột giữa 2 phần 36 tử k1 và k3.Hình 5 Huấn luyện Bloom Filter 37Hình 6 Truy vấn Bloom Filter 38Hình 7 Lỗi một phía trong Bloom Filter 39 7 MỤC LỤCMỞ ĐẦU .......................................................................................................... 91. Đặt vấn đề .................................................................................................... 92. Đối tượng và phạm vi nghiên cứu............................................................ 103. Nhiệm vụ nghiên cứu ................................................................................ 104. Những nội dung nghiên cứu chính .......................................................... 10NỘI DUNG ..................................................................................................... 11CHƯƠNG I .................................................................................................... 11TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ ............. 11VÀ MÔ HÌNH NGÔN NGỮ........................................................................... 111.1 Dịch máy thống kê dựa trên cụm từ ...................................................... 111.1.1 Dịch máy và dịch máy thống kê ............................................................. 111.1.2 Dịch máy thống kê dựa trên cụm ......................................................... 151.2.1 N-gram ................................................................................................... 171.2.2 Mô hình ngôn ngữ ................................................................................ 191.2.3 Huấn luyện mô hình ngôn ngữ ............................... ...

Tài liệu được xem nhiều:

Tài liệu cùng danh mục:

Tài liệu mới: