Luận văn Thạc sĩ Khoa học: Phát triển công cụ gióng hàng văn bản song ngữ
Số trang: 41
Loại file: pdf
Dung lượng: 493.87 KB
Lượt xem: 1
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu nghiên cứu của luận văn nhằm xây dựng một kho ngữ liệu song ngữ Anh - Việt gióng hàng mức câu. Cải tiến công cụ gióng hàng văn bản song ngữ Anh - Việt XAlign cải thiện độ chính xác và độ phủ.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học: Phát triển công cụ gióng hàng văn bản song ngữĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN-------------------NGUYỄN MINH HẢIPHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂNBẢN SONG NGỮLUẬN VĂN THẠC SĨ KHOA HỌCHà Nội – 2016ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN-------------------NGUYỄN MINH HẢIPHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂNBẢN SONG NGỮChuyên ngành: Cơ sở Toán cho Tin họcMã số:60460110LUẬN VĂN THẠC SĨ KHOA HỌCNGƯỜI HƯỚNG DẪN KHOA HỌC:TS Nguyễn Thị Minh HuyềnHà Nội – 2016Lời cảm ơnTrong quá trình thực hiện luận văn cũng như trong những năm học vừa qua, em đãnhận được sự chỉ bảo và hướng dẫn tận tâm của TS. Nguyễn Thị Minh Huyền. Em xingửi tới cô lời cảm ơn chân thành và sâu sắc nhất.Ngoài ra, em cũng xin gửi lời cảm ơn tới các thầy giáo, cô giáo, cán bộ, nhân viên KhoaToán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội vàkhoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula đã tận tình dạy dỗ và giúp đỡem trong những năm trên giảng đường đại học và cao học.Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên, khuyếnkhích và tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận vănnày.Do hạn chế về kiến thức, kinh nghiệm, thời gian tìm hiểu và thực hiện nên luận vănchắc chắn còn nhiều thiếu sót. Em rất mong sẽ nhận được nhiều ý kiến đóng góp củathầy, cô và các bạn để em có được cái nhìn sâu sắc hơn về vấn đề này.Hà Nội, tháng 12 năm 2016Học viênNguyễn Minh HảiMục lụcLời cảm ơnMỞ ĐẦU11 CÁC CÁCH TIẾP CẬN GIÓNG HÀNG31.1Kiến thức chuẩn bị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31.2Bối cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71.3Các hướng tiếp cận gióng hàng hiện nay . . . . . . . . . . . . . . . . . . .91.3.1Phương pháp gióng hàng dựa vào chiều dài câu . . . . . . . . . . .91.3.2Phương pháp gióng hàng dựa vào điểm tương đồng . . . . . . . . . 161.3.3Phương pháp gióng hàng dựa vào từ vựng . . . . . . . . . . . . . . 191.3.4Kết hợp các phương pháp . . . . . . . . . . . . . . . . . . . . . . . 261.4Một số công cụ gióng hàng . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.4.1NATools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.2GIZA++1.4.3hunalign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.4Per-Fide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.5cwb-align . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.4.6WinAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH - VIỆT2.133Đặc điểm tiếng Anh và tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 332.2Các nghiên cứu và công cụ về gióng hàng văn bản song ngữ mức câu tiếngViệt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.3Công cụ XAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.3.1Thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . 412.3.2Cấu trúc chương trình . . . . . . . . . . . . . . . . . . . . . . . . . 422.3.3Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.3.4Các cải tiến về thuật toán và tham số trên công cụ viXAlign . . . . 432.3.5Một số hướng cải tiến công cụ đang tiến hành . . . . . . . . . . . . 462.4Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.5Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.6Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.6.1Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses 50KẾT LUẬN53TÀI LIỆU THAM KHẢO55
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học: Phát triển công cụ gióng hàng văn bản song ngữĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN-------------------NGUYỄN MINH HẢIPHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂNBẢN SONG NGỮLUẬN VĂN THẠC SĨ KHOA HỌCHà Nội – 2016ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN-------------------NGUYỄN MINH HẢIPHÁT TRIỂN CÔNG CỤ GIÓNG HÀNG VĂNBẢN SONG NGỮChuyên ngành: Cơ sở Toán cho Tin họcMã số:60460110LUẬN VĂN THẠC SĨ KHOA HỌCNGƯỜI HƯỚNG DẪN KHOA HỌC:TS Nguyễn Thị Minh HuyềnHà Nội – 2016Lời cảm ơnTrong quá trình thực hiện luận văn cũng như trong những năm học vừa qua, em đãnhận được sự chỉ bảo và hướng dẫn tận tâm của TS. Nguyễn Thị Minh Huyền. Em xingửi tới cô lời cảm ơn chân thành và sâu sắc nhất.Ngoài ra, em cũng xin gửi lời cảm ơn tới các thầy giáo, cô giáo, cán bộ, nhân viên KhoaToán - Cơ - Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội vàkhoa Toán - Cơ - Tin học, trường Đại học quốc gia Tula đã tận tình dạy dỗ và giúp đỡem trong những năm trên giảng đường đại học và cao học.Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên, khuyếnkhích và tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận vănnày.Do hạn chế về kiến thức, kinh nghiệm, thời gian tìm hiểu và thực hiện nên luận vănchắc chắn còn nhiều thiếu sót. Em rất mong sẽ nhận được nhiều ý kiến đóng góp củathầy, cô và các bạn để em có được cái nhìn sâu sắc hơn về vấn đề này.Hà Nội, tháng 12 năm 2016Học viênNguyễn Minh HảiMục lụcLời cảm ơnMỞ ĐẦU11 CÁC CÁCH TIẾP CẬN GIÓNG HÀNG31.1Kiến thức chuẩn bị . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .31.2Bối cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71.3Các hướng tiếp cận gióng hàng hiện nay . . . . . . . . . . . . . . . . . . .91.3.1Phương pháp gióng hàng dựa vào chiều dài câu . . . . . . . . . . .91.3.2Phương pháp gióng hàng dựa vào điểm tương đồng . . . . . . . . . 161.3.3Phương pháp gióng hàng dựa vào từ vựng . . . . . . . . . . . . . . 191.3.4Kết hợp các phương pháp . . . . . . . . . . . . . . . . . . . . . . . 261.4Một số công cụ gióng hàng . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.4.1NATools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.2GIZA++1.4.3hunalign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.4Per-Fide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.4.5cwb-align . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.4.6WinAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH - VIỆT2.133Đặc điểm tiếng Anh và tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . 332.2Các nghiên cứu và công cụ về gióng hàng văn bản song ngữ mức câu tiếngViệt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.3Công cụ XAlign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.3.1Thuật toán quy hoạch động . . . . . . . . . . . . . . . . . . . . . . 412.3.2Cấu trúc chương trình . . . . . . . . . . . . . . . . . . . . . . . . . 422.3.3Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.3.4Các cải tiến về thuật toán và tham số trên công cụ viXAlign . . . . 432.3.5Một số hướng cải tiến công cụ đang tiến hành . . . . . . . . . . . . 462.4Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.5Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.6Ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.6.1Sử dụng kho ngữ liệu song ngữ huấn luyện hệ thống dịch máy Moses 50KẾT LUẬN53TÀI LIỆU THAM KHẢO55
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Luận văn Khoa học Xử lý ngôn ngữ tự nhiên Phương pháp gióng hàng Gióng hàng văn bản song ngữTài liệu liên quan:
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 365 5 0 -
97 trang 330 0 0
-
97 trang 313 0 0
-
12 trang 308 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 302 0 0 -
155 trang 280 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 274 0 0 -
115 trang 269 0 0
-
64 trang 265 0 0
-
26 trang 263 0 0