Tóm tắt Luận án Tiến sĩ Lhoa học máy tính: Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh - Việt
Số trang: 26
Loại file: pdf
Dung lượng: 435.57 KB
Lượt xem: 12
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận án được tổ chức thành 4 chương: Chương 1/ Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án. Chương 2/ Trình bày nội dung, kết quả nghiên cứu về xây dựng ngữ liệu song ngữ cho dịch máy thống kê. Chương 3/ Trình bày nội dung, kết quả nghiên cứu về một số cải tiến mô hình IBM để gióng hàng từ cho dịch máy thống kê. Chương 4/ Trình bày nội dung, kết quả nghiên cứu về xác định cụm từ song ngữ cho dịch máy thống kê.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Lhoa học máy tính: Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh - ViệtĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆLÊ QUANG HÙNGKHAI PHÁ TRI THỨCSONG NGỮ VÀ ỨNG DỤNGTRONG DỊCH MÁY ANH – VIỆTChuyên ngành: Khoa học máy tínhMã số: 62 48 01 01TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNHHà Nội - 2016Hà Nội – 2014Công trình được hoàn thành tại: Trường Đa ̣i ho ̣c Công nghê ̣ , Đa ̣i ho ̣c Quố cgia Hà Nô ̣i.Người hướng dẫn khoa học:1. PGS.TS. Lê Anh Cường2. PGS.TS. Huỳnh Văn NamPhản biện 1: PGS.TS. Nguyễn Kim AnhPhản biện 2: TS. Nguyễn Đức DũngPhản biện 3: TS. Lê Hồng PhươngLuận án đã được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận ántiến sĩ họp tại Trường Đa ̣i ho ̣c Công nghê ̣ , Đại học Quốc gia Hà Nội vào hồi 9 giờngày 12 tháng 01 năm 2016.Có thể tìm hiểu luận án tại:-Thư viện Quốc gia Việt Nam-Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà NộiMở đầu1. Tính cấp thiết của luận ánÝ tưởng về dịch máy (machine translation - MT) ra đời từ năm 1949. Từ đó đếnnay, sau hơn 60 năm nghiên cứu và phát triển, các dịch vụ dịch máy bây giờ đã trởnên phổ biến rộng rãi. Hiện nay, dịch máy dựa trên cách tiếp cận thống kê đanglà một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so với cáccách tiếp cận khác. Đối với một hệ thống dịch máy thống kê (statistical machinetranslation - SMT), chất lượng dịch tỷ lệ thuận với số lượng và chất lượng củangữ liệu song ngữ được sử dụng để xây dựng hệ thống dịch. Tuy nhiên, ngữ liệusong ngữ hiện vẫn còn hạn chế cả về kích thước lẫn chất lượng, ngay cả đối vớicác ngôn ngữ chính. Ngoài ra, đối với các cặp ngôn ngữ có nhiều khác biệt về cấutrúc ngữ pháp (ví dụ, Anh - Việt), vấn đề về chất lượng dịch đang là thách thứcđối với các nhà nghiên cứu về dịch máy trong nhiều năm qua. Vì vậy, các nghiêncứu nhằm khai thác thêm ngữ liệu song ngữ và phát triển các phương pháp hiệuquả hơn dựa trên ngữ liệu hiện có để tăng chất lượng dịch cho SMT là những vấnđề cấp thiết và mang tính thời sự trong lĩnh vực xử lý ngôn ngữ tự nhiên hiệnnay. Điều này là động lực để chúng tôi lựa chọn nghiên cứu về đề tài Khai phátri thức song ngữ và ứng dụng trong dịch máy Anh - Việt.2. Mục tiêu của luận ánTrong luận án này, chúng tôi đặt ra hai mục tiêu chính:• Thứ nhất, nghiên cứu đề xuất một số phương pháp để khai thác tri thứcsong ngữ nhằm bổ sung nguồn ngữ liệu cho SMT.• Thứ hai, nghiên cứu đề xuất một số phương pháp để làm tăng chất lượngdịch cho SMT dựa trên ngữ liệu hiện có.3. Đóng góp của luận án• Đề xuất một số phương pháp để xây dựng ngữ liệu song ngữ cho dịch máythống kê từ Web và sách điện tử song ngữ. Đối với nguồn từ Web, chúngtôi đề xuất hai phương pháp thiết kế các đặc trưng dựa trên nội dung: sửdụng cognate và sử dụng các phân đoạn dịch. Đối với nguồn từ sách điện tử,1chúng tôi đề xuất phương pháp dựa trên nội dung, sử dụng một số mẫu liênkết giữa các khối văn bản trong hai ngôn ngữ để rút trích các câu song ngữ.• Đề xuất một số cải tiến đối với mô hình gióng hàng IBM theo cách tiếp cậndựa trên ràng buộc, bao gồm: ràng buộc neo, ràng buộc về vị trí của từ,ràng buộc về từ loại và ràng buộc về cụm từ. Những cải tiến này đã giúpnâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt.• Đề xuất phương pháp xác định cụm từ song ngữ cho dịch máy thống kê.Trước hết, chúng tôi sử dụng tập các mẫu cú pháp ở một ngôn ngữ để pháthiện cụm từ nguồn. Sau đó, chúng tôi tìm bản dịch của cụm từ nguồn sửdụng mô hình gióng hàng từ ràng buộc. Các cụm từ song ngữ này đã đượcứng dụng vào việc nâng cao chất lượng dịch cho dịch máy thống kê Anh Việt.Các nội dung và kết quả nghiên cứu trình bày trong luận án (từ Chương 2 đếnChương 4) đã được công bố trong 8 công trình. Trong đó, 1 bài báo ở tạp chí quốctế có phản biện, được xuất bản bởi IGI Global; 4 báo cáo trong kỷ yếu của hộinghị quốc tế có phản biện, được xuất bản bởi IEEE và Springer; 2 báo cáo trongkỷ yếu của hội thảo quốc gia có phản biện và 1 bài báo ở tạp chí trong nước cóphản biện.4. Bố cục của luận ánNgoài phần mở đầu và kết luận, luận án được tổ chức thành 4 chương:• Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án.Chúng tôi phân tích, đánh giá các công trình nghiên cứu liên quan; nêu ramột số vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết; xác định nộidung nghiên cứu của luận án.• Chương 2. Trình bày nội dung, kết quả nghiên cứu về xây dựng ngữ liệusong ngữ cho dịch máy thống kê.• Chương 3. Trình bày nội dung, kết quả nghiên cứu về một số cải tiến môhình IBM để gióng hàng từ cho dịch máy thống kê.• Chương 4. Trình bày nội dung, kết quả nghiên cứu về xác định cụm từsong ngữ cho dịch máy thống kê.2Chương 1Tổng quan1.1Khai phá tri thức song ngữNhiệm vụ của khai phá tri thức song ngữ là tự động tìm ra các thành phần cóngữ nghĩa tương ứng trong các văn bản ở hai ngôn ngữ khác nhau. Tri thức songngữ gồm nhiều khía cạnh: song ngữ về từ, song ngữ về cụm từ, song ngữ về cấutrúc, vv.1.1.1Xây dựng ngữ liệu song ngữNgữ liệu song ngữ là tập hợp các văn bản song ngữ. Web là nguồn cơ sở dữ liệukhổng lồ chứa các tài liệu đa ngôn ngữ, nguồn dữ liệu này được sử dụng cho cácứng dụng xử lý văn bản song ngữ. Ngoài ra, nhiều sách điện tử song ngữ chứa mộtsố lượng lớn các văn bản song ngữ được dịch cẩn thận. Đây là nguồn dữ liệu rấttiềm năng để bổ sung ngữ liệu song ngữ cho SMT, đặc biệt đối với các cặp ngônngữ còn hạn chế về ngữ liệu song ngữ như Anh - Việt, Nhật - Việt, vv.1.1.2Gióng hàng văn bản1.1.2.1Gióng hàng đoạn/câuNhiệm vụ của gióng hàng đoạn/câu là liên kết các đoạn/câu trong một văn bản ởngôn ngữ này với các đoạn/câu là bản dịch tương ứng của nó trong một văn bản3 ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Lhoa học máy tính: Khai phá tri thức song ngữ và ứng dụng trong dịch máy Anh - ViệtĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆLÊ QUANG HÙNGKHAI PHÁ TRI THỨCSONG NGỮ VÀ ỨNG DỤNGTRONG DỊCH MÁY ANH – VIỆTChuyên ngành: Khoa học máy tínhMã số: 62 48 01 01TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNHHà Nội - 2016Hà Nội – 2014Công trình được hoàn thành tại: Trường Đa ̣i ho ̣c Công nghê ̣ , Đa ̣i ho ̣c Quố cgia Hà Nô ̣i.Người hướng dẫn khoa học:1. PGS.TS. Lê Anh Cường2. PGS.TS. Huỳnh Văn NamPhản biện 1: PGS.TS. Nguyễn Kim AnhPhản biện 2: TS. Nguyễn Đức DũngPhản biện 3: TS. Lê Hồng PhươngLuận án đã được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận ántiến sĩ họp tại Trường Đa ̣i ho ̣c Công nghê ̣ , Đại học Quốc gia Hà Nội vào hồi 9 giờngày 12 tháng 01 năm 2016.Có thể tìm hiểu luận án tại:-Thư viện Quốc gia Việt Nam-Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà NộiMở đầu1. Tính cấp thiết của luận ánÝ tưởng về dịch máy (machine translation - MT) ra đời từ năm 1949. Từ đó đếnnay, sau hơn 60 năm nghiên cứu và phát triển, các dịch vụ dịch máy bây giờ đã trởnên phổ biến rộng rãi. Hiện nay, dịch máy dựa trên cách tiếp cận thống kê đanglà một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so với cáccách tiếp cận khác. Đối với một hệ thống dịch máy thống kê (statistical machinetranslation - SMT), chất lượng dịch tỷ lệ thuận với số lượng và chất lượng củangữ liệu song ngữ được sử dụng để xây dựng hệ thống dịch. Tuy nhiên, ngữ liệusong ngữ hiện vẫn còn hạn chế cả về kích thước lẫn chất lượng, ngay cả đối vớicác ngôn ngữ chính. Ngoài ra, đối với các cặp ngôn ngữ có nhiều khác biệt về cấutrúc ngữ pháp (ví dụ, Anh - Việt), vấn đề về chất lượng dịch đang là thách thứcđối với các nhà nghiên cứu về dịch máy trong nhiều năm qua. Vì vậy, các nghiêncứu nhằm khai thác thêm ngữ liệu song ngữ và phát triển các phương pháp hiệuquả hơn dựa trên ngữ liệu hiện có để tăng chất lượng dịch cho SMT là những vấnđề cấp thiết và mang tính thời sự trong lĩnh vực xử lý ngôn ngữ tự nhiên hiệnnay. Điều này là động lực để chúng tôi lựa chọn nghiên cứu về đề tài Khai phátri thức song ngữ và ứng dụng trong dịch máy Anh - Việt.2. Mục tiêu của luận ánTrong luận án này, chúng tôi đặt ra hai mục tiêu chính:• Thứ nhất, nghiên cứu đề xuất một số phương pháp để khai thác tri thứcsong ngữ nhằm bổ sung nguồn ngữ liệu cho SMT.• Thứ hai, nghiên cứu đề xuất một số phương pháp để làm tăng chất lượngdịch cho SMT dựa trên ngữ liệu hiện có.3. Đóng góp của luận án• Đề xuất một số phương pháp để xây dựng ngữ liệu song ngữ cho dịch máythống kê từ Web và sách điện tử song ngữ. Đối với nguồn từ Web, chúngtôi đề xuất hai phương pháp thiết kế các đặc trưng dựa trên nội dung: sửdụng cognate và sử dụng các phân đoạn dịch. Đối với nguồn từ sách điện tử,1chúng tôi đề xuất phương pháp dựa trên nội dung, sử dụng một số mẫu liênkết giữa các khối văn bản trong hai ngôn ngữ để rút trích các câu song ngữ.• Đề xuất một số cải tiến đối với mô hình gióng hàng IBM theo cách tiếp cậndựa trên ràng buộc, bao gồm: ràng buộc neo, ràng buộc về vị trí của từ,ràng buộc về từ loại và ràng buộc về cụm từ. Những cải tiến này đã giúpnâng cao chất lượng dịch cho hệ thống dịch máy thống kê Anh - Việt.• Đề xuất phương pháp xác định cụm từ song ngữ cho dịch máy thống kê.Trước hết, chúng tôi sử dụng tập các mẫu cú pháp ở một ngôn ngữ để pháthiện cụm từ nguồn. Sau đó, chúng tôi tìm bản dịch của cụm từ nguồn sửdụng mô hình gióng hàng từ ràng buộc. Các cụm từ song ngữ này đã đượcứng dụng vào việc nâng cao chất lượng dịch cho dịch máy thống kê Anh Việt.Các nội dung và kết quả nghiên cứu trình bày trong luận án (từ Chương 2 đếnChương 4) đã được công bố trong 8 công trình. Trong đó, 1 bài báo ở tạp chí quốctế có phản biện, được xuất bản bởi IGI Global; 4 báo cáo trong kỷ yếu của hộinghị quốc tế có phản biện, được xuất bản bởi IEEE và Springer; 2 báo cáo trongkỷ yếu của hội thảo quốc gia có phản biện và 1 bài báo ở tạp chí trong nước cóphản biện.4. Bố cục của luận ánNgoài phần mở đầu và kết luận, luận án được tổ chức thành 4 chương:• Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án.Chúng tôi phân tích, đánh giá các công trình nghiên cứu liên quan; nêu ramột số vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết; xác định nộidung nghiên cứu của luận án.• Chương 2. Trình bày nội dung, kết quả nghiên cứu về xây dựng ngữ liệusong ngữ cho dịch máy thống kê.• Chương 3. Trình bày nội dung, kết quả nghiên cứu về một số cải tiến môhình IBM để gióng hàng từ cho dịch máy thống kê.• Chương 4. Trình bày nội dung, kết quả nghiên cứu về xác định cụm từsong ngữ cho dịch máy thống kê.2Chương 1Tổng quan1.1Khai phá tri thức song ngữNhiệm vụ của khai phá tri thức song ngữ là tự động tìm ra các thành phần cóngữ nghĩa tương ứng trong các văn bản ở hai ngôn ngữ khác nhau. Tri thức songngữ gồm nhiều khía cạnh: song ngữ về từ, song ngữ về cụm từ, song ngữ về cấutrúc, vv.1.1.1Xây dựng ngữ liệu song ngữNgữ liệu song ngữ là tập hợp các văn bản song ngữ. Web là nguồn cơ sở dữ liệukhổng lồ chứa các tài liệu đa ngôn ngữ, nguồn dữ liệu này được sử dụng cho cácứng dụng xử lý văn bản song ngữ. Ngoài ra, nhiều sách điện tử song ngữ chứa mộtsố lượng lớn các văn bản song ngữ được dịch cẩn thận. Đây là nguồn dữ liệu rấttiềm năng để bổ sung ngữ liệu song ngữ cho SMT, đặc biệt đối với các cặp ngônngữ còn hạn chế về ngữ liệu song ngữ như Anh - Việt, Nhật - Việt, vv.1.1.2Gióng hàng văn bản1.1.2.1Gióng hàng đoạn/câuNhiệm vụ của gióng hàng đoạn/câu là liên kết các đoạn/câu trong một văn bản ởngôn ngữ này với các đoạn/câu là bản dịch tương ứng của nó trong một văn bản3 ...
Tìm kiếm theo từ khóa liên quan:
Luận án Tiến sĩ Khoa học máy tính Khai phá tri thức song ngữ Dịch máy Anh Việt Ngữ liệu song ngữ Cải tiến mô hình IBMGợi ý tài liệu liên quan:
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 456 1 0 -
205 trang 411 0 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 375 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 371 6 0 -
206 trang 298 2 0
-
174 trang 295 0 0
-
228 trang 258 0 0
-
32 trang 210 0 0
-
Luận án tiến sĩ Ngữ văn: Dấu ấn tư duy đồng dao trong thơ thiếu nhi Việt Nam từ 1945 đến nay
193 trang 206 0 0 -
Đồ án nghiên cứu khoa học: Ứng dụng công nghệ cảm biến IoT vào mô hình thủy canh
30 trang 197 0 0