Thông tin tài liệu:
Mô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhất hiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp các từ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…). Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảo trật tự từ vựng.
Nội dung trích xuất từ tài liệu:
Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kêNguyễn Văn Vinh và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆ113(13): 107 - 113MỘT CÁCH TIẾP CẬN TÍCH HỢP TRÍ THỨC VỀ NGÔN NGỮVÀO HỆ DỊCH MÁY THỐNG KÊNguyễn Văn Vinh1, Lê Thu Trang2,*, Nguyễn Thị Xuân Hương321Trường Đại học Công nghệ – ĐH Quốc Gia Hà NộiTrường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên3Trường Đại học Dân lập Hải PhòngTÓM TẮTMô hình dịch thống kê dựa vào cụm (MHTKC) [6] là một trong những mô hình dịch tự động tốt nhấthiện nay. Tuy nhiên sự hạn chế của mô hình MHTKC là nó xem xét các cụm như là dãy liên tiếp cáctừ và nó hoàn toàn bỏ qua bất cứ thông tin về ngôn ngữ (thông tin cú pháp, thông tin ngữ nghĩa,…).Để giải quyết vấn đề này, trong bài báo này, chúng tôi tập trung vào nghiên cứu cải tiến mô hình đảotrật tự từ vựng. Chúng tôi mở rộng mô hình đảo trật tự cụm có phân cấp [2] sử dụng mô hìnhMaximum Entropy (ME) để đoán hướng và ước lượng xác suất. Với mô hình này, chúng ta có thểtích hợp thông tin giàu tri thức ngôn ngữ vào như các thuộc tính địa phương cũng như là toàn cục.Hơn nữa, xác suất được ước lượng bằng mô hình ME sẽ chính xác và mịn hơn so với ước lượng dựavào cách tiếp cần tần suất tương đối. Kết quả thử nghiệm với cặp ngôn ngữ Anh-Việt cho thấy cáchtiếp cận của chúng tôi tốt hơn so với cách tiếp cận sử dụng mô hình từ vựng phân cấp [2].Từ khóa: Mô hình dịch thống kê, trí thức về ngôn ngữ.ĐẶT VẤN ĐỀ*Những năm gần đây, sự bùng nổ của cách tiếpcận dịch máy thống kê dựa vào cụm đã tạo racác sản phẩm thương mại được sử dụng rộngrãi trên thế giới (hệ dịch của google,microsoft, …) [14][15]. Một trong những vấnđề quan trọng của dịch máy thống kê dựa vàocụm liên quan đến việc là làm thế nào để sinhra thứ tự các từ (cụm) chính xác trong ngônngữ đích.Hình 1. Hướng của cụm (M, S, D) cho ví dụ dịchAnh-ViệtĐể giải quyết vấn đề trên, gần đây, trong[4][5], mô hình đảo trật tự từ vựng (LRMs) đãphát triển để dự đoán hướng của cặp cụm dựavào cụm đích liền kề. Những mô hình nàyphân biệt ba hướng của cặp cụm hiện tại theo*Tel: 0925009989cụm đích phía trước: (1) monotone (M) – cụmnguồn phía trước là liền kề trước cụm nguồnhiện tại, (2) swap (S) – cụm nguồn phía trướclà liền kề sau cụm nguồn hiện tại và (3)discontinuous (D) – không phải là S và M.Hình 1 (1) biểu diễn ví dụ mà ở đây mô hìnhhiệu quả trong việc swap cụm tính từ “nicenew” và cụm “house” và cụm “a” làmonotone với cụm “This is”. Những mô hìnhđảo trật tự từ vựng này cho chất lượng tốt hơnso với MHTKC. Tuy nhiên những mô hìnhnày giải quyết đảo trật tự từ của các cụm cạnhnhau, chúng thường thất bại khi cụm từ mà vịtrị đảo nằm xa nhau. Ví dụ trong hình 1 (2),hướng của cụm “Tom’s” nên được swap vớiphần còn lại của cụm danh từ, tuy nhiên LRMđoán hướng là discontinuous (D).Galley and Manning [2] đã mở rộng mô hìnhLRMs bằng cách đề xuất mô hình đảo cụmphân cấp (HRM). Mô hình này dựa vào cấutrúc phân cấp và có thể giải quyết đượctrường hợp đảo vị trí của các cụm xa nhau. Vídụ trong hình 1(2) mô hình của họ có thể giảiquyết được cụm liền kề “two” và “bluebooks” như là một cụm và sự thay thế của“Tom’s” theo cụm này được giải quyết như làswap(S). Tuy nhiên, mô hình của họ cũng cóvài nhược điểm như sau:107Nguyễn Văn Vinh và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆ• Mô hình này ước lượng xác suất dựa vàocách tiếp cận quan hệ tần suất, mà ở đây sẽchụi ảnh hưởng của vấn đề dữ liệu thưa. Mộttrong những lý do là hầu hết các ví dụ về cụmchỉ xuất hiện 1 lần trong dữ liệu huấn luyện(96.5% ví dụ về cụm xuất hiện 1 lần trongkho dữ liệu “General”).• Mô hình này không sử dụng bất cứ thông tinvề ngôn ngữ. Điều này làm thiếu thông tinngữ cảnh trong việc dự đoán hướng và ướclượng xác suất của cặp cụm.Chúng tôi tập trung vào nghiên cứu cải tiếnmô hình đảo trật tự từ vựng. Chúng tôi mởrộng mô hình đảo trật tự cụm có phân cấp [2]sử dụng mô hình Maximum Entropy (ME) đểđoán hướng và ước lượng xác suất . Với môhình này, chúng ta có thể tích hợp thông tingiàu trí thức ngôn ngữ vào như các thuộc tínhđịa phương cũng như là toàn cục. Hơn nữa,xác suất được ước lượng bằng mô hình ME sẽchính xác và mịn hơn so với ước lượng dựavào cách tiếp cần tần suất tương đối. Kết quảthử nghiệm với cặp ngôn ngữ Anh-Việt chothấy cách tiếp cận của chúng tôi tốt hơn sovới cách tiếp cận sử dụng mô hình từ vựngphân cấp [2].MỘT SỐ NGHIÊN CỨU LIÊN QUANQuá trình giải mã trong MHTKC xây dựng câuđích từ trái qua phải. Từ giả thuyết hiện tại,điều quan trọng là phải xác định cụm nguồnnào cần được dịch. Một vài nhà nghiên cứu[11], [4] đã đề xuất mô hình khá mạnh đượcgọi là mô hình đảo trật tự từ vựng cho việc dựđoán hướng của cụm nguồn như mô tả ở phầntrên. LRMs học hướng địa phương (monotonecùng hướng, swap- khác hướng, discontinue không gần nhau) với xác suất của mỗi cặp cụmsong ngữ từ dữ liệu huấn luyện.[12][13] ứng dụng mô hình MaximumEntropy cho đảo trật tự cụm. Họ sử dụn ...