Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản
Số trang: 13
Loại file: pdf
Dung lượng: 1.00 MB
Lượt xem: 15
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt.
Nội dung trích xuất từ tài liệu:
Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bảnTẠP CHÍ KHOA HỌC SỐ 2/2016 117 TRÍCH CHỌN COLLOCATION TIẾNG VIỆT TỪ KHO NGỮ LIỆU VĂN BẢN Đỗ Thị Ngọc Quỳnh1 Trường Đại học Thủ đô Hà Nội Tóm tắt: Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng như: frequency, t-test, chi-square, mutual information, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ. Từ khóa: collocation, t-test, chi-square, mutual information, độ đo ngôn ngữ, cụm từ cố định.1. GIỚI THIỆU Collocations được hiểu là một thể hiện của hai hoặc nhiều từ tương ứng với một cáchnói thông thường. Chúng cũng được biết đến như là một lớp của các nhóm từ nằm giữathành ngữ và sự kết hợp từ tự do [4]. Tuy nhiên, rất khó để có thể phân địch rạch ròi giữamột cụm từ và một collocation. Thành ngữ và cụm từ thể hiện trong ngôn ngữ không chỉvề mặt ngữ pháp, đặc biệt, nghĩa của chúng không phải là sự kết hợp nghĩa của từng thànhphần, không thể đoán ý nghĩa của một thành ngữ từ nó chứa. Hơn nữa, nghĩa của thànhngữ thường mạnh hơn nghĩa của cụm từ không phải là thành ngữ.1 Nhận bài ngày 10.01.2016, gửi phản biện và duyệt đăng ngày 25.01.2016. Liên hệ tác giả: Đỗ Thị Ngọc Quỳnh; Email: dtnquynh@daihocthudo.edu.vn118 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI Đã có nhiều nghiên cứu về collocation được tiến hành bằng tiếng Anh nhưng chưa cóđịnh nghĩa tiêu chuẩn về collocation, bởi điều này phụ thuộc vào quan điểm và mục đíchcủa các nhà nghiên cứu. Trong bài báo này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp cáctừ thường xuất hiện cùng nhau trong phạm vi bình thường trong văn bản, vị trí và ngữ pháptương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ [2, 21, 23], biên soạntừ điển [11] cũng như vấn đề xử lý ngôn ngữ tự nhiên [4, 16, 18, 25, 27]. Do đó, việc khaithác các collocations được lựa chọn trong mỗi ngôn ngữ là thực sự cần thiết, nó giúp cảithiện tính chính xác và tính chất của việc áp dụng xử lý ngôn ngữ tự nhiên, cũng như giúpviệc tìm hiểu một ngôn ngữ mới dễ dàng hơn. Ngoài ra, việc biên dịch collocation cải thiệnchất lượng của dịch máy. Các kiến thức về collocations có thể cải thiện hiệu suất của hệthống tìm kiếm thông tin. Phương pháp thống kê đã cho thấy một sự hiện diện đáng chú ýtrong khai thác collocation. Đo tần số được sử dụng để xác định một loại cụ thể củacollocations. Thông tin tương hỗ đã được sử dụng để trích xuất các cặp từ có xu hướng xảyra trong một cửa sổ kích thước cố định (thường là 5 từ), trong đó có chiết xuất từ có thểkhông liên quan trực tiếp. Việc sử dụng của t-test để tìm những từ có sự xuất hiện các môhình hợp tác tốt nhất trong phân biệt giữa hai từ đã được đề xuất trước đây. Người ta cũngáp dụng tỷ lệ khả năng thử nghiệm để khai phá collocation.2. CÁC NGHIÊN CỨU LIÊN QUAN Một ví dụ điển hình của collocation là ví dụ của Halliday: strong vs. powerful tea ([10]Halliday 1966: P150). Đó là một quy ước trong tiếng Anh để nói strong tea chứ khôngphải powerful tea, mặc dù bất kỳ người nói tiếng Anh cũng sẽ hiểu. Sự kết hợp của từ màkhông theo một quy tắc ngữ pháp hoặc ngữ nghĩa là định nghĩa của collocations. Do đó,sắp xếp từ có thể được hiểu như là một sự kết hợp của các từ mà không tuân theo một quytắc ngữ pháp hoặc ngữ nghĩa ở tất cả các văn bản. Theo một số quan điểm, collocations cốđịnh và không linh hoạt. Nghĩa của collocation không thường được suy ra từ nghĩa của cáctừ thành các phần và thay thế một từ với một từ đồng nghĩa hoàn toàn có thể thay đổi ýnghĩa của collocation. Collocations cũng được hiểu như là sự kết hợp ngữ dụn ...
Nội dung trích xuất từ tài liệu:
Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bảnTẠP CHÍ KHOA HỌC SỐ 2/2016 117 TRÍCH CHỌN COLLOCATION TIẾNG VIỆT TỪ KHO NGỮ LIỆU VĂN BẢN Đỗ Thị Ngọc Quỳnh1 Trường Đại học Thủ đô Hà Nội Tóm tắt: Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng như: frequency, t-test, chi-square, mutual information, đồng thời đề xuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn. Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnh hưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệu thử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gán nhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chương trình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúng tôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt sử dụng độ đo ngôn ngữ. Từ khóa: collocation, t-test, chi-square, mutual information, độ đo ngôn ngữ, cụm từ cố định.1. GIỚI THIỆU Collocations được hiểu là một thể hiện của hai hoặc nhiều từ tương ứng với một cáchnói thông thường. Chúng cũng được biết đến như là một lớp của các nhóm từ nằm giữathành ngữ và sự kết hợp từ tự do [4]. Tuy nhiên, rất khó để có thể phân địch rạch ròi giữamột cụm từ và một collocation. Thành ngữ và cụm từ thể hiện trong ngôn ngữ không chỉvề mặt ngữ pháp, đặc biệt, nghĩa của chúng không phải là sự kết hợp nghĩa của từng thànhphần, không thể đoán ý nghĩa của một thành ngữ từ nó chứa. Hơn nữa, nghĩa của thànhngữ thường mạnh hơn nghĩa của cụm từ không phải là thành ngữ.1 Nhận bài ngày 10.01.2016, gửi phản biện và duyệt đăng ngày 25.01.2016. Liên hệ tác giả: Đỗ Thị Ngọc Quỳnh; Email: dtnquynh@daihocthudo.edu.vn118 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI Đã có nhiều nghiên cứu về collocation được tiến hành bằng tiếng Anh nhưng chưa cóđịnh nghĩa tiêu chuẩn về collocation, bởi điều này phụ thuộc vào quan điểm và mục đíchcủa các nhà nghiên cứu. Trong bài báo này, chúng tôi chấp nhận định nghĩa: collocation là một sự kết hợp cáctừ thường xuất hiện cùng nhau trong phạm vi bình thường trong văn bản, vị trí và ngữ pháptương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ [2, 21, 23], biên soạntừ điển [11] cũng như vấn đề xử lý ngôn ngữ tự nhiên [4, 16, 18, 25, 27]. Do đó, việc khaithác các collocations được lựa chọn trong mỗi ngôn ngữ là thực sự cần thiết, nó giúp cảithiện tính chính xác và tính chất của việc áp dụng xử lý ngôn ngữ tự nhiên, cũng như giúpviệc tìm hiểu một ngôn ngữ mới dễ dàng hơn. Ngoài ra, việc biên dịch collocation cải thiệnchất lượng của dịch máy. Các kiến thức về collocations có thể cải thiện hiệu suất của hệthống tìm kiếm thông tin. Phương pháp thống kê đã cho thấy một sự hiện diện đáng chú ýtrong khai thác collocation. Đo tần số được sử dụng để xác định một loại cụ thể củacollocations. Thông tin tương hỗ đã được sử dụng để trích xuất các cặp từ có xu hướng xảyra trong một cửa sổ kích thước cố định (thường là 5 từ), trong đó có chiết xuất từ có thểkhông liên quan trực tiếp. Việc sử dụng của t-test để tìm những từ có sự xuất hiện các môhình hợp tác tốt nhất trong phân biệt giữa hai từ đã được đề xuất trước đây. Người ta cũngáp dụng tỷ lệ khả năng thử nghiệm để khai phá collocation.2. CÁC NGHIÊN CỨU LIÊN QUAN Một ví dụ điển hình của collocation là ví dụ của Halliday: strong vs. powerful tea ([10]Halliday 1966: P150). Đó là một quy ước trong tiếng Anh để nói strong tea chứ khôngphải powerful tea, mặc dù bất kỳ người nói tiếng Anh cũng sẽ hiểu. Sự kết hợp của từ màkhông theo một quy tắc ngữ pháp hoặc ngữ nghĩa là định nghĩa của collocations. Do đó,sắp xếp từ có thể được hiểu như là một sự kết hợp của các từ mà không tuân theo một quytắc ngữ pháp hoặc ngữ nghĩa ở tất cả các văn bản. Theo một số quan điểm, collocations cốđịnh và không linh hoạt. Nghĩa của collocation không thường được suy ra từ nghĩa của cáctừ thành các phần và thay thế một từ với một từ đồng nghĩa hoàn toàn có thể thay đổi ýnghĩa của collocation. Collocations cũng được hiểu như là sự kết hợp ngữ dụn ...
Tìm kiếm theo từ khóa liên quan:
Độ đo ngôn ngữ Trích chọn collocation tiếng Việt Kho ngữ liệu văn bản Xử lý ngôn ngữ tự nhiên Tiêu chuẩn hóa tiếng ViệtGợi ý tài liệu liên quan:
-
12 trang 306 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 273 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 192 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 173 0 0 -
74 trang 157 0 0
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 139 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 133 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 126 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 116 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 94 0 0