Danh mục

LUẬN VĂN: CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT

Số trang: 49      Loại file: pdf      Dung lượng: 581.03 KB      Lượt xem: 9      Lượt tải: 0    
Thư Viện Số

Hỗ trợ phí lưu trữ khi tải xuống: 24,500 VND Tải xuống file đầy đủ (49 trang) 0

Báo xấu

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phương pháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đề xuất...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: CÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị NgânCÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đồng Thị NgânCÁC KỸ THUẬT XÁC ĐỊNH COLLOCATION VÀ ỨNG DỤNG CHO TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2010 LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành tới TS. Lê Anh Cường, người đãluôn theo sát giúp đỡ em trong quá trình hoàn thành luận văn này. Đồng thời, em cũng xin cảm ơn các thầy cô giáo trong bộ môn Khoa học máytính nói riêng và các thầy cô giáo trong khoa Công nghệ thông tin nói chung. Nếukhông có các thầy, các cô và khoa thì chắc chắn em không thể hoàn thành tốt khoáluận. Cuối cùng, tôi xin bày tỏ sự biết ơn vô hạn tới cha mẹ, các anh chị và bạn bè đãluôn ở bên cạnh khuyến khích, động viên, giúp em vượt qua những khó khăn trong quátrình thực hiện luận văn. Hà Nội, ngày 21 tháng 5 năm 2010 Sinh viên thực hiện ĐỒNG THỊ NGÂN TÓM TẮT LUẬN VĂN Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiêncũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu vềcollocation là một lĩnh vực khá mới mẻ. Luận văn này tập trung vào nghiên cứu một sốphương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọncollcations trong tiếng Việt. Các phương pháp được nêu ra bao gồm một số phươngpháp thống kê cổ điển thường được sử dụng cho tiếng Anh và tiếng Đức đồng thời đềxuất một số phương pháp tổng hợp nhằm tăng độ chính xác của quá trình trích chọn.Không chỉ dừng lại ở các phương pháp, chúng tôi cũng tiến hành nghiên cứu ảnhhưởng của việc tiền xử lý dữ liệu lên độ chính xác của chương trình trích chọn. Dữ liệuthử nghiệm bao gồm cả dữ liệu thô, chưa qua xử lý, dữ liệu đã được qua một bộ gánnhãn từ loại và dữ liệu đã được phân tích cú pháp. Thông qua việc chạy các chươngtrình với đầu vào dữ liệu khác nhau, so sánh độ chính xác của các phương pháp, chúngtôi đề xuất mô hình trích chọn hiệu quả cho tiếng Việt.GIỚI THIỆU Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”,mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea”không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giảnchỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuântheo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một địnhnghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từkhông tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnhnào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocationthường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thànhphần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó. Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một địnhnghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọncollocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận vănnày, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuấthiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháptương đối cố định. Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23],biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25,27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sựcần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngônngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn. Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã đượctiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vựckhá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ởmức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương phápthống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiềnxử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm;từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chươngtrình. ...

Tài liệu được xem nhiều: