Danh mục

Luận văn: Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt

Số trang: 56      Loại file: pdf      Dung lượng: 571.34 KB      Lượt xem: 14      Lượt tải: 0    
Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: 28,000 VND Tải xuống file đầy đủ (56 trang) 0
Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phân đoạn từ (Word segmentation) và gán nhãn từ loại( Part-of-speech tagging - POS tagging) là hai bài toán đạc biệt quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn ban đầu. Do đó, nhu cầu là rất lớn cả về cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho thấy hai quá trình này có liên quan với nhau và ảnh hưởng đến chất lượng của một hệ chung. Vì thế, trong luận văn...
Nội dung trích xuất từ tài liệu:
Luận văn:Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng ViệtMô hình tách t , gán nhãn t lo i và hư ng ti p c n tích h p cho ti ng Vi t TR N TH OANH Master Thesis Gi ng viên hư ng d n: TS. Lê Anh Cư ng PGS.TS. Hà Quang Th y 20081i L I CAM ĐOANTôi xin cam đoan đây là công trình nghiên c u c a b n thân. Các s li u, k t qu trìnhbày trong lu n văn là trung th c và chưa t ng đư c ai công b trong b t kỳ công trìnhnào trư c đây. ii L I C M ƠNTrư c tiên, tôi xin g i l i c m ơn chân thành và s bi t ơn sâu s c t i PGS.TS Hà QuangThu và TS Lê Anh Cư ng (Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i) đãt n tình hư ng d n tôi trong su t quá trình th c hi n khoá lu n này.Tôi xin chân thành c m ơn các thày cô giáo đã gi ng d y tôi trong su t các năm tôi theoh c t i trư ng Đ i h c công ngh đã cho tôi nh ng ki n th c quí báu đ tôi có th v ngbư c trên con đư ng đi c a mình.Tôi xin g i l i c m ơn các anh ch em trong nhóm seminar v khai phá d li u phòngthí nghi m Các h tích h p thông minh (SISLAB) trư ng Đ i h c Công ngh đã nhi ttình ch b o trong quá trình tôi tham gia nghiên c u khoa h c và th c hi n lu n văn này.Và l i cu i cùng, tôi xin bày t lòng chân thành và bi t ơn vô h n t i cha m , và các anhch tôi, nh ng ngư i luôn bên c nh tôi nh ng lúc tôi khó khăn nh t, giúp tôi vư t quakhó khăn trong h c t p cũng như trong cu c s ng. Hà N i, ngày 30 tháng 12 năm 2008 Sinh viên Tr n Th Oanh iii M ĐU Phân đo n t (Word segmentation) và gán nhãn t lo i( Part-of-speech tagging – POStagging) là hai bài toán đ c bi t quan tr ng trong x lý ngôn ng t nhiên. Tuy nhiên,các nghiên c u t i Vi t Nam v hai v n đ này v n còn giai đo n ban đ u. Do đó, nhuc u là r t l n c v cơ s khoa h c và xây d ng công c th c hi n s n dùng. Th c t choth y hai quá trình này có liên quan v i nhau và nh hư ng đ n ch t lư ng c a m t hchung. Vì th , trong lu n văn này chúng tôi nghiên c u “Mô hình tách t , gán nhãnt lo i và hư ng ti p c n tích h p cho ti ng Vi t” . Đóng góp c a lu n văn là vi ctìm hi u, nghiên c u và đ xu t mô hình th c hi n tách t , gán nhãn t lo i POS ti ngVi t; xây d ng công c th c hi n liên quan; bên c nh đó đ hu n luy n và ki m th môhình chúng tôi cũng ti n hành xây d ng m t corpus ti ng Vi t v tách t và gán nhãn tlo i x p x 8000 câu. Lu n văn cũng ti n hành th c nghi m m t hư ng ti p c n tích h pcho hai bài toán này. Các k t qu này có s đ c bi t h u ích cho các nghiên c u mccao hơn như d ch máy, tóm t t văn b n, phân tích cú pháp ...C u trúc c a lu n văn đư c trình bày như sau: • Chương 1: Khái quát v tách t và gán nhãn t lo i ti ng Vi t : Trong chương này, lu n văn gi i thi u hai bài toán cơ b n trong x lý ngôn ng t nhiên là bài toán tách t và bài toán gán nhãn t lo i ti ng Vi t - các hư ng ti p c n cho m i bài toán và tình hình nghiên c u chung Vi t Nam cũng như trên th gi i. Chương cũng trình bày các hư ng ti p c n tích h p hai bài toán này đ nâng cao hi u qu c a c hai mô hình đã đư c áp d ng thành công cho ti ng Trung. • Chương 2: Mô hình tách t ti ng Vi t : Chương này nghiên c u và đ xu t m t mô hình cho bài toán tách t ti ng Vi t t n d ng thông tin t tri th c t nhi u ngu n khác nhau nh m làm tăng đ chính xác c a b tách t . • Chương 3: Mô hình gán nhãn t lo i ti ng Vi t: Chương này nghiên c u và đ xu t mô hình gán nhãn t lo i ti ng Vi t, các công vi c mà lu n văn đã ti n hành nh m xây d ng m t mô hình gán nhãn POS hi u qu như thi t k corpus gán iv nhãn t lo i, đ xu t mô hình s d ng Maximum Entropy Markov Model (MEM) và thi t k các t p đ c trưng khác nhau đ tìm ra các đ c trưng h u ích cho ti ng Vi t.• Chương 4: Mô hình tích h p tách t và gán nhãn t lo i ti ng Vi t: T các nghiên c u đã trình bày trong chương 2 và chương 3 và đ c đi m ti ng Vi t, chương này trình bày m t mô hình tích h p áp d ng cho ti ng Vi t.• K t lu n: Ph n này tóm t t l i n i dung c a lu n văn và nh ng đóng góp chính mà lu n văn đã th c hi n.• Ph l c A: M t s thu t ng Anh - Vi t : M t s thu t ng ti ng Anh hay dùng và ch vi t t t.• Ph l c B: Chú gi i t p t lo i vnPOS : Mô t c th đ gi i thích thêm và các nhãn t lo i mà lu n văn đ xu t đ xây d ng corpus gán nhãn t lo i cho ti ng Vi t. vM cl cM đu v1 Khái quát v tách t và gán nhãn t lo i ti ng Vi t 1 1.1 Khái quát v tách t ti ng Vi t . . ...

Tài liệu được xem nhiều: