Luận văn: Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt
Số trang: 56
Loại file: pdf
Dung lượng: 571.34 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Phân đoạn từ (Word segmentation) và gán nhãn từ loại( Part-of-speech tagging - POS tagging) là hai bài toán đạc biệt quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn ban đầu. Do đó, nhu cầu là rất lớn cả về cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho thấy hai quá trình này có liên quan với nhau và ảnh hưởng đến chất lượng của một hệ chung. Vì thế, trong luận văn...
Nội dung trích xuất từ tài liệu:
Luận văn:Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng ViệtMô hình tách t , gán nhãn t lo i và hư ng ti p c n tích h p cho ti ng Vi t TR N TH OANH Master Thesis Gi ng viên hư ng d n: TS. Lê Anh Cư ng PGS.TS. Hà Quang Th y 20081i L I CAM ĐOANTôi xin cam đoan đây là công trình nghiên c u c a b n thân. Các s li u, k t qu trìnhbày trong lu n văn là trung th c và chưa t ng đư c ai công b trong b t kỳ công trìnhnào trư c đây. ii L I C M ƠNTrư c tiên, tôi xin g i l i c m ơn chân thành và s bi t ơn sâu s c t i PGS.TS Hà QuangThu và TS Lê Anh Cư ng (Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i) đãt n tình hư ng d n tôi trong su t quá trình th c hi n khoá lu n này.Tôi xin chân thành c m ơn các thày cô giáo đã gi ng d y tôi trong su t các năm tôi theoh c t i trư ng Đ i h c công ngh đã cho tôi nh ng ki n th c quí báu đ tôi có th v ngbư c trên con đư ng đi c a mình.Tôi xin g i l i c m ơn các anh ch em trong nhóm seminar v khai phá d li u phòngthí nghi m Các h tích h p thông minh (SISLAB) trư ng Đ i h c Công ngh đã nhi ttình ch b o trong quá trình tôi tham gia nghiên c u khoa h c và th c hi n lu n văn này.Và l i cu i cùng, tôi xin bày t lòng chân thành và bi t ơn vô h n t i cha m , và các anhch tôi, nh ng ngư i luôn bên c nh tôi nh ng lúc tôi khó khăn nh t, giúp tôi vư t quakhó khăn trong h c t p cũng như trong cu c s ng. Hà N i, ngày 30 tháng 12 năm 2008 Sinh viên Tr n Th Oanh iii M ĐU Phân đo n t (Word segmentation) và gán nhãn t lo i( Part-of-speech tagging – POStagging) là hai bài toán đ c bi t quan tr ng trong x lý ngôn ng t nhiên. Tuy nhiên,các nghiên c u t i Vi t Nam v hai v n đ này v n còn giai đo n ban đ u. Do đó, nhuc u là r t l n c v cơ s khoa h c và xây d ng công c th c hi n s n dùng. Th c t choth y hai quá trình này có liên quan v i nhau và nh hư ng đ n ch t lư ng c a m t hchung. Vì th , trong lu n văn này chúng tôi nghiên c u “Mô hình tách t , gán nhãnt lo i và hư ng ti p c n tích h p cho ti ng Vi t” . Đóng góp c a lu n văn là vi ctìm hi u, nghiên c u và đ xu t mô hình th c hi n tách t , gán nhãn t lo i POS ti ngVi t; xây d ng công c th c hi n liên quan; bên c nh đó đ hu n luy n và ki m th môhình chúng tôi cũng ti n hành xây d ng m t corpus ti ng Vi t v tách t và gán nhãn tlo i x p x 8000 câu. Lu n văn cũng ti n hành th c nghi m m t hư ng ti p c n tích h pcho hai bài toán này. Các k t qu này có s đ c bi t h u ích cho các nghiên c u mccao hơn như d ch máy, tóm t t văn b n, phân tích cú pháp ...C u trúc c a lu n văn đư c trình bày như sau: • Chương 1: Khái quát v tách t và gán nhãn t lo i ti ng Vi t : Trong chương này, lu n văn gi i thi u hai bài toán cơ b n trong x lý ngôn ng t nhiên là bài toán tách t và bài toán gán nhãn t lo i ti ng Vi t - các hư ng ti p c n cho m i bài toán và tình hình nghiên c u chung Vi t Nam cũng như trên th gi i. Chương cũng trình bày các hư ng ti p c n tích h p hai bài toán này đ nâng cao hi u qu c a c hai mô hình đã đư c áp d ng thành công cho ti ng Trung. • Chương 2: Mô hình tách t ti ng Vi t : Chương này nghiên c u và đ xu t m t mô hình cho bài toán tách t ti ng Vi t t n d ng thông tin t tri th c t nhi u ngu n khác nhau nh m làm tăng đ chính xác c a b tách t . • Chương 3: Mô hình gán nhãn t lo i ti ng Vi t: Chương này nghiên c u và đ xu t mô hình gán nhãn t lo i ti ng Vi t, các công vi c mà lu n văn đã ti n hành nh m xây d ng m t mô hình gán nhãn POS hi u qu như thi t k corpus gán iv nhãn t lo i, đ xu t mô hình s d ng Maximum Entropy Markov Model (MEM) và thi t k các t p đ c trưng khác nhau đ tìm ra các đ c trưng h u ích cho ti ng Vi t.• Chương 4: Mô hình tích h p tách t và gán nhãn t lo i ti ng Vi t: T các nghiên c u đã trình bày trong chương 2 và chương 3 và đ c đi m ti ng Vi t, chương này trình bày m t mô hình tích h p áp d ng cho ti ng Vi t.• K t lu n: Ph n này tóm t t l i n i dung c a lu n văn và nh ng đóng góp chính mà lu n văn đã th c hi n.• Ph l c A: M t s thu t ng Anh - Vi t : M t s thu t ng ti ng Anh hay dùng và ch vi t t t.• Ph l c B: Chú gi i t p t lo i vnPOS : Mô t c th đ gi i thích thêm và các nhãn t lo i mà lu n văn đ xu t đ xây d ng corpus gán nhãn t lo i cho ti ng Vi t. vM cl cM đu v1 Khái quát v tách t và gán nhãn t lo i ti ng Vi t 1 1.1 Khái quát v tách t ti ng Vi t . . ...
Nội dung trích xuất từ tài liệu:
Luận văn:Mô tả tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng ViệtMô hình tách t , gán nhãn t lo i và hư ng ti p c n tích h p cho ti ng Vi t TR N TH OANH Master Thesis Gi ng viên hư ng d n: TS. Lê Anh Cư ng PGS.TS. Hà Quang Th y 20081i L I CAM ĐOANTôi xin cam đoan đây là công trình nghiên c u c a b n thân. Các s li u, k t qu trìnhbày trong lu n văn là trung th c và chưa t ng đư c ai công b trong b t kỳ công trìnhnào trư c đây. ii L I C M ƠNTrư c tiên, tôi xin g i l i c m ơn chân thành và s bi t ơn sâu s c t i PGS.TS Hà QuangThu và TS Lê Anh Cư ng (Trư ng Đ i h c Công ngh , Đ i h c Qu c gia Hà N i) đãt n tình hư ng d n tôi trong su t quá trình th c hi n khoá lu n này.Tôi xin chân thành c m ơn các thày cô giáo đã gi ng d y tôi trong su t các năm tôi theoh c t i trư ng Đ i h c công ngh đã cho tôi nh ng ki n th c quí báu đ tôi có th v ngbư c trên con đư ng đi c a mình.Tôi xin g i l i c m ơn các anh ch em trong nhóm seminar v khai phá d li u phòngthí nghi m Các h tích h p thông minh (SISLAB) trư ng Đ i h c Công ngh đã nhi ttình ch b o trong quá trình tôi tham gia nghiên c u khoa h c và th c hi n lu n văn này.Và l i cu i cùng, tôi xin bày t lòng chân thành và bi t ơn vô h n t i cha m , và các anhch tôi, nh ng ngư i luôn bên c nh tôi nh ng lúc tôi khó khăn nh t, giúp tôi vư t quakhó khăn trong h c t p cũng như trong cu c s ng. Hà N i, ngày 30 tháng 12 năm 2008 Sinh viên Tr n Th Oanh iii M ĐU Phân đo n t (Word segmentation) và gán nhãn t lo i( Part-of-speech tagging – POStagging) là hai bài toán đ c bi t quan tr ng trong x lý ngôn ng t nhiên. Tuy nhiên,các nghiên c u t i Vi t Nam v hai v n đ này v n còn giai đo n ban đ u. Do đó, nhuc u là r t l n c v cơ s khoa h c và xây d ng công c th c hi n s n dùng. Th c t choth y hai quá trình này có liên quan v i nhau và nh hư ng đ n ch t lư ng c a m t hchung. Vì th , trong lu n văn này chúng tôi nghiên c u “Mô hình tách t , gán nhãnt lo i và hư ng ti p c n tích h p cho ti ng Vi t” . Đóng góp c a lu n văn là vi ctìm hi u, nghiên c u và đ xu t mô hình th c hi n tách t , gán nhãn t lo i POS ti ngVi t; xây d ng công c th c hi n liên quan; bên c nh đó đ hu n luy n và ki m th môhình chúng tôi cũng ti n hành xây d ng m t corpus ti ng Vi t v tách t và gán nhãn tlo i x p x 8000 câu. Lu n văn cũng ti n hành th c nghi m m t hư ng ti p c n tích h pcho hai bài toán này. Các k t qu này có s đ c bi t h u ích cho các nghiên c u mccao hơn như d ch máy, tóm t t văn b n, phân tích cú pháp ...C u trúc c a lu n văn đư c trình bày như sau: • Chương 1: Khái quát v tách t và gán nhãn t lo i ti ng Vi t : Trong chương này, lu n văn gi i thi u hai bài toán cơ b n trong x lý ngôn ng t nhiên là bài toán tách t và bài toán gán nhãn t lo i ti ng Vi t - các hư ng ti p c n cho m i bài toán và tình hình nghiên c u chung Vi t Nam cũng như trên th gi i. Chương cũng trình bày các hư ng ti p c n tích h p hai bài toán này đ nâng cao hi u qu c a c hai mô hình đã đư c áp d ng thành công cho ti ng Trung. • Chương 2: Mô hình tách t ti ng Vi t : Chương này nghiên c u và đ xu t m t mô hình cho bài toán tách t ti ng Vi t t n d ng thông tin t tri th c t nhi u ngu n khác nhau nh m làm tăng đ chính xác c a b tách t . • Chương 3: Mô hình gán nhãn t lo i ti ng Vi t: Chương này nghiên c u và đ xu t mô hình gán nhãn t lo i ti ng Vi t, các công vi c mà lu n văn đã ti n hành nh m xây d ng m t mô hình gán nhãn POS hi u qu như thi t k corpus gán iv nhãn t lo i, đ xu t mô hình s d ng Maximum Entropy Markov Model (MEM) và thi t k các t p đ c trưng khác nhau đ tìm ra các đ c trưng h u ích cho ti ng Vi t.• Chương 4: Mô hình tích h p tách t và gán nhãn t lo i ti ng Vi t: T các nghiên c u đã trình bày trong chương 2 và chương 3 và đ c đi m ti ng Vi t, chương này trình bày m t mô hình tích h p áp d ng cho ti ng Vi t.• K t lu n: Ph n này tóm t t l i n i dung c a lu n văn và nh ng đóng góp chính mà lu n văn đã th c hi n.• Ph l c A: M t s thu t ng Anh - Vi t : M t s thu t ng ti ng Anh hay dùng và ch vi t t t.• Ph l c B: Chú gi i t p t lo i vnPOS : Mô t c th đ gi i thích thêm và các nhãn t lo i mà lu n văn đ xu t đ xây d ng corpus gán nhãn t lo i cho ti ng Vi t. vM cl cM đu v1 Khái quát v tách t và gán nhãn t lo i ti ng Vi t 1 1.1 Khái quát v tách t ti ng Vi t . . ...
Tìm kiếm theo từ khóa liên quan:
luận văn mô tả tách từ gán nhãn từ loại tiếng Việt ngôn ngữ tự nhiên tiếp cận bài toán gán nhãn tiếng ViệtTài liệu liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 310 0 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 238 0 0 -
79 trang 230 0 0
-
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 220 0 0 -
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 219 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 217 0 0 -
Báo cáo thực tập nhà máy đường Bến Tre
68 trang 215 0 0 -
Báo cáo bài tập môn học : phân tích thiết kế hệ thống
27 trang 207 0 0 -
BÀI THUYẾT TRÌNH CÔNG TY CỔ PHẦN
11 trang 205 0 0 -
Luận văn: Nghiên cứu văn hóa Ấn Độ
74 trang 200 0 0