Luận văn: Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt
Số trang: 26
Loại file: pdf
Dung lượng: 307.55 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tham khảo luận văn - đề án 'luận văn:nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng việt', luận văn - báo cáo, thạc sĩ - tiến sĩ - cao học phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả
Nội dung trích xuất từ tài liệu:
Luận văn:Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG HOÀNG NHƯ QUỲNH NGHIÊN C U XÂY D NG KHO D LI U SONG NG PH C V X LÝ TI NG VI T CHUYÊN NGÀNH: KHOA H C MÁY TÍNH MÃ S : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T ĐÀ N NG - NĂM 2011 Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. Võ Trung Hùng Ph n bi n 1: GS.TS.Nguy n Thanh Th y Ph n bi n 2: PGS.TS.Tăng T n Chi n Lu n văn s ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng ngày 10 và 11 tháng 8 năm 2011. Có th tìm hi u Lu n văn t i: - Trung tâm Thông tin – H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng -1- M Đ U 1. Lý do ch n ñ tài V i s ra ñ i c a máy tính ñi n t và nh t là môi trư ng k t n i Internet toàn c u ñã t o ra m t lư ng thông tin kh ng l ñ c bi t ña ph n các d li u ñ u là ti ng Anh. Tuy nhiên lư ng thông tin to l n này v n chưa ñư c khai thác h t b i nhi u lý do và m t trong nh ng lý do quan tr ng ñó là rào c n v ngôn ng . V n ñ x lý ngôn ng t nhiên hi n nay r t c n các tài li u song ng , tuy nhiên các tài li u thư ng n m r i rác nhi u nơi dư i nhi u hình th c khác nhau. Do ñó t t c các tài li u x lý ngôn ng t nhiên ñ u d a vào kho d li u song ng ví d như d ch t ñ ng, h c ti ng Anh, khai thác thông tin trên web,…Vì v y ñòi h i m t kho d li u song ng r t l n. Hi n nay trên th gi i có r t nhi u kho d li u song ng như Anh – Pháp, Pháp – Anh, Anh – Hoa,… Tuy nhiên, ñ i v i ti ng Vi t hi n nay chưa có kho d li u song ng nào như v y ñư c công b chính th c và chia s cho ngư i s d ng. V n ñ ñ t ra là làm th nào ñ xây d ng ñư c m t kho d li u song ng Anh – Vi t t các ngu n d li u r i rác. Đ góp ph n gi i quy t v n ñ trên, chúng tôi ñ xu t ñ tài: “Nghiên c u xây d ng kho d li u song ng ph c v x lý ti ng Vi t”. 2. M c tiêu nghiên c u M c tiêu chính mà ñ tài hư ng ñ n là nghiên c u xây d ng kho d li u ch a các c p câu Anh – Vi t t các ngu n tài li u khác nhau như: trang web, t ñi n, sách, văn b n,… dư i nhi u ñ nh d ng khác nhau, như: XML, TXT, DOC,... và nghiên c u các ngu n tài li u như t ñi n L c Vi t, báo ti ng Anh – ti ng Vi t, văn b n song ng Anh – -2- Vi t,… Đ ñáp ng m c tiêu ñã nêu, ñ tài c n gi i quy t nh ng v n ñ chính sau: tìm hi u v các kho ng li u song song, thu th p các ngu n ng li u song ng Anh – Vi t, nghiên c u các gi i pháp xây d ng kho d li u song ng Anh – Vi t ñ t o ra ñư c m t cơ s d li u ph c v cho vi c h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,.... 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u là các cơ s d li u c a kho d li u song ng , các ngu n tài li u có th xây d ng nên kho d li u song ng . 4. Phương pháp nghiên c u Đ tài s d ng các k thu t tách câu t m t văn b n, bài báo,... Tìm hi u cách xây d ng kho d li u song ng ñ xây d ng kho d li u song ng Anh – Vi t. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài: Kho d li u song ng Anh – Vi t là tài nguyên có giá tr trong vi c t o ra ñư c m t cơ s d li u ph c v cho vi c d y và h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,... 6. C u trúc lu n văn Báo cáo c a lu n văn ñư c t ch c thành 3 chương. Chương 1. Nghiên c u t ng quan. Trình bày khái ni m v kho ng li u song ng , các ng d ng c a kho, nghiên c u m t s kho ng li u song ng ñang có trên th gi i; nghiên c u v XML, m t s thu t toán v x lý ngôn ng t nhiên,… Chương 2. Gi i pháp xây d ng kho d li u song ng . Chúng tôi trình bày m t s gi i pháp xây d ng kho ng li u song ng . Chương 3. Phát tri n ng d ng. Trình bày k t qu xây d ng kho d li u t nhi u ngu n d li u khác nhau. -3- CHƯƠNG 1: NGHIÊN C U T NG QUAN Trong chương này chúng tôi trình bày các v n ñ liên quan ñ n kho d li u song ng , các h cơ s d li u và phương pháp x lý ngôn ng t nhiên áp d ng khi xây d ng các kho d li u song ng . 1.1. Kho d li u song ng 1.1.1. Khái ni m a. Ng li u là nh ng d li u, c li u c a ngôn ng , t c là nh ng ch ng c th c t s d ng ngôn ng . Nh ng ch ng c s d ng ngôn ng này có th là c a ngôn ng nói mà cũng có th là ngôn ng vi t. Trong ñó ng li u t n t i dư i d ng ngôn ng vi t bao g m nhi u hình th c khác nhau như: d ng gi y, d ng ñi n t . Ng li u ch g m các văn b n c a m t ngôn ng g i là ng li u ñơn ng và ng li u c a nhi u ngôn ng g i là ng li u ña ng . b. Kho ng li u là m t t p h p các m nh ngôn ng ñư c ch n l a và s p x p theo m t s tiêu chí ngôn ng h c rõ ràng ñ ñư c s d ng như m t m u ngôn ng . Ho c: Kho ng li u là m t h th ng tham chi u d a trên m t b sưu t p ñi n t c a văn b n bao trong m t ngôn ng nh t ñ nh. c. Kho d li u song ng là m t kho các c p văn b n song ng ñư c trình bày dư i d ng ñi n t , trong ñó có m i ngôn ng là b n d ch c a ngôn ng kia. 1.1.2. ng d ng c a kho d li u song ng 1.1.2.1. ng d ng trong ngôn ng h c – th ng kê Ngôn ng h c - th ng kê là ng d ng phương pháp xác su t - th ng kê vào vi c th ng kê, ño, ñ m các ñ i tư ng trong ngành ngôn ng h c. -4- 1.1.2.2. ng d ng trong ngôn ng h c so sánh Ngôn ng h c so sánh là so sánh các ñi m tương ñ ng, khác bi t gi a các ngôn ng . Đ so sánh chúng ta c n có các c li u c a các ngôn ng mà chúng ta c n so sánh vì v y vi c thu th p, t ng h p c li u t các ngu n khác nhau là r t c n thi t. 1.1.2.3. ng d ng trong gi ng d y ngo i ng Kho ng li u song ng ñóng vai trò quan tr ng trong vi c làm ngu n ng li u và tài li u sư ph m r t phong phú, làm giàu thêm ki n th c c a h và cũng là công c h u ích trong vi c thi t k giáo trình, s d ng trong vi c d y và ...
Nội dung trích xuất từ tài liệu:
Luận văn:Nghiên cứu xây dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG HOÀNG NHƯ QUỲNH NGHIÊN C U XÂY D NG KHO D LI U SONG NG PH C V X LÝ TI NG VI T CHUYÊN NGÀNH: KHOA H C MÁY TÍNH MÃ S : 60.48.01 TÓM T T LU N VĂN TH C SĨ K THU T ĐÀ N NG - NĂM 2011 Công trình ñư c hoàn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS. Võ Trung Hùng Ph n bi n 1: GS.TS.Nguy n Thanh Th y Ph n bi n 2: PGS.TS.Tăng T n Chi n Lu n văn s ñư c b o v t i H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng ngày 10 và 11 tháng 8 năm 2011. Có th tìm hi u Lu n văn t i: - Trung tâm Thông tin – H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng -1- M Đ U 1. Lý do ch n ñ tài V i s ra ñ i c a máy tính ñi n t và nh t là môi trư ng k t n i Internet toàn c u ñã t o ra m t lư ng thông tin kh ng l ñ c bi t ña ph n các d li u ñ u là ti ng Anh. Tuy nhiên lư ng thông tin to l n này v n chưa ñư c khai thác h t b i nhi u lý do và m t trong nh ng lý do quan tr ng ñó là rào c n v ngôn ng . V n ñ x lý ngôn ng t nhiên hi n nay r t c n các tài li u song ng , tuy nhiên các tài li u thư ng n m r i rác nhi u nơi dư i nhi u hình th c khác nhau. Do ñó t t c các tài li u x lý ngôn ng t nhiên ñ u d a vào kho d li u song ng ví d như d ch t ñ ng, h c ti ng Anh, khai thác thông tin trên web,…Vì v y ñòi h i m t kho d li u song ng r t l n. Hi n nay trên th gi i có r t nhi u kho d li u song ng như Anh – Pháp, Pháp – Anh, Anh – Hoa,… Tuy nhiên, ñ i v i ti ng Vi t hi n nay chưa có kho d li u song ng nào như v y ñư c công b chính th c và chia s cho ngư i s d ng. V n ñ ñ t ra là làm th nào ñ xây d ng ñư c m t kho d li u song ng Anh – Vi t t các ngu n d li u r i rác. Đ góp ph n gi i quy t v n ñ trên, chúng tôi ñ xu t ñ tài: “Nghiên c u xây d ng kho d li u song ng ph c v x lý ti ng Vi t”. 2. M c tiêu nghiên c u M c tiêu chính mà ñ tài hư ng ñ n là nghiên c u xây d ng kho d li u ch a các c p câu Anh – Vi t t các ngu n tài li u khác nhau như: trang web, t ñi n, sách, văn b n,… dư i nhi u ñ nh d ng khác nhau, như: XML, TXT, DOC,... và nghiên c u các ngu n tài li u như t ñi n L c Vi t, báo ti ng Anh – ti ng Vi t, văn b n song ng Anh – -2- Vi t,… Đ ñáp ng m c tiêu ñã nêu, ñ tài c n gi i quy t nh ng v n ñ chính sau: tìm hi u v các kho ng li u song song, thu th p các ngu n ng li u song ng Anh – Vi t, nghiên c u các gi i pháp xây d ng kho d li u song ng Anh – Vi t ñ t o ra ñư c m t cơ s d li u ph c v cho vi c h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,.... 3. Đ i tư ng và ph m vi nghiên c u Đ i tư ng nghiên c u là các cơ s d li u c a kho d li u song ng , các ngu n tài li u có th xây d ng nên kho d li u song ng . 4. Phương pháp nghiên c u Đ tài s d ng các k thu t tách câu t m t văn b n, bài báo,... Tìm hi u cách xây d ng kho d li u song ng ñ xây d ng kho d li u song ng Anh – Vi t. 5. Ý nghĩa khoa h c và th c ti n c a ñ tài: Kho d li u song ng Anh – Vi t là tài nguyên có giá tr trong vi c t o ra ñư c m t cơ s d li u ph c v cho vi c d y và h c ti ng Anh, d ch t ñ ng, nghiên c u x lý ngôn ng t nhiên,... 6. C u trúc lu n văn Báo cáo c a lu n văn ñư c t ch c thành 3 chương. Chương 1. Nghiên c u t ng quan. Trình bày khái ni m v kho ng li u song ng , các ng d ng c a kho, nghiên c u m t s kho ng li u song ng ñang có trên th gi i; nghiên c u v XML, m t s thu t toán v x lý ngôn ng t nhiên,… Chương 2. Gi i pháp xây d ng kho d li u song ng . Chúng tôi trình bày m t s gi i pháp xây d ng kho ng li u song ng . Chương 3. Phát tri n ng d ng. Trình bày k t qu xây d ng kho d li u t nhi u ngu n d li u khác nhau. -3- CHƯƠNG 1: NGHIÊN C U T NG QUAN Trong chương này chúng tôi trình bày các v n ñ liên quan ñ n kho d li u song ng , các h cơ s d li u và phương pháp x lý ngôn ng t nhiên áp d ng khi xây d ng các kho d li u song ng . 1.1. Kho d li u song ng 1.1.1. Khái ni m a. Ng li u là nh ng d li u, c li u c a ngôn ng , t c là nh ng ch ng c th c t s d ng ngôn ng . Nh ng ch ng c s d ng ngôn ng này có th là c a ngôn ng nói mà cũng có th là ngôn ng vi t. Trong ñó ng li u t n t i dư i d ng ngôn ng vi t bao g m nhi u hình th c khác nhau như: d ng gi y, d ng ñi n t . Ng li u ch g m các văn b n c a m t ngôn ng g i là ng li u ñơn ng và ng li u c a nhi u ngôn ng g i là ng li u ña ng . b. Kho ng li u là m t t p h p các m nh ngôn ng ñư c ch n l a và s p x p theo m t s tiêu chí ngôn ng h c rõ ràng ñ ñư c s d ng như m t m u ngôn ng . Ho c: Kho ng li u là m t h th ng tham chi u d a trên m t b sưu t p ñi n t c a văn b n bao trong m t ngôn ng nh t ñ nh. c. Kho d li u song ng là m t kho các c p văn b n song ng ñư c trình bày dư i d ng ñi n t , trong ñó có m i ngôn ng là b n d ch c a ngôn ng kia. 1.1.2. ng d ng c a kho d li u song ng 1.1.2.1. ng d ng trong ngôn ng h c – th ng kê Ngôn ng h c - th ng kê là ng d ng phương pháp xác su t - th ng kê vào vi c th ng kê, ño, ñ m các ñ i tư ng trong ngành ngôn ng h c. -4- 1.1.2.2. ng d ng trong ngôn ng h c so sánh Ngôn ng h c so sánh là so sánh các ñi m tương ñ ng, khác bi t gi a các ngôn ng . Đ so sánh chúng ta c n có các c li u c a các ngôn ng mà chúng ta c n so sánh vì v y vi c thu th p, t ng h p c li u t các ngu n khác nhau là r t c n thi t. 1.1.2.3. ng d ng trong gi ng d y ngo i ng Kho ng li u song ng ñóng vai trò quan tr ng trong vi c làm ngu n ng li u và tài li u sư ph m r t phong phú, làm giàu thêm ki n th c c a h và cũng là công c h u ích trong vi c thi t k giáo trình, s d ng trong vi c d y và ...
Tìm kiếm theo từ khóa liên quan:
xử lý tiếng Việt kho dữ liệu song ngữ luận văn kỹ thuật điện hệ thống điện tóm tắt luận vănGợi ý tài liệu liên quan:
-
58 trang 319 2 0
-
Kỹ Thuật Đo Lường - TS. Nguyễn Hữu Công phần 6
18 trang 301 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 293 0 0 -
96 trang 271 0 0
-
Giáo trình Kỹ thuật điện (Nghề: Điện tử công nghiệp - Trung cấp) - Trường Cao đẳng Cơ giới
124 trang 236 2 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 235 0 0 -
Đồ án môn Điện tử công suất: Thiết kế mạch DC - DC boost converter
14 trang 235 0 0 -
ĐỒ ÁN TỐT NGHIỆP: THIẾT KẾ HỆ THỐNG CUNG CẤP ĐIỆN CHO NHÀ MÁY SẢN XUẤT GẠCH MEN SHIJAR
63 trang 221 0 0 -
79 trang 216 0 0
-
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 215 0 0