Danh mục

Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA

Số trang: 50      Loại file: pdf      Dung lượng: 1.77 MB      Lượt xem: 6      Lượt tải: 0    
Jamona

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Kiến trúc xử lý thông tin phi cấu trúc (Unstructured Information Management Architecture - UIMA) giúp phân tích nguồn thông tin không có cấu trúc thành những thông tin có cấu trúc mang giá trị cao. Kiến trúc này linh hoạt và hiệu quả trong việc ghép nối giải pháp nhỏ thành một công cụ lớn hơn, hoàn thiện hơn. Chúng tôi tận dụng những đặc điểm này để xây dựng công cụ phân tích tiếng Việt bằng cách tích hợp các công cụ xử lý tiếng Việt có sẵn lên UIMA và đưa ra một số phương hướng để...
Nội dung trích xuất từ tài liệu:
Luận văn:Nghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Nguyễn Đức NamNghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Hà Nội – 2010 ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI -------- Nguyễn Đức NamNghiên cứu và phát triển các công cụ xử lý tiếng Việt trên UIMA KHÓA LUẬN TỐT NGHIỆP HỆ CHÍNH QUY Công Nghệ Thông Tin Ngành: GV hướng dẫn: TS. Phạm Bảo Sơn Hà Nội – 2010Nghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức NamLời cảm ơn Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy Phạm Bảo Sơn, ngườiđã không quản vất vả hướng dẫn em trong suốt thời gian làm khóa luận tốt nghiệp vừaqua. Em cũng xin chân thành cảm ơn anh Nguyễn Quốc Đại đã luôn chỉ bảo và giảiđáp vướng mắc cho em trong quá trình làm khóa luận. Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong Trường Đại HọcCông Nghệ đã tận tình dạy dỗ em suốt bốn năm học qua. Tôi xin cảm ơn tập thể phòng HMI những người luôn động viên và cho tôinhững lời khuyên có ích trong quá trình làm khóa luận. Xin cảm ơn những người bạn luôn ở bên cạnh quan tâm, ủng hộ và động viêntôi. Con xin cảm ơn bố, mẹ và gia đình đã luôn bên con, cho con động lực để làmviệc tốt hơn. Hà Nội, ngày 20 tháng 5 năm 2010 Nguyễn Đức Nam iNghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức NamLời mở đầuKiến trúc xử lý thông tin phi cấu trúc (Unstructured Information ManagementArchitecture - UIMA) giúp phân tích nguồn thông tin không có cấu trúc thành nhữngthông tin có cấu trúc mang giá trị cao. Kiến trúc này linh hoạt và hiệu quả trong việcghép nối giải pháp nhỏ thành một công cụ lớn hơn, hoàn thiện hơn. Chúng tôi tận dụngnhững đặc điểm này để xây dựng công cụ phân tích tiếng Việt bằng cách tích hợp cáccông cụ xử lý tiếng Việt có sẵn lên UIMA và đưa ra một số phương hướng để pháttriển chúng. iiNghiên cứu, phát triển các công cụ xử lý tiếng Việt trên UIMA Nguyễn Đức NamMục lụcLời cảm ơn .............................................................................................................................................................. iLời mở đầu ............................................................................................................................................................. iiMục lục .................................................................................................................................................................. iiiDanh sách hình vẽ .................................................................................................................................................. vDanh sách thuật ngữ ............................................................................................................................................ viChương 1: Giới thiệu ............................................................................................................................................. 1Chương 2: Tổng quan kiến trúc xử lý thông tin phi cấu trúc ............................................................................ 3 2.1 Giới thiệu UIMA ........................................................................................................................................ 3 2.2 Nền tảng phân tích .................................................................................................................................... 6 2.2.1 Hệ thống kiểu và chú giải ................................................................................................................. 9 2.2.2 Máy phân tích ................................................................................................................................. 10 2.2.3 Bộ miêu tả XML .............................................................................................................................. 15 2.3 Mô tả đối tượng trong tài liệu ................................................................................................................. 17 2.4 Xây dựng ứng dụng và xử lý tập tài liệu ................................................................................................. 17 2.4.1 Tương tác giữa ứng dụng và UIMA ................................................................................................. 18 2.4.2 Giới thiệu máy xử lý tập tài liệu....................................................................................................... 20 2.4.3 Quản lý xử lý tập tài liệu .................................................................................................................. 21 2.5 Khai thác kết quả phân tích .................................................................................................................... 21 2.5.1 Tìm kiếm ngữ nghĩa ......................................................................................................................... 22 2.5.2 Cơ sở dữ liệu .................................................................................................................................... 22 2.6 Xử lý đa phương tiện........... ...

Tài liệu được xem nhiều:

Tài liệu cùng danh mục:

Tài liệu mới: