Báo cáo tổng kết khoa học và kỹ thuật đề tài: Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt
Số trang: 121
Loại file: pdf
Dung lượng: 1.54 MB
Lượt xem: 37
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Báo cáo tổng kết khoa học và kỹ thuật đề tài "Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt" nhằm mục đích nghiên cứu khảo sát xây dựng các phương pháp hiệu quả cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt
Nội dung trích xuất từ tài liệu:
Báo cáo tổng kết khoa học và kỹ thuật đề tài: Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004 Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang HÀ NÔI, 12/2004 Bản quyền 2004 thuộc Viện Công nghệ thông tin Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng với mục đích nghiên cứu VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004 Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang HÀ NỘI, 12/2004 Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện Đề tài cấp Nhà nước mã số KC01-03 2 DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH TT 1 2 3 4 5 6 7 8 9 10 Họ và tên Bạch Hưng Khang Ngô Cao Sơn Lương Chi Mai Ngô Quốc Tạo Lê Khánh Hùng Vũ Kim Bảng Hồ Tú Bảo Nguyễn Thị Minh Huyền Đàm Hiếu Dũng Ngô Hoàng Huy Chức vụ, học vị GS.TSKH NCVCC KS TS. NCVC PGS. TS. NCVC TS. TS GS. TSKH Thạc sĩ KS KS Đơn vị công tác Viện CNTT Viện CNTT Viện CNTT Viện CNTT Viện NCUDCN Trung tâm Ngữ âm học thực nghiệm Viện CNTT ĐHKHTN Hà nội Trung tâm kỹ thuật thông tấn Viện CNTT Nhiệm vụ thuộc đề tài Chủ nhiệm đề tài Thư ký Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Trưởng nhóm Đơn vị phối hợp Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án TT 1 Tên tổ chức Trung tâm Ngữ âm học thực nghiệm, Viện Ngôn ngữ học, Trung tâm khoa học xã hội và nhân văn. Địa chỉ 22 Lý Thái Tổ Hoạt động/đóng góp cho đề tài Xây dựng CSDL ngữ âm, phân tich các đặc trưng ngôn ngữ, ngữ âm, thanh điệu cho tiếng Việt: - Phân tích phổ của các âm vị khó. - Nghiên cứu cấu trúc nguyên âm. - Nghiên cứu cấu trúc âm tiếng Việt, tổng hợp giọng nói. Nghiên cứu và phát triển phương pháp dịch tự động Việt - Anh Nghiên cứu phương pháp dóng hàng trong các văn bản song ngữ Pháp - Việt / Việt – Pháp Xây dựng công nghệ Coding ngữ nghĩa của âm thanh 2 3 4 Trug tâm nghiên cứu ứng dụng quang điện tử, Viện nghiên cứu ứng dụng công nghệ. Khoa Toán – Cơ – Tin học, Bộ môn Tin học, ĐHKHTN Hà nội Trung tâm kỹ thuật thông tấn – TTXVN C6 Thanh xuân bắc, Hà nội Nguyễn Trãi, Hà nội 5 Lý Thường Kiệt 3 5 Nhóm nghiên cứu triển khai của Công ty NetNam GS John-Paul Hosom, CSLU- Center of Spoken Language Understanding, OGI, USA 6 7 GS Hansjoerg Mixdorff, University of Applied Science, Berlin GS Hiroya Fujisaki, Frontier Informatics, School of Frontier Science, University of Tokyo 8 Tích hợp công nghệ tổng hợp và 18 Đường Hoàng Quốc nhận dạng tiếng Việt với các dịch vụ số của INTERNET thế Việt hệ hai và ứng dụng. Cung cấp công cụ và phương Cascade pháp nhận dạng bằng HMM và Building 20000 N.W. ANN, CSDL tiếng Việt qua mạng điện thoại. Walker Road Beaverton, OR 97006 Steinstr. 27 Phương pháp và mô hình Fujisaki cho các ngôn ngữ có A, 12307 thanh điệu Berlin Germany Phương pháp và mô hình 7-3-1 Fujisaki cho các ngôn ngữ có Hongo Bunkyo-ku, thanh điệu Tokyo 113003 Japan 4 TÓM TẮT Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệ đã ý thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy và người có thể giao tiếp với nhau bằng ngôn ngữ tự nhiên. Trong đó có rất nhiều vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp người máy là xử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết, dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn ngữ đơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả. Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt. Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là: 1. Nhận dạng và tổng hợp tiếng Việt 2. Nhận dạng chữ Việt in và viết tay có hạn chế 3. Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động). Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài vừa phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0, phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên. Đề tài cũng đã đóng góp các bài nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới. 5 ...
Nội dung trích xuất từ tài liệu:
Báo cáo tổng kết khoa học và kỹ thuật đề tài: Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004 Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang HÀ NÔI, 12/2004 Bản quyền 2004 thuộc Viện Công nghệ thông tin Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng với mục đích nghiên cứu VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT Thời gian thực hiện: 2001- 6/2004 Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang HÀ NỘI, 12/2004 Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện Đề tài cấp Nhà nước mã số KC01-03 2 DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH TT 1 2 3 4 5 6 7 8 9 10 Họ và tên Bạch Hưng Khang Ngô Cao Sơn Lương Chi Mai Ngô Quốc Tạo Lê Khánh Hùng Vũ Kim Bảng Hồ Tú Bảo Nguyễn Thị Minh Huyền Đàm Hiếu Dũng Ngô Hoàng Huy Chức vụ, học vị GS.TSKH NCVCC KS TS. NCVC PGS. TS. NCVC TS. TS GS. TSKH Thạc sĩ KS KS Đơn vị công tác Viện CNTT Viện CNTT Viện CNTT Viện CNTT Viện NCUDCN Trung tâm Ngữ âm học thực nghiệm Viện CNTT ĐHKHTN Hà nội Trung tâm kỹ thuật thông tấn Viện CNTT Nhiệm vụ thuộc đề tài Chủ nhiệm đề tài Thư ký Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Trưởng nhóm Đơn vị phối hợp Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án TT 1 Tên tổ chức Trung tâm Ngữ âm học thực nghiệm, Viện Ngôn ngữ học, Trung tâm khoa học xã hội và nhân văn. Địa chỉ 22 Lý Thái Tổ Hoạt động/đóng góp cho đề tài Xây dựng CSDL ngữ âm, phân tich các đặc trưng ngôn ngữ, ngữ âm, thanh điệu cho tiếng Việt: - Phân tích phổ của các âm vị khó. - Nghiên cứu cấu trúc nguyên âm. - Nghiên cứu cấu trúc âm tiếng Việt, tổng hợp giọng nói. Nghiên cứu và phát triển phương pháp dịch tự động Việt - Anh Nghiên cứu phương pháp dóng hàng trong các văn bản song ngữ Pháp - Việt / Việt – Pháp Xây dựng công nghệ Coding ngữ nghĩa của âm thanh 2 3 4 Trug tâm nghiên cứu ứng dụng quang điện tử, Viện nghiên cứu ứng dụng công nghệ. Khoa Toán – Cơ – Tin học, Bộ môn Tin học, ĐHKHTN Hà nội Trung tâm kỹ thuật thông tấn – TTXVN C6 Thanh xuân bắc, Hà nội Nguyễn Trãi, Hà nội 5 Lý Thường Kiệt 3 5 Nhóm nghiên cứu triển khai của Công ty NetNam GS John-Paul Hosom, CSLU- Center of Spoken Language Understanding, OGI, USA 6 7 GS Hansjoerg Mixdorff, University of Applied Science, Berlin GS Hiroya Fujisaki, Frontier Informatics, School of Frontier Science, University of Tokyo 8 Tích hợp công nghệ tổng hợp và 18 Đường Hoàng Quốc nhận dạng tiếng Việt với các dịch vụ số của INTERNET thế Việt hệ hai và ứng dụng. Cung cấp công cụ và phương Cascade pháp nhận dạng bằng HMM và Building 20000 N.W. ANN, CSDL tiếng Việt qua mạng điện thoại. Walker Road Beaverton, OR 97006 Steinstr. 27 Phương pháp và mô hình Fujisaki cho các ngôn ngữ có A, 12307 thanh điệu Berlin Germany Phương pháp và mô hình 7-3-1 Fujisaki cho các ngôn ngữ có Hongo Bunkyo-ku, thanh điệu Tokyo 113003 Japan 4 TÓM TẮT Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệ đã ý thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy và người có thể giao tiếp với nhau bằng ngôn ngữ tự nhiên. Trong đó có rất nhiều vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp người máy là xử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết, dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn ngữ đơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả. Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt. Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là: 1. Nhận dạng và tổng hợp tiếng Việt 2. Nhận dạng chữ Việt in và viết tay có hạn chế 3. Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động). Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài vừa phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0, phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên. Đề tài cũng đã đóng góp các bài nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới. 5 ...
Tìm kiếm theo từ khóa liên quan:
Đề tài Nghiên cứu khoa học Công nghệ nhận dạng Nhận dạng chữ viết Ngôn ngữ tiếng Việt Nhận dạng chữ Việt in Nhận dạng chữ Việt viết tayGợi ý tài liệu liên quan:
-
Đề tài nghiên cứu khoa học: Kỹ năng quản lý thời gian của sinh viên trường Đại học Nội vụ Hà Nội
80 trang 1553 4 0 -
Tiểu luận: Phương pháp Nghiên cứu Khoa học trong kinh doanh
27 trang 496 0 0 -
95 trang 269 1 0
-
82 trang 222 0 0
-
Đề tài nghiên cứu khoa học và công nghệ cấp trường: Hệ thống giám sát báo trộm cho xe máy
63 trang 200 0 0 -
61 trang 196 0 0
-
8 trang 194 0 0
-
Báo cáo tóm tắt đề tài: Thành phần phụ của câu tiếng Việt nhìn từ góc độ kết trị cúa từ
24 trang 193 0 0 -
Tài liệu về phương pháp nghiên cứu khoa học
9 trang 177 0 0 -
Đề tài nghiên cứu khoa học: Tái cấu trúc nhân sự xí nghiệp xếp dỡ Hoàng Diệu - cảng Hải Phòng
68 trang 174 0 0