Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2end
Số trang: 3
Loại file: pdf
Dung lượng: 210.63 KB
Lượt xem: 16
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2end trình bày cách tiếp cận mới cho nhận dạng tiếng nói dựa trên kiến trúc end2end và so sánh với mô hình hybrid truyền thống. Việc thử nghiệm kiến trúc end2end cho bài toán nhận dạng tiếng nói tiếng Việt cho kết quả ban đầu rất khả quan, mô hình end2end cho kết quả tốt hơn hybrid truyền thống ở tất cả các tập thử nghiệm.
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2endTuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 XÂY DỰNG MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT THEO KIẾN TRÚC END2END Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. MỞ ĐẦU áp dụng đầu tiên trong bài toán dịch máy. Trong bài toán này, đầu vào là một chuỗi các Mô hình nhận dạng tiếng nói phổ biến nhất từ của ngôn ngữ nguồn, đầu ra là một chuỗihiện nay dựa trên kiến trúc lai (hybrid) giữa các từ của ngôn ngữ đích. Chiều dài chuỗimô hình Markov ẩn (HMM - Hidden Markov đầu vào và đầu ra có thể khác nhau. CôngModel) và mô hình mạng nơ ron sâu (DNN - nghệ E2E cho nhận dạng tiếng nói đượcDeep Neural Network) được đề xuất vào năm nghiên cứu và phát triển trong khoảng 3 năm2012 [1]. Mô hình lai này sử dụng HMM để gần đây, đầu vào hệ thống là một chuỗi cácmô hình hóa thông tin về thời gian của tiếng vector đặc trưng được trích chọn từ tín hiệunói, trong khi DNN được sử dụng để mô hình tiếng nói, đầu ra là chuỗi các từ hay ký tựvề phân bố các đặc trưng không gian của nhận dạng. Với thiết kế hệ thống trong mộttiếng nói (mô hình âm học). Ngoài ra để hệ mô hình đơn như vậy đã loại bỏ sự phức tạpthống nhận dạng hybrid có thể hoạt động về kiến trúc cũng như giảm sự cần thiết củađược ta cần có từ điển phát âm để tạo ánh xạ các chuyên gia về ngôn ngữ trong khi xâytừ mức từ sang mức âm vị và mô hình ngôn dựng hệ thống. Trong khi xây dựng hệ thốngngữ để lưu trữ những thông tin tri thức về ASR truyền thống ta cần xây dựng và tối ưungữ pháp về quy luật phân bố của các từ riêng các mô hình âm học, ngôn ngữ, từ điểntrong một lĩnh vực hay một ngôn ngữ. Trải phát âm. Do đó, hệ thống E2E có thể triểnqua hơn 8 năm phát triển, mô hình lai đã có khai nhanh với các ngôn ngữ mới mà khôngnhiều biến thể để nâng cao độ chính xác cũng cần nhiều đến sự giúp đỡ của các chuyên gianhư giảm thời gian huấn luyện. Tuy nhiên ngôn ngữ. Do đó, đây là ưu điểm rất lớn màcác module của mô hình nhận dạng lai được các tập đoàn đa quốc gia muốn tập trungthiết kế và tối ưu độc lập do đó khi lắp ghép nghiên cứu, phát triển.lại với nhau lại có thể không đưa ra được mô Do công nghệ E2E thực hiện học ánh xạ từhình tổng thể tối ưu nhất. Mặt khác việc thiết chuỗi các vector đặc trưng của file audio đầukế mỗi module lại cần có kiến thức chuyên vào đến các từ hay ký tự ở đầu ra, mà khônggia ví dụ như việc từ điển phát âm cần cần biết trước đến những ràng buộc, hiểu biếtchuyên gia sâu về ngôn ngữ để định nghĩa về âm học cũng như ngôn ngữ. Để học đượcánh xạ cũng như định nghĩa tập âm vị phù ánh xạ này đủ tốt, cần rất nhiều dữ liệu huấnhợp với ngôn ngữ, vùng miền. luyện. Do đó, đây là cách tiếp cận đầy hứa Trong những năm gần đây, nổi lên một hẹn trong tương lai khi dữ liệu cũng nhưcách tiếp cận mới trong nhận dạng tiếng nói năng lực tính toán càng ngày càng tăng lên.đang được các nhóm nghiên cứu lớn đang Nghiên cứu của đại học Kyoto [2] chỉ ranghiên cứu phát triển đó là nhận dạng tiếng rằng với ít dữ liệu huấn luyện mô hình E2Enói dựa trên kiến trúc end-to-end (E2E). cho kết quả kém hơn khá nhiều so với môCông nghệ E2E được ...
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình nhận dạng tiếng nói tiếng Việt theo kiến trúc end2endTuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 XÂY DỰNG MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT THEO KIẾN TRÚC END2END Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. MỞ ĐẦU áp dụng đầu tiên trong bài toán dịch máy. Trong bài toán này, đầu vào là một chuỗi các Mô hình nhận dạng tiếng nói phổ biến nhất từ của ngôn ngữ nguồn, đầu ra là một chuỗihiện nay dựa trên kiến trúc lai (hybrid) giữa các từ của ngôn ngữ đích. Chiều dài chuỗimô hình Markov ẩn (HMM - Hidden Markov đầu vào và đầu ra có thể khác nhau. CôngModel) và mô hình mạng nơ ron sâu (DNN - nghệ E2E cho nhận dạng tiếng nói đượcDeep Neural Network) được đề xuất vào năm nghiên cứu và phát triển trong khoảng 3 năm2012 [1]. Mô hình lai này sử dụng HMM để gần đây, đầu vào hệ thống là một chuỗi cácmô hình hóa thông tin về thời gian của tiếng vector đặc trưng được trích chọn từ tín hiệunói, trong khi DNN được sử dụng để mô hình tiếng nói, đầu ra là chuỗi các từ hay ký tựvề phân bố các đặc trưng không gian của nhận dạng. Với thiết kế hệ thống trong mộttiếng nói (mô hình âm học). Ngoài ra để hệ mô hình đơn như vậy đã loại bỏ sự phức tạpthống nhận dạng hybrid có thể hoạt động về kiến trúc cũng như giảm sự cần thiết củađược ta cần có từ điển phát âm để tạo ánh xạ các chuyên gia về ngôn ngữ trong khi xâytừ mức từ sang mức âm vị và mô hình ngôn dựng hệ thống. Trong khi xây dựng hệ thốngngữ để lưu trữ những thông tin tri thức về ASR truyền thống ta cần xây dựng và tối ưungữ pháp về quy luật phân bố của các từ riêng các mô hình âm học, ngôn ngữ, từ điểntrong một lĩnh vực hay một ngôn ngữ. Trải phát âm. Do đó, hệ thống E2E có thể triểnqua hơn 8 năm phát triển, mô hình lai đã có khai nhanh với các ngôn ngữ mới mà khôngnhiều biến thể để nâng cao độ chính xác cũng cần nhiều đến sự giúp đỡ của các chuyên gianhư giảm thời gian huấn luyện. Tuy nhiên ngôn ngữ. Do đó, đây là ưu điểm rất lớn màcác module của mô hình nhận dạng lai được các tập đoàn đa quốc gia muốn tập trungthiết kế và tối ưu độc lập do đó khi lắp ghép nghiên cứu, phát triển.lại với nhau lại có thể không đưa ra được mô Do công nghệ E2E thực hiện học ánh xạ từhình tổng thể tối ưu nhất. Mặt khác việc thiết chuỗi các vector đặc trưng của file audio đầukế mỗi module lại cần có kiến thức chuyên vào đến các từ hay ký tự ở đầu ra, mà khônggia ví dụ như việc từ điển phát âm cần cần biết trước đến những ràng buộc, hiểu biếtchuyên gia sâu về ngôn ngữ để định nghĩa về âm học cũng như ngôn ngữ. Để học đượcánh xạ cũng như định nghĩa tập âm vị phù ánh xạ này đủ tốt, cần rất nhiều dữ liệu huấnhợp với ngôn ngữ, vùng miền. luyện. Do đó, đây là cách tiếp cận đầy hứa Trong những năm gần đây, nổi lên một hẹn trong tương lai khi dữ liệu cũng nhưcách tiếp cận mới trong nhận dạng tiếng nói năng lực tính toán càng ngày càng tăng lên.đang được các nhóm nghiên cứu lớn đang Nghiên cứu của đại học Kyoto [2] chỉ ranghiên cứu phát triển đó là nhận dạng tiếng rằng với ít dữ liệu huấn luyện mô hình E2Enói dựa trên kiến trúc end-to-end (E2E). cho kết quả kém hơn khá nhiều so với môCông nghệ E2E được ...
Tìm kiếm theo từ khóa liên quan:
Mô hình nhận dạng tiếng nói Kiến trúc end2end Mô hình Markov ẩn Mô hình âm học Mạng nơ ron tích chậpGợi ý tài liệu liên quan:
-
12 trang 258 0 0
-
Xác định đặc điểm tác giả văn bản tiếng Việt bằng học sâu
7 trang 116 0 0 -
Nâng cao hiệu năng phát hiện đám cháy sử dụng thị giác máy dựa trên mạng nơ-ron YOLOV5
6 trang 71 0 0 -
Xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans
3 trang 66 0 0 -
Dự đoán góc quay vô lăng của xe tự lái sử dụng mạng nơ ron tích chập
3 trang 35 0 0 -
Luận văn Thạc sĩ Kỹ thuật phần mềm: Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
33 trang 31 0 0 -
Ứng dụng mạng GAN trong bài toán sinh dữ liệu đa phương tiện
8 trang 28 0 0 -
Tạp chí Khoa học và Công nghệ Việt Nam – Số 1 năm 2020
76 trang 28 0 0 -
Phát hiện tắc nghẽn giao thông từ hình ảnh camera giám sát bằng mạng nơron tích chập
4 trang 28 0 0 -
Nhận dạng tiếng Việt nói trên thiết bị di động
9 trang 27 0 0