Phương pháp sử dụng dữ liệu băng hẹp để cải thiện mô hình nhận dạng tiếng nói băng rộng
Số trang: 3
Loại file: pdf
Dung lượng: 425.78 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Phương pháp sử dụng dữ liệu băng hẹp để cải thiện mô hình nhận dạng tiếng nói băng rộng trình bày việc xây dựng dữ liệu băng hẹp để nâng cao chất lượng của mô hình nhận dạng tiếng nói băng rộng. Các thử nghiệm khác nhau đã chỉ ra rằng, sử dụng thêm dữ liệu băng hẹp luôn mang lại sự cải thiện cho mô hình băng rộng.
Nội dung trích xuất từ tài liệu:
Phương pháp sử dụng dữ liệu băng hẹp để cải thiện mô hình nhận dạng tiếng nói băng rộng Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP SỬ DỤNG DỮ LIỆU BĂNG HẸP ĐỂ CẢI THIỆN MÔ HÌNH NHẬN DẠNG TIẾNG NÓI BĂNG RỘNG Đỗ Văn Hải, Phạm Thanh Bình, Nguyễn Thị Phương Thảo Trường Đại học Thủy lợi 1. MỞ ĐẦU Trong nghiên cứu này, chúng tôi đề xuất phương pháp có thể tận dụng dữ liệu băng Trong hệ thống nhận dạng tiếng nói tín hẹp để nâng cao chất lượng nhận dạng cho hiệu được ghi âm thường được lấy mẫu ở tần mô hình băng rộng. Có thể chất lượng của tín số 16kHz (tín hiệu băng rộng) dùng trong các hiệu băng hẹp không bằng dữ liệu dữ liệu ứng dụng ghi âm thông thường. Tuy nhiên băng rộng tuy nhiên với số lượng lớn và loại trong hệ thống điện thoại, tần số lấy mẫu chỉ dữ liệu khác biệt, ta vẫn hi vọng dữ liệu băng là 8kHz (tín hiệu băng hẹp). Thông thường hẹp sẽ bổ sung thêm thông tin để vào để tăng hai loại dữ liệu này được sử dụng độc lập cường chất lượng mô hình băng rộng. nhau để huấn luyện ra hai loại mô hình nhận dạng tiếng nói riêng biệt. 2. PHƯƠNG PHÁP TIẾP CẬN Hình 1 miêu tả tín hiệu của một file tiếng nói băng rộng có tần số lấy mẫu 16kHz Một vấn đề đặt ra là làm sao có thể sử (fmax = 8kHz ở dưới) và vẫn nguồn âm thanh dụng dữ liệu băng rộng với dữ liệu băng hẹp đó nhưng lấy mẫu ở 8kHz (hình trên). Ta khi mà toàn bộ phổ thông tin tiếng nói từ thấy rằng với tín hiệu có tần số lấy mẫu 8kHz 4-8kHz của tín hiệu băng hẹp bị mất hết thì toàn bộ phổ (spectrum) tín hiệu từ 4kHz Hình 1. Xuất phát từ ý tưởng các bộ khử nhiễu đến 8kHz bị mất. (denoiser) được phát triển gần đây khi ta đưa đầu vào là tín hiệu tiếng nói có nhiễu đầu ra sẽ là tín hiệu tiếng nói sạch [1], chúng ta có thể xây dựng một bộ tái tạo (reconstructor) từ tín hiệu băng hẹp lên tín hiệu băng rộng sử dụng cơ chế tương tự với các denoiser. Trong nghiên cứu này, chúng tôi sử dụng đầu vào của bộ tái tạo sẽ là tín hiệu băng hẹp đầu ra sẽ là tín hiệu băng rộng được tái tạo lại từ tín hiệu băng hẹp. Để huấn luyện “việc tái tạo” này ta thực hiện quy trình huấn luyện sử dụng mô hình mạng nơ ron nhân tạo như Hình 2. Bộ dữ liệu được sử dụng là bộ dữ liệu băng rộng (16kHz) mà không cần có bất cứ nhãn (label) gì. Dữ liệu này được chuyển thành dữ liệu băng hẹp bằng cách giảm tần số lấy mẫu từ 16kHz xuống 8kHz (down Hình 1. Spectrogram của tín hiệu tiếng nói sample) để làm đầu vào huấn luyện cho bộ tái băng hẹp ở trên (tần số lấy mẫu 8kHz) tạo. Đầu ra của bộ tái tạo là tín hiệu băng và băng rộng ở dưới rộng ban đầu. Với cách huấn luyện này, bộ 80 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 tái tạo sẽ học được bổ sung những phổ tín Mô hình 3: mô hình huấn luyện dùng hiệu bị cắt trong tín hiệu băng hẹp. 20.000 câu huấn luyện băng rộng. Bảng 1. Sai số từ của các mô hình khác nhau Mô WER Dữ liệu hình (%) 1 Băng rộng 10.000 câu 36,23 Hình 2. Quá trình huấn luyện cho bộ tái tạo 2 Băng rộng 10.000 câu + 32,08 băng hẹp 10.000 câu Tuy nhiên khi áp dụng mô hình này để tái 3 Băng rộng 20.000 câu 31,84 tạo tín hiệu băng rộng áp dụng vào nhận dạng tiếng nói thì kết quả không tốt. Một trong những nguyên nhân có thể là việc tái tạo tín Tất cả các mô hình được huấn luyện sử hiệu băng rộng đã gây méo (distortion) so với dụng kiến trúc TDNN-LSTM kết hợp với mô tín hiệu băng rộng gốc. Do vậy để giảm sự hình ngôn ngữ 4-gram [2] với công cụ được méo này ta thay vì tái tạo toàn bộ phổ tín hiệu sử dụng là Kaldi [3]. băng rộng như trên Hình 2, ta đề xuất phương Kết quả thử nghiệm với bộ thử nghiệm pháp thực hiện ở miền tần số thay vì ở miền băng rộng độc lập được trình bày ở Bảng 1. thời gian như sau: Chúng tôi sử dụng chỉ số sai số từ Bóc tách tín hiệu băng rộng thành hai (WER - Word Error Rate1) để đánh giá chất thành phần ...
Nội dung trích xuất từ tài liệu:
Phương pháp sử dụng dữ liệu băng hẹp để cải thiện mô hình nhận dạng tiếng nói băng rộng Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP SỬ DỤNG DỮ LIỆU BĂNG HẸP ĐỂ CẢI THIỆN MÔ HÌNH NHẬN DẠNG TIẾNG NÓI BĂNG RỘNG Đỗ Văn Hải, Phạm Thanh Bình, Nguyễn Thị Phương Thảo Trường Đại học Thủy lợi 1. MỞ ĐẦU Trong nghiên cứu này, chúng tôi đề xuất phương pháp có thể tận dụng dữ liệu băng Trong hệ thống nhận dạng tiếng nói tín hẹp để nâng cao chất lượng nhận dạng cho hiệu được ghi âm thường được lấy mẫu ở tần mô hình băng rộng. Có thể chất lượng của tín số 16kHz (tín hiệu băng rộng) dùng trong các hiệu băng hẹp không bằng dữ liệu dữ liệu ứng dụng ghi âm thông thường. Tuy nhiên băng rộng tuy nhiên với số lượng lớn và loại trong hệ thống điện thoại, tần số lấy mẫu chỉ dữ liệu khác biệt, ta vẫn hi vọng dữ liệu băng là 8kHz (tín hiệu băng hẹp). Thông thường hẹp sẽ bổ sung thêm thông tin để vào để tăng hai loại dữ liệu này được sử dụng độc lập cường chất lượng mô hình băng rộng. nhau để huấn luyện ra hai loại mô hình nhận dạng tiếng nói riêng biệt. 2. PHƯƠNG PHÁP TIẾP CẬN Hình 1 miêu tả tín hiệu của một file tiếng nói băng rộng có tần số lấy mẫu 16kHz Một vấn đề đặt ra là làm sao có thể sử (fmax = 8kHz ở dưới) và vẫn nguồn âm thanh dụng dữ liệu băng rộng với dữ liệu băng hẹp đó nhưng lấy mẫu ở 8kHz (hình trên). Ta khi mà toàn bộ phổ thông tin tiếng nói từ thấy rằng với tín hiệu có tần số lấy mẫu 8kHz 4-8kHz của tín hiệu băng hẹp bị mất hết thì toàn bộ phổ (spectrum) tín hiệu từ 4kHz Hình 1. Xuất phát từ ý tưởng các bộ khử nhiễu đến 8kHz bị mất. (denoiser) được phát triển gần đây khi ta đưa đầu vào là tín hiệu tiếng nói có nhiễu đầu ra sẽ là tín hiệu tiếng nói sạch [1], chúng ta có thể xây dựng một bộ tái tạo (reconstructor) từ tín hiệu băng hẹp lên tín hiệu băng rộng sử dụng cơ chế tương tự với các denoiser. Trong nghiên cứu này, chúng tôi sử dụng đầu vào của bộ tái tạo sẽ là tín hiệu băng hẹp đầu ra sẽ là tín hiệu băng rộng được tái tạo lại từ tín hiệu băng hẹp. Để huấn luyện “việc tái tạo” này ta thực hiện quy trình huấn luyện sử dụng mô hình mạng nơ ron nhân tạo như Hình 2. Bộ dữ liệu được sử dụng là bộ dữ liệu băng rộng (16kHz) mà không cần có bất cứ nhãn (label) gì. Dữ liệu này được chuyển thành dữ liệu băng hẹp bằng cách giảm tần số lấy mẫu từ 16kHz xuống 8kHz (down Hình 1. Spectrogram của tín hiệu tiếng nói sample) để làm đầu vào huấn luyện cho bộ tái băng hẹp ở trên (tần số lấy mẫu 8kHz) tạo. Đầu ra của bộ tái tạo là tín hiệu băng và băng rộng ở dưới rộng ban đầu. Với cách huấn luyện này, bộ 80 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 tái tạo sẽ học được bổ sung những phổ tín Mô hình 3: mô hình huấn luyện dùng hiệu bị cắt trong tín hiệu băng hẹp. 20.000 câu huấn luyện băng rộng. Bảng 1. Sai số từ của các mô hình khác nhau Mô WER Dữ liệu hình (%) 1 Băng rộng 10.000 câu 36,23 Hình 2. Quá trình huấn luyện cho bộ tái tạo 2 Băng rộng 10.000 câu + 32,08 băng hẹp 10.000 câu Tuy nhiên khi áp dụng mô hình này để tái 3 Băng rộng 20.000 câu 31,84 tạo tín hiệu băng rộng áp dụng vào nhận dạng tiếng nói thì kết quả không tốt. Một trong những nguyên nhân có thể là việc tái tạo tín Tất cả các mô hình được huấn luyện sử hiệu băng rộng đã gây méo (distortion) so với dụng kiến trúc TDNN-LSTM kết hợp với mô tín hiệu băng rộng gốc. Do vậy để giảm sự hình ngôn ngữ 4-gram [2] với công cụ được méo này ta thay vì tái tạo toàn bộ phổ tín hiệu sử dụng là Kaldi [3]. băng rộng như trên Hình 2, ta đề xuất phương Kết quả thử nghiệm với bộ thử nghiệm pháp thực hiện ở miền tần số thay vì ở miền băng rộng độc lập được trình bày ở Bảng 1. thời gian như sau: Chúng tôi sử dụng chỉ số sai số từ Bóc tách tín hiệu băng rộng thành hai (WER - Word Error Rate1) để đánh giá chất thành phần ...
Tìm kiếm theo từ khóa liên quan:
Hệ thống nhận dạng tiếng nói Dữ liệu băng hẹp Nhận dạng tiếng nói băng rộng Mạng nơ ron Tín hiệu băng rộngGợi ý tài liệu liên quan:
-
Thiết kế bộ điều khiển bền vững thích nghi trên cơ sở mạng nơ rôn điều khiển cho robot công nghiệp
6 trang 188 0 0 -
Nghiên cứu so sánh các phương pháp dự báo năng lượng gió
7 trang 98 0 0 -
Xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans
3 trang 63 0 0 -
Nghiên cứu ứng dụng mạng nơ ron thần kinh vào dự báo lũ các sông ở tỉnh Bình Định và Quảng Trị
9 trang 54 0 0 -
5 trang 31 0 0
-
Một phương pháp tiếp cận nhận dạng khuôn mặt người bằng huấn luyện học máy
15 trang 27 0 0 -
Tổng hợp bộ điều khiển trượt thích nghi dùng mạng nơ ron cho hệ truyền động băng vật liệu
4 trang 25 0 0 -
Nhận dạng sự cố trong hệ thống điện
5 trang 23 0 0 -
Một phương pháp mô hình hóa nhiễu để tăng cường chất lượng nhận dạng tiếng nói
4 trang 22 0 0 -
Bài giảng Xử lý tiếng nói: Phần 2
63 trang 22 0 0