Phương pháp tăng cường dữ liệu hai pha cho mô hình nhận dạng tiếng nói theo kiến trúc END2END
Số trang: 3
Loại file: pdf
Dung lượng: 347.13 KB
Lượt xem: 18
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Phương pháp tăng cường dữ liệu hai pha cho mô hình nhận dạng tiếng nói theo kiến trúc END2END trình bày cách tiếp cận tăng cường dữ liệu 2 pha cho mô hình nhận dạng tiếng nói dựa trên kiến trúc End2End. Kết quả thử nghiệm với các bộ test khác nhau đã cho thấy sai số giảm rõ rệt.
Nội dung trích xuất từ tài liệu:
Phương pháp tăng cường dữ liệu hai pha cho mô hình nhận dạng tiếng nói theo kiến trúc END2END Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HAI PHA CHO MÔ HÌNH NHẬN DẠNG TIẾNG NÓI THEO KIẾN TRÚC END2END Nguyễn Thị Phương Thảo1, Phạm Thanh Bình1, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 1. MỞ ĐẦU của phổ tín hiệu tiếng nói một cách ngẫu nhiên Đối với bài toán nhận dạng tiếng hay các theo cả chiều tần số và thời gian. Kỹ thuật này bài toán về học máy khác thì dữ liệu thực tế đã giúp cải thiện độ ổn định của các mô hình thử nghiệm (test) càng giống với dữ liệu huấn nhận dạng E2E lên một cách rõ rệt. luyện (train) thì càng tốt. Tuy nhiên, điều này Trong nghiên cứu này chúng tôi thử hiếm khi xảy ra trong thực tế. Do đó luôn có nghiệm các mô hình nhận dạng E2E trong sự sai khác (mismatch) giữa dữ liệu huấn điều kiện môi trường có nhiễu. Đây là kịch luyện (dẫn xuất là mô hình) và dữ liệu test. bản rất hay xuất hiện trong thực tế. Dữ liệu Trong những năm gần đây, nổi lên một huấn luyện thu âm trong môi trường ít nhiễu, cách tiếp cận mới trong nhận dạng tiếng nói nhưng dữ liệu lúc thử nghiệm lại là trong môi đang được các nhóm nghiên cứu lớn đang trường có nhiễu. Để giúp mô hình nhận dạng nghiên cứu phát triển đó là nhận dạng tiếng E2E ổn định với môi trường có nhiễu, chúng nói dựa trên kiến trúc end-to-end (E2E) [1]. tôi đề xuất một quy trình tăng cường dữ liệu Công nghệ E2E được dựa trên cơ chế từ gồm 2 pha. chuỗi đến chuỗi (sequence to sequence) được Pha 1: Bổ sung thêm nhiễu vào tín hiệu áp dụng đầu tiên trong bài toán dịch máy. tiếng nói. Trong bài toán này, đầu vào là một chuỗi các Pha 2: Sử dụng phương pháp SpecAugment từ của ngôn ngữ nguồn, đầu ra là một chuỗi để che đi một phần tín hiệu trên miền thời gian các từ của ngôn ngữ đích. Chiều dài chuỗi và tần số của tín hiệu đã được bổ sung nhiễu ở đầu vào và đầu ra có thể khác nhau. pha 1. Trong cuộc thi VLSP 2021 về nhận dạng Với phương pháp đề xuất này, mô hình nhận tiếng nói tiếng Việt1 trong 6 đội có kết quả dạng tiếng nói E2E đã cho kết quả nhận dạng cao nhất có đến 5 đội dùng công nghệ nhận được cải thiện trong các môi trường có nhiễu. dạng E2E. Điều này chứng tỏ sự hiệu quả của 2. HAI PHA TĂNG CƯỜNG DỮ LIỆU công nghệ E2E so với các công nghệ truyền thống khác như mô hình lai hybrid Pha 1: Bổ sung nhiễu vào tín hiệu tiếng HMM/DNN. nói huấn luyện Để tránh hiện tượng quá khớp, các mô hình Dữ liệu huấn luyện ban đầu thường là các E2E thường dùng các kỹ thuật tăng cường dữ đoạn audio thu âm trong môi trường ít nhiễu. liệu (data augmentation) mà điển hình nhất là Do đo để tăng cường độ tổng quát của dữ liệu SpecAugment [2] được đề xuất bởi Google huấn luyện, ta bổ sung rất nhiều loại nhiễu năm 2019. Đây là kỹ thuật nhằm che các phần khác nhau với cường độ alpha khác nhau vào dữ liệu. 1 x'(t) = x(t) + alpha*n(t) https://vlsp.org.vn/vlsp2021/eval/asr 100 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 Trong đó: x(t) là tín hiệu tiếng nói gốc, sát về các nghiên cứu về các kiến trúc E2E n(t) là tín hiệu noise, x’(t) là tín hiệu tiếng nói khác nhau chúng tôi chọn kiến trúc được tạo ra, alpha là hệ số thêm nhiễu. Conformer ra mắt vào tháng 10/2020 của Chúng tôi đã chọn lọc ra nhiều loại nhiễu Google để thử nghiệm [3]. khác nhau được thu thập từ các nguồn từ Kiến trúc Conformer là sự kết hợp giữa Internet cũng như thu âm trực tiếp tại các môi kiến trúc Transformer và mạng nơ ron tích trường phổ biến như phòng họp, sảnh văn chập (Convolution neural network - CNN) đã phòng, đường phố, bến tàu xe,… Khi bổ sung được sử dụng rộng rãi trong các bài toán về những loại noise này vào cơ sở dữ liệu tiếng xử lý ngôn ngữ tự nhiên và thị giác máy. nói để huấn luyện mô hình đã giúp tăng đáng Bằng việc kết hợp hai kiến trúc này với nhau, kể sự sự ổn định của mô hình nhận dạng chúng ta có thể tận dụng được sức mạnh của trong các điều kiện khác nhau. mỗi phương pháp như Transformer có ưu thế trong việc mô hình hóa những nội dung theo Pha 2: Sử dụng kỹ thuật SpecAugment chuỗi dài trong khi CNN lại rất hiệu quả SpecAugment [2], một phương pháp tăng trong việc phân tích những đặc trưng ở mức cường dữ liệu đơn giản trong nhận dạng cục bộ. giọng nói. SpecAugment được áp dụng trực Hình 2 mô tả kiến trúc của Conformer tiếp cho các đặc trưng đầu vào của mạng nơ- encoder, chi tiết về các khối convolution ron (Mel Filterbank). SpecAugment che đi module, multi-headed self-attention module, các phần cả trên miền tần số và miền thời feed forward module chúng ta có thể xem gian một cách ngẫu nhiên như trên Hình 1. trong bài báo của Google [3]. Hình 1. Kỹ thuật SpecAugment che các phần trên miền tần số và miền thời gian một cách ngẫu nhiên Bằng việc áp dụng kỹ thuật máy, mô hình mạng nơ-ron sẽ phải tự đoán nhãn đầu ra khi đầu vào dữ liệu bị che khuất một phần. Điều này giúp mạng học được tổng quát hơn cũng ...
Nội dung trích xuất từ tài liệu:
Phương pháp tăng cường dữ liệu hai pha cho mô hình nhận dạng tiếng nói theo kiến trúc END2END Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HAI PHA CHO MÔ HÌNH NHẬN DẠNG TIẾNG NÓI THEO KIẾN TRÚC END2END Nguyễn Thị Phương Thảo1, Phạm Thanh Bình1, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 1. MỞ ĐẦU của phổ tín hiệu tiếng nói một cách ngẫu nhiên Đối với bài toán nhận dạng tiếng hay các theo cả chiều tần số và thời gian. Kỹ thuật này bài toán về học máy khác thì dữ liệu thực tế đã giúp cải thiện độ ổn định của các mô hình thử nghiệm (test) càng giống với dữ liệu huấn nhận dạng E2E lên một cách rõ rệt. luyện (train) thì càng tốt. Tuy nhiên, điều này Trong nghiên cứu này chúng tôi thử hiếm khi xảy ra trong thực tế. Do đó luôn có nghiệm các mô hình nhận dạng E2E trong sự sai khác (mismatch) giữa dữ liệu huấn điều kiện môi trường có nhiễu. Đây là kịch luyện (dẫn xuất là mô hình) và dữ liệu test. bản rất hay xuất hiện trong thực tế. Dữ liệu Trong những năm gần đây, nổi lên một huấn luyện thu âm trong môi trường ít nhiễu, cách tiếp cận mới trong nhận dạng tiếng nói nhưng dữ liệu lúc thử nghiệm lại là trong môi đang được các nhóm nghiên cứu lớn đang trường có nhiễu. Để giúp mô hình nhận dạng nghiên cứu phát triển đó là nhận dạng tiếng E2E ổn định với môi trường có nhiễu, chúng nói dựa trên kiến trúc end-to-end (E2E) [1]. tôi đề xuất một quy trình tăng cường dữ liệu Công nghệ E2E được dựa trên cơ chế từ gồm 2 pha. chuỗi đến chuỗi (sequence to sequence) được Pha 1: Bổ sung thêm nhiễu vào tín hiệu áp dụng đầu tiên trong bài toán dịch máy. tiếng nói. Trong bài toán này, đầu vào là một chuỗi các Pha 2: Sử dụng phương pháp SpecAugment từ của ngôn ngữ nguồn, đầu ra là một chuỗi để che đi một phần tín hiệu trên miền thời gian các từ của ngôn ngữ đích. Chiều dài chuỗi và tần số của tín hiệu đã được bổ sung nhiễu ở đầu vào và đầu ra có thể khác nhau. pha 1. Trong cuộc thi VLSP 2021 về nhận dạng Với phương pháp đề xuất này, mô hình nhận tiếng nói tiếng Việt1 trong 6 đội có kết quả dạng tiếng nói E2E đã cho kết quả nhận dạng cao nhất có đến 5 đội dùng công nghệ nhận được cải thiện trong các môi trường có nhiễu. dạng E2E. Điều này chứng tỏ sự hiệu quả của 2. HAI PHA TĂNG CƯỜNG DỮ LIỆU công nghệ E2E so với các công nghệ truyền thống khác như mô hình lai hybrid Pha 1: Bổ sung nhiễu vào tín hiệu tiếng HMM/DNN. nói huấn luyện Để tránh hiện tượng quá khớp, các mô hình Dữ liệu huấn luyện ban đầu thường là các E2E thường dùng các kỹ thuật tăng cường dữ đoạn audio thu âm trong môi trường ít nhiễu. liệu (data augmentation) mà điển hình nhất là Do đo để tăng cường độ tổng quát của dữ liệu SpecAugment [2] được đề xuất bởi Google huấn luyện, ta bổ sung rất nhiều loại nhiễu năm 2019. Đây là kỹ thuật nhằm che các phần khác nhau với cường độ alpha khác nhau vào dữ liệu. 1 x'(t) = x(t) + alpha*n(t) https://vlsp.org.vn/vlsp2021/eval/asr 100 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 Trong đó: x(t) là tín hiệu tiếng nói gốc, sát về các nghiên cứu về các kiến trúc E2E n(t) là tín hiệu noise, x’(t) là tín hiệu tiếng nói khác nhau chúng tôi chọn kiến trúc được tạo ra, alpha là hệ số thêm nhiễu. Conformer ra mắt vào tháng 10/2020 của Chúng tôi đã chọn lọc ra nhiều loại nhiễu Google để thử nghiệm [3]. khác nhau được thu thập từ các nguồn từ Kiến trúc Conformer là sự kết hợp giữa Internet cũng như thu âm trực tiếp tại các môi kiến trúc Transformer và mạng nơ ron tích trường phổ biến như phòng họp, sảnh văn chập (Convolution neural network - CNN) đã phòng, đường phố, bến tàu xe,… Khi bổ sung được sử dụng rộng rãi trong các bài toán về những loại noise này vào cơ sở dữ liệu tiếng xử lý ngôn ngữ tự nhiên và thị giác máy. nói để huấn luyện mô hình đã giúp tăng đáng Bằng việc kết hợp hai kiến trúc này với nhau, kể sự sự ổn định của mô hình nhận dạng chúng ta có thể tận dụng được sức mạnh của trong các điều kiện khác nhau. mỗi phương pháp như Transformer có ưu thế trong việc mô hình hóa những nội dung theo Pha 2: Sử dụng kỹ thuật SpecAugment chuỗi dài trong khi CNN lại rất hiệu quả SpecAugment [2], một phương pháp tăng trong việc phân tích những đặc trưng ở mức cường dữ liệu đơn giản trong nhận dạng cục bộ. giọng nói. SpecAugment được áp dụng trực Hình 2 mô tả kiến trúc của Conformer tiếp cho các đặc trưng đầu vào của mạng nơ- encoder, chi tiết về các khối convolution ron (Mel Filterbank). SpecAugment che đi module, multi-headed self-attention module, các phần cả trên miền tần số và miền thời feed forward module chúng ta có thể xem gian một cách ngẫu nhiên như trên Hình 1. trong bài báo của Google [3]. Hình 1. Kỹ thuật SpecAugment che các phần trên miền tần số và miền thời gian một cách ngẫu nhiên Bằng việc áp dụng kỹ thuật máy, mô hình mạng nơ-ron sẽ phải tự đoán nhãn đầu ra khi đầu vào dữ liệu bị che khuất một phần. Điều này giúp mạng học được tổng quát hơn cũng ...
Tìm kiếm theo từ khóa liên quan:
Bài toán nhận dạng tiếng Kiến trúc end-to-end Công nghệ E2E Kỹ thuật SpecAugment Mạng nơ ron tích chập Kiến trúc TransformerTài liệu liên quan:
-
12 trang 263 0 0
-
Xác định đặc điểm tác giả văn bản tiếng Việt bằng học sâu
7 trang 117 0 0 -
Nâng cao hiệu năng phát hiện đám cháy sử dụng thị giác máy dựa trên mạng nơ-ron YOLOV5
6 trang 72 0 0 -
Dự đoán góc quay vô lăng của xe tự lái sử dụng mạng nơ ron tích chập
3 trang 38 0 0 -
Luận văn Thạc sĩ Kỹ thuật phần mềm: Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
33 trang 32 0 0 -
Tạp chí Khoa học và Công nghệ Việt Nam – Số 1 năm 2020
76 trang 31 0 0 -
Ứng dụng mạng GAN trong bài toán sinh dữ liệu đa phương tiện
8 trang 30 0 0 -
Phát hiện tắc nghẽn giao thông từ hình ảnh camera giám sát bằng mạng nơron tích chập
4 trang 29 0 0 -
Nhận dạng cảm xúc trong video sử dụng mạng nơ ron tích chập
6 trang 27 0 0 -
Băng tải giao hành lý thông minh sử dụng kết hợp phát hiện và nhận dạng mã vạch
7 trang 25 0 0