Một phương pháp mô hình hóa nhiễu để tăng cường chất lượng nhận dạng tiếng nói
Số trang: 4
Loại file: pdf
Dung lượng: 252.27 KB
Lượt xem: 23
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Một phương pháp mô hình hóa nhiễu để tăng cường chất lượng nhận dạng tiếng nói tập trung vào tìm hiểu cách tiếp cận thứ 3 (data augmentation) và tìm cách nâng cao chất lượng của mô hình. Hiện tại ta bổ sung rất nhiều loại noise khác nhau với cường độ alpha khác nhau vào dữ liệu để tăng độ tổng quát.
Nội dung trích xuất từ tài liệu:
Một phương pháp mô hình hóa nhiễu để tăng cường chất lượng nhận dạng tiếng nói Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 MỘT PHƯƠNG PHÁP MÔ HÌNH HÓA NHIỄU ĐỂ TĂNG CƯỜNG CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy Lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG liệu huấn luyện với hi vọng có thể bao phủ được hầu hết các cases của dữ liệu test. Ví dụ Đối với nhận dạng tiếng nói nói riêng ta có thể thay đổi tốc độ nhanh chậm của dữ cũng như lĩnh vực nhận dạng mẫu nói chung liệu huấn luyện [4] ví dụ từ 1 tín hiệu x(t) ta thì dữ liệu thực tế thử nghiệm (test) càng có thể sinh ra thành 3 version x(0.9t), x(t), giống với dữ liệu huấn luyện (train) thì càng x(1.1t) và bổ sung vào tập train. Hoặc để mô tốt. Tuy nhiên, điều này hiếm khi xảy ra phỏng môi trường vang, nhiễu ta có thể thêm trong thực tế. Do đó luôn có sự sai khác vang bằng cách mô phỏng các đáp ứng xung (mismatch) giữa dữ liệu huấn luyện (dẫn (RIR) của các phòng phổ biến, bổ sung các xuất là mô hình) và dữ liệu test. loại noise thông dụng [5]. Cách tiếp cận này Để tăng chất lượng nhận dạng, ta cần thu rất phù hợp với triển khai thực tế vì ta chỉ hẹp sự sai khác này. Cơ bản có các cách tiếp cần huấn luyện 1 lần và khi triển khai không cận sau: cần train hay adapt lại. Do đó đáp ứng được Feature adaptation: tức thay đổi dữ liệu yêu cầu về thời gian thực hiện. Tuy nhiên nó test về gần với mô hình hơn. Ta có thể xây cũng có nhược điểm là thời gian huấn luyện dựng các biến đổi (transform) và các dữ liệu tăng lên nhiều lần. khác nhau sau khi đi qua biến đổi này sẽ Trong nghiên cứu này, chúng ta sẽ tập trung sang một không gian chung (kể cả tập train vào tìm hiểu cách tiếp cận thứ 3 (data và test). Các bộ dữ liệu khác nhau sẽ có các augmentation) và tìm cách nâng cao chất biến đổi khác nhau. Một ví dụ điển hình của lượng của mô hình. Hiện tại ta bổ sung rất trường hợp này là kỹ thuật fMLLR [1] dùng nhiều loại noise khác nhau với cường độ alpha phổ biến trong DNN training. khác nhau vào dữ liệu để tăng độ tổng quát. Model adaptation: tức thay đổi model x'(t) = x(t) + alpha*n(t) huấn luyện về gần với tập test. Tức với các Trong đó x(t) là tín hiệu tiếng nói gốc, n(t) dữ liệu khác nhau, một số tham số của mô là tín hiệu noise, x’(t) là tín hiệu tiếng nói hình sẽ thay đổi theo một số tiêu chí nào đó được tạo ra, alpha là hệ số thêm nhiễu. ví dụ maximum likelihood, maximum a Để nâng cao chất lượng của kỹ thuật data posterior,... Với mô hình GMM (Gaussian augmentation ta cần áp dụng 2 cách thức sau: Mixture Model), kỹ thuật phổ biến đó là Chọn loại noise phù hợp. MAP (Maximum a posterior) [2], với mô Xây dựng thuật toán mới cho data hình DNN (Deep Neural Network) có nhiều augmentation để mô hình hóa noise tốt hơn. biến thế được thực hiện bằng cách xây dựng Tại Trung tâm Không gian Mạng Viettel các kiến trúc mạng nơ ron đặc biệt để có thể (VTCC), chúng tôi đã chọn lọc ra nhiều loại thích nghi (adapt) nhanh với các bộ dữ liệu noise khác nhau được thu thập từ các nguồn test khác nhau [3]. từ Internet cũng như thu âm trực tiếp tại các Training data augmentation: cách thực môi trường phổ biến như phòng họp, sảnh hiện ở đây là làm tăng độ tổng quát của dữ văn phòng, đường phố, bến tàu xe,… Khi bổ 108 Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 sung những loại noise này vào cơ sở dữ liệu đáng kể sự sự ổn định của mô hình nhận tiếng nói để huấn luyện mô hình đã giúp tăng dạng trong các điều kiện khác nhau. Hình 1. Cách thức gán nhãn noise cho transcript. Ở các nghiên cứu trên ta đơn thuần bổ Với phương pháp này ta cần biết loại noise sung nhiễu vào tín hiệu audio trong khi ta bổ sung vào audio là gì. Tuy nhiên làm sao transcript (văn bản tương ứng của đoạn ta có thể gán nhãn noise tag vào transcript. audio) ta vẫn giữ nguyên. Trong nghiên cứu Do noise được bổ sung trên toàn bộ audio này, chúng tôi đề xuất một phương án tăng file nên ta không thể bổ sung noise tag vào cường chất lượng nhận dạng bằng cách mô tất cả transcript. Với giả thiết là đầu và cuối hình hóa các loại noise khác nhau bằng cách mỗi câu là silence (điều này ta hoàn toàn có bổ sung cả vào transcript của dữ liệu tương thể điều khiển được được bằng cách trèn ứng các noise tag. thêm (padding) 1 đoạn nhỏ silence vào đầu vào cuối mỗi câu). Do vậy, ta có thể gán 2. XÂY DỰNG PHƯƠNG PHÁP MÔ noise tag vào đầu và cuối mỗi câu. Hình 1 HÌNH HÓA NHIỄU mô tả 1 ví dụ về việc gán noise vào cả audio Như đã nói, các phương pháp data và transcript của dữ liệu huấn luyện. augmentation truyền thống audio có thể Sau khi thực hiện gán noise cả audio và được bổ sung noise với các loại, cường độ transcript theo cách đề xuất ở trên, ta cần đặc khác nhau nhưng ...
Nội dung trích xuất từ tài liệu:
Một phương pháp mô hình hóa nhiễu để tăng cường chất lượng nhận dạng tiếng nói Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 MỘT PHƯƠNG PHÁP MÔ HÌNH HÓA NHIỄU ĐỂ TĂNG CƯỜNG CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI Đỗ Văn Hải Khoa Công nghệ Thông tin, Trường Đại học Thủy Lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG liệu huấn luyện với hi vọng có thể bao phủ được hầu hết các cases của dữ liệu test. Ví dụ Đối với nhận dạng tiếng nói nói riêng ta có thể thay đổi tốc độ nhanh chậm của dữ cũng như lĩnh vực nhận dạng mẫu nói chung liệu huấn luyện [4] ví dụ từ 1 tín hiệu x(t) ta thì dữ liệu thực tế thử nghiệm (test) càng có thể sinh ra thành 3 version x(0.9t), x(t), giống với dữ liệu huấn luyện (train) thì càng x(1.1t) và bổ sung vào tập train. Hoặc để mô tốt. Tuy nhiên, điều này hiếm khi xảy ra phỏng môi trường vang, nhiễu ta có thể thêm trong thực tế. Do đó luôn có sự sai khác vang bằng cách mô phỏng các đáp ứng xung (mismatch) giữa dữ liệu huấn luyện (dẫn (RIR) của các phòng phổ biến, bổ sung các xuất là mô hình) và dữ liệu test. loại noise thông dụng [5]. Cách tiếp cận này Để tăng chất lượng nhận dạng, ta cần thu rất phù hợp với triển khai thực tế vì ta chỉ hẹp sự sai khác này. Cơ bản có các cách tiếp cần huấn luyện 1 lần và khi triển khai không cận sau: cần train hay adapt lại. Do đó đáp ứng được Feature adaptation: tức thay đổi dữ liệu yêu cầu về thời gian thực hiện. Tuy nhiên nó test về gần với mô hình hơn. Ta có thể xây cũng có nhược điểm là thời gian huấn luyện dựng các biến đổi (transform) và các dữ liệu tăng lên nhiều lần. khác nhau sau khi đi qua biến đổi này sẽ Trong nghiên cứu này, chúng ta sẽ tập trung sang một không gian chung (kể cả tập train vào tìm hiểu cách tiếp cận thứ 3 (data và test). Các bộ dữ liệu khác nhau sẽ có các augmentation) và tìm cách nâng cao chất biến đổi khác nhau. Một ví dụ điển hình của lượng của mô hình. Hiện tại ta bổ sung rất trường hợp này là kỹ thuật fMLLR [1] dùng nhiều loại noise khác nhau với cường độ alpha phổ biến trong DNN training. khác nhau vào dữ liệu để tăng độ tổng quát. Model adaptation: tức thay đổi model x'(t) = x(t) + alpha*n(t) huấn luyện về gần với tập test. Tức với các Trong đó x(t) là tín hiệu tiếng nói gốc, n(t) dữ liệu khác nhau, một số tham số của mô là tín hiệu noise, x’(t) là tín hiệu tiếng nói hình sẽ thay đổi theo một số tiêu chí nào đó được tạo ra, alpha là hệ số thêm nhiễu. ví dụ maximum likelihood, maximum a Để nâng cao chất lượng của kỹ thuật data posterior,... Với mô hình GMM (Gaussian augmentation ta cần áp dụng 2 cách thức sau: Mixture Model), kỹ thuật phổ biến đó là Chọn loại noise phù hợp. MAP (Maximum a posterior) [2], với mô Xây dựng thuật toán mới cho data hình DNN (Deep Neural Network) có nhiều augmentation để mô hình hóa noise tốt hơn. biến thế được thực hiện bằng cách xây dựng Tại Trung tâm Không gian Mạng Viettel các kiến trúc mạng nơ ron đặc biệt để có thể (VTCC), chúng tôi đã chọn lọc ra nhiều loại thích nghi (adapt) nhanh với các bộ dữ liệu noise khác nhau được thu thập từ các nguồn test khác nhau [3]. từ Internet cũng như thu âm trực tiếp tại các Training data augmentation: cách thực môi trường phổ biến như phòng họp, sảnh hiện ở đây là làm tăng độ tổng quát của dữ văn phòng, đường phố, bến tàu xe,… Khi bổ 108 Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 sung những loại noise này vào cơ sở dữ liệu đáng kể sự sự ổn định của mô hình nhận tiếng nói để huấn luyện mô hình đã giúp tăng dạng trong các điều kiện khác nhau. Hình 1. Cách thức gán nhãn noise cho transcript. Ở các nghiên cứu trên ta đơn thuần bổ Với phương pháp này ta cần biết loại noise sung nhiễu vào tín hiệu audio trong khi ta bổ sung vào audio là gì. Tuy nhiên làm sao transcript (văn bản tương ứng của đoạn ta có thể gán nhãn noise tag vào transcript. audio) ta vẫn giữ nguyên. Trong nghiên cứu Do noise được bổ sung trên toàn bộ audio này, chúng tôi đề xuất một phương án tăng file nên ta không thể bổ sung noise tag vào cường chất lượng nhận dạng bằng cách mô tất cả transcript. Với giả thiết là đầu và cuối hình hóa các loại noise khác nhau bằng cách mỗi câu là silence (điều này ta hoàn toàn có bổ sung cả vào transcript của dữ liệu tương thể điều khiển được được bằng cách trèn ứng các noise tag. thêm (padding) 1 đoạn nhỏ silence vào đầu vào cuối mỗi câu). Do vậy, ta có thể gán 2. XÂY DỰNG PHƯƠNG PHÁP MÔ noise tag vào đầu và cuối mỗi câu. Hình 1 HÌNH HÓA NHIỄU mô tả 1 ví dụ về việc gán noise vào cả audio Như đã nói, các phương pháp data và transcript của dữ liệu huấn luyện. augmentation truyền thống audio có thể Sau khi thực hiện gán noise cả audio và được bổ sung noise với các loại, cường độ transcript theo cách đề xuất ở trên, ta cần đặc khác nhau nhưng ...
Tìm kiếm theo từ khóa liên quan:
Hệ thống nhận dạng tiếng nói Phương pháp mô hình hóa nhiễu Chất lượng nhận dạng tiếng nói Cải tiến thuật toán data augmentation Mô hình GMMGợi ý tài liệu liên quan:
-
Xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans
3 trang 63 0 0 -
Bài giảng Xử lý tiếng nói: Phần 2
63 trang 22 0 0 -
Sử dụng mảng micro để tăng cường chất lượng nhận dạng tiếng nói
3 trang 21 0 0 -
Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau
3 trang 20 0 0 -
Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring
3 trang 19 0 0 -
Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL
3 trang 18 0 0 -
11 trang 16 0 0
-
14 trang 16 0 0
-
Phân lớp, định danh Chèo và Quan họ
9 trang 15 0 0 -
10 trang 13 0 0