Một mô hình phát hiện tiếng nói kích thước nhỏ

Số trang: 3 Loại file: pdf Dung lượng: 350.43 KB Lượt xem: 16 Lượt tải: 0

tailieu_vip

Hỗ trợ chi phí lưu trữ khi tải xuống: miễn phí

Báo xấu

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Một mô hình phát hiện tiếng nói kích thước nhỏ đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution.
Nội dung trích xuất từ tài liệu:
Một mô hình phát hiện tiếng nói kích thước nhỏ Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 MỘT MÔ HÌNH PHÁT HIỆN TIẾNG NÓI KÍCH THƯỚC NHỎ Nguyễn Duy Khánh1, Đỗ Văn Hải2 1 Trường Đại học Bách Khoa Hà Nội, 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU 2.2. Tăng cường dữ liệu Hiện nay, có rất nhiều hệ thống liên quan Sử dụng tăng cường dữ liệu (data đến xử lí tiếng nói. Tuy nhiên, trong một augmentation) nhằm giúp mô hình học tránh luồng audio, tiếng nói không phải luôn liên quá khớp cũng như tăng tính tổng quát hóa. tục, sẽ có những đoạn audio không có sự tồn Trong nghiên cứu này chúng tôi sử dụng 2 tại của tiếng nói con người. Do đó, chúng ta phương pháp phổ biến được đề xuất gần đây cần một hệ thống để phát hiển tiếng nói trong là SpecAugment và SpecCutout. audio (Voice Activity Detector - VAD). Một 2.3. Kiến trúc hệ thống hệ thống VAD sẽ kiểm tra xem có tiếng nói trong một đoạn audio ngắn không, để khi áp dụng vào cả đoạn audio dài sẽ biết được phần có tiếng nói trong đó. Gần đây, có rất nhiều thiết bị cầm tay có liên quan đến xử lí tiếng nói. Tuy nhiên, do là thiết bị cầm tay, bộ nhớ và khả năng tính toán của chúng bị giới hạn. Vì thế , một mô hình có kích thước nhỏ là cần thiết. Trong nghiên cứu này, chúng tôi đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution. Bằng việc sử dụng separable convolution, số lượng tham số giảm đi một cách đáng kể trong khi vẫn giữ được độ chính xác cao. 2. HỆ THỐNG ĐỀ XUẤT 2.1. Trích chọn đặc trưng Phương pháp trích chọn đặc trưng dùng trong nghiên cứu này là Mel frequency Hình 1. Kiến trúc hệ thống. cepstral coefficients - MFCC, một phương pháp được sử dụng rộng rãi trong các hệ Như đã đề cập, việc dùng 1D time-channel thống liên quan đến xử lí tiếng nói. separable convolution sẽ giúp làm giảm số 91 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 lượng tham số. Lớp convolution này có thể hình CNN của Hebbar [4]. Các file audio đề chia ra thành 1D depthwise convolutional và cập ở trên sẽ được cắt các đoạn dài 0.63 giây, một lớp point-wise convolutional layer mà với stride = 0.5s. hoạt động trên mỗi khung (frame) một cách Vì các đoạn audio sau khi cắt ra có cùng độc lập nhưng xuyên suốt các kênh (channel). độ dài, tần số lấy mẫu của chúng phải cùng Một lớp regular 1D convolutional với kích bằng 16000 Hz để mỗi sample đều được biểu thước kernel K, số lượng kênh đầu vào cin và diễn dưới vector có độ dài như nhau. số lượng kênh đầu ra cout có K*cin*cout tham Vì số lượng sample trong mỗi class không số. Trong khi đó, lớp time-channel separable bằng nhau, tập data sẽ được rebalance bằng convolutions có K*cin (cho lớp depthwise phương pháp “Oversampling”. conv) cộng với cin*cout (cho lớp pointwise 3.3. Huấn luyện conv) tham số. Mô hình chúng tôi đề xuất ở đây bao gồm Model được xây dựng bằng Nemo toolkit B = 2 residual blocks với R = 2 sub-blocks của Nvidia (Trên nền tảng Pytorch cho mỗi block. Mọi sub-block trong mỗi Lightning) trên Google Colab với GPU Tesla block đều có C = 64 kênh đầu ra. Một sub- T4. Drop-out rate được đặt là 0.1 và batch block gồm 1 lớp 1D time-channel separable size là 256. convolution, 11 pointwise convolution, Hình 2 và 3 biểu diễn training loss và batch norm, Relu, and dropout. validation loss theo iteration. Ta có thể thấy Bảng 1. Tham số chi tiết của mô hình rằng model hội tụ sau 14k iteration mặc dù Sub Output loss trên tập train vẫn có xu hướng giảm tiếp. Block Kernel width blocks channel Conv1 1 125 11 B1 2 64 13 B2 2 64 15 Conv2 1 128 27, dialation = 2 Conv3 1 128 1 Conv4 1 Classes 1 3. THỬ NGHIỆM 3.1. Dataset Hình 2. Training loss Để huấn luyện và đánh giá mô hình, dataset Ava-Speech được dùng. Tập data này bao gồm các video, trong đó video được gán nhãn với non-speech class hoặc 3 loại speech class khác nhau (clean speech, speech with noise, speech with music). Sau khi xử lí data, ta có 22250 audio file thuộc về speech class và 17617 audio file thuộc về non-speech class. 3.2. Tiền xử lý dữ liệu Mỗi sample được dùng cho việc huấn luyện và đánh giá sẽ là một đoạn audio dài 0.63s để có một đánh giá công bằng với mô Hình 3. Validation loss 92 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 3.4. Kết quả 4.KẾT LUẬN Bảng 2. Kết quả thử nghiệm Trong bài viết này, chúng tôi đã đề xuất With With một mô hình nhỏ chỉ với 74k tham số nhưng All Clean vẫn có độ chính xác cao cho bài toán phát ...