![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Một mô hình phát hiện tiếng nói kích thước nhỏ
Số trang: 3
Loại file: pdf
Dung lượng: 350.43 KB
Lượt xem: 16
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Một mô hình phát hiện tiếng nói kích thước nhỏ đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution.
Nội dung trích xuất từ tài liệu:
Một mô hình phát hiện tiếng nói kích thước nhỏ Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 MỘT MÔ HÌNH PHÁT HIỆN TIẾNG NÓI KÍCH THƯỚC NHỎ Nguyễn Duy Khánh1, Đỗ Văn Hải2 1 Trường Đại học Bách Khoa Hà Nội, 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU 2.2. Tăng cường dữ liệu Hiện nay, có rất nhiều hệ thống liên quan Sử dụng tăng cường dữ liệu (data đến xử lí tiếng nói. Tuy nhiên, trong một augmentation) nhằm giúp mô hình học tránh luồng audio, tiếng nói không phải luôn liên quá khớp cũng như tăng tính tổng quát hóa. tục, sẽ có những đoạn audio không có sự tồn Trong nghiên cứu này chúng tôi sử dụng 2 tại của tiếng nói con người. Do đó, chúng ta phương pháp phổ biến được đề xuất gần đây cần một hệ thống để phát hiển tiếng nói trong là SpecAugment và SpecCutout. audio (Voice Activity Detector - VAD). Một 2.3. Kiến trúc hệ thống hệ thống VAD sẽ kiểm tra xem có tiếng nói trong một đoạn audio ngắn không, để khi áp dụng vào cả đoạn audio dài sẽ biết được phần có tiếng nói trong đó. Gần đây, có rất nhiều thiết bị cầm tay có liên quan đến xử lí tiếng nói. Tuy nhiên, do là thiết bị cầm tay, bộ nhớ và khả năng tính toán của chúng bị giới hạn. Vì thế , một mô hình có kích thước nhỏ là cần thiết. Trong nghiên cứu này, chúng tôi đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution. Bằng việc sử dụng separable convolution, số lượng tham số giảm đi một cách đáng kể trong khi vẫn giữ được độ chính xác cao. 2. HỆ THỐNG ĐỀ XUẤT 2.1. Trích chọn đặc trưng Phương pháp trích chọn đặc trưng dùng trong nghiên cứu này là Mel frequency Hình 1. Kiến trúc hệ thống. cepstral coefficients - MFCC, một phương pháp được sử dụng rộng rãi trong các hệ Như đã đề cập, việc dùng 1D time-channel thống liên quan đến xử lí tiếng nói. separable convolution sẽ giúp làm giảm số 91 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 lượng tham số. Lớp convolution này có thể hình CNN của Hebbar [4]. Các file audio đề chia ra thành 1D depthwise convolutional và cập ở trên sẽ được cắt các đoạn dài 0.63 giây, một lớp point-wise convolutional layer mà với stride = 0.5s. hoạt động trên mỗi khung (frame) một cách Vì các đoạn audio sau khi cắt ra có cùng độc lập nhưng xuyên suốt các kênh (channel). độ dài, tần số lấy mẫu của chúng phải cùng Một lớp regular 1D convolutional với kích bằng 16000 Hz để mỗi sample đều được biểu thước kernel K, số lượng kênh đầu vào cin và diễn dưới vector có độ dài như nhau. số lượng kênh đầu ra cout có K*cin*cout tham Vì số lượng sample trong mỗi class không số. Trong khi đó, lớp time-channel separable bằng nhau, tập data sẽ được rebalance bằng convolutions có K*cin (cho lớp depthwise phương pháp “Oversampling”. conv) cộng với cin*cout (cho lớp pointwise 3.3. Huấn luyện conv) tham số. Mô hình chúng tôi đề xuất ở đây bao gồm Model được xây dựng bằng Nemo toolkit B = 2 residual blocks với R = 2 sub-blocks của Nvidia (Trên nền tảng Pytorch cho mỗi block. Mọi sub-block trong mỗi Lightning) trên Google Colab với GPU Tesla block đều có C = 64 kênh đầu ra. Một sub- T4. Drop-out rate được đặt là 0.1 và batch block gồm 1 lớp 1D time-channel separable size là 256. convolution, 11 pointwise convolution, Hình 2 và 3 biểu diễn training loss và batch norm, Relu, and dropout. validation loss theo iteration. Ta có thể thấy Bảng 1. Tham số chi tiết của mô hình rằng model hội tụ sau 14k iteration mặc dù Sub Output loss trên tập train vẫn có xu hướng giảm tiếp. Block Kernel width blocks channel Conv1 1 125 11 B1 2 64 13 B2 2 64 15 Conv2 1 128 27, dialation = 2 Conv3 1 128 1 Conv4 1 Classes 1 3. THỬ NGHIỆM 3.1. Dataset Hình 2. Training loss Để huấn luyện và đánh giá mô hình, dataset Ava-Speech được dùng. Tập data này bao gồm các video, trong đó video được gán nhãn với non-speech class hoặc 3 loại speech class khác nhau (clean speech, speech with noise, speech with music). Sau khi xử lí data, ta có 22250 audio file thuộc về speech class và 17617 audio file thuộc về non-speech class. 3.2. Tiền xử lý dữ liệu Mỗi sample được dùng cho việc huấn luyện và đánh giá sẽ là một đoạn audio dài 0.63s để có một đánh giá công bằng với mô Hình 3. Validation loss 92 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 3.4. Kết quả 4.KẾT LUẬN Bảng 2. Kết quả thử nghiệm Trong bài viết này, chúng tôi đã đề xuất With With một mô hình nhỏ chỉ với 74k tham số nhưng All Clean vẫn có độ chính xác cao cho bài toán phát ...
Nội dung trích xuất từ tài liệu:
Một mô hình phát hiện tiếng nói kích thước nhỏ Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 MỘT MÔ HÌNH PHÁT HIỆN TIẾNG NÓI KÍCH THƯỚC NHỎ Nguyễn Duy Khánh1, Đỗ Văn Hải2 1 Trường Đại học Bách Khoa Hà Nội, 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU 2.2. Tăng cường dữ liệu Hiện nay, có rất nhiều hệ thống liên quan Sử dụng tăng cường dữ liệu (data đến xử lí tiếng nói. Tuy nhiên, trong một augmentation) nhằm giúp mô hình học tránh luồng audio, tiếng nói không phải luôn liên quá khớp cũng như tăng tính tổng quát hóa. tục, sẽ có những đoạn audio không có sự tồn Trong nghiên cứu này chúng tôi sử dụng 2 tại của tiếng nói con người. Do đó, chúng ta phương pháp phổ biến được đề xuất gần đây cần một hệ thống để phát hiển tiếng nói trong là SpecAugment và SpecCutout. audio (Voice Activity Detector - VAD). Một 2.3. Kiến trúc hệ thống hệ thống VAD sẽ kiểm tra xem có tiếng nói trong một đoạn audio ngắn không, để khi áp dụng vào cả đoạn audio dài sẽ biết được phần có tiếng nói trong đó. Gần đây, có rất nhiều thiết bị cầm tay có liên quan đến xử lí tiếng nói. Tuy nhiên, do là thiết bị cầm tay, bộ nhớ và khả năng tính toán của chúng bị giới hạn. Vì thế , một mô hình có kích thước nhỏ là cần thiết. Trong nghiên cứu này, chúng tôi đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution. Bằng việc sử dụng separable convolution, số lượng tham số giảm đi một cách đáng kể trong khi vẫn giữ được độ chính xác cao. 2. HỆ THỐNG ĐỀ XUẤT 2.1. Trích chọn đặc trưng Phương pháp trích chọn đặc trưng dùng trong nghiên cứu này là Mel frequency Hình 1. Kiến trúc hệ thống. cepstral coefficients - MFCC, một phương pháp được sử dụng rộng rãi trong các hệ Như đã đề cập, việc dùng 1D time-channel thống liên quan đến xử lí tiếng nói. separable convolution sẽ giúp làm giảm số 91 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 lượng tham số. Lớp convolution này có thể hình CNN của Hebbar [4]. Các file audio đề chia ra thành 1D depthwise convolutional và cập ở trên sẽ được cắt các đoạn dài 0.63 giây, một lớp point-wise convolutional layer mà với stride = 0.5s. hoạt động trên mỗi khung (frame) một cách Vì các đoạn audio sau khi cắt ra có cùng độc lập nhưng xuyên suốt các kênh (channel). độ dài, tần số lấy mẫu của chúng phải cùng Một lớp regular 1D convolutional với kích bằng 16000 Hz để mỗi sample đều được biểu thước kernel K, số lượng kênh đầu vào cin và diễn dưới vector có độ dài như nhau. số lượng kênh đầu ra cout có K*cin*cout tham Vì số lượng sample trong mỗi class không số. Trong khi đó, lớp time-channel separable bằng nhau, tập data sẽ được rebalance bằng convolutions có K*cin (cho lớp depthwise phương pháp “Oversampling”. conv) cộng với cin*cout (cho lớp pointwise 3.3. Huấn luyện conv) tham số. Mô hình chúng tôi đề xuất ở đây bao gồm Model được xây dựng bằng Nemo toolkit B = 2 residual blocks với R = 2 sub-blocks của Nvidia (Trên nền tảng Pytorch cho mỗi block. Mọi sub-block trong mỗi Lightning) trên Google Colab với GPU Tesla block đều có C = 64 kênh đầu ra. Một sub- T4. Drop-out rate được đặt là 0.1 và batch block gồm 1 lớp 1D time-channel separable size là 256. convolution, 11 pointwise convolution, Hình 2 và 3 biểu diễn training loss và batch norm, Relu, and dropout. validation loss theo iteration. Ta có thể thấy Bảng 1. Tham số chi tiết của mô hình rằng model hội tụ sau 14k iteration mặc dù Sub Output loss trên tập train vẫn có xu hướng giảm tiếp. Block Kernel width blocks channel Conv1 1 125 11 B1 2 64 13 B2 2 64 15 Conv2 1 128 27, dialation = 2 Conv3 1 128 1 Conv4 1 Classes 1 3. THỬ NGHIỆM 3.1. Dataset Hình 2. Training loss Để huấn luyện và đánh giá mô hình, dataset Ava-Speech được dùng. Tập data này bao gồm các video, trong đó video được gán nhãn với non-speech class hoặc 3 loại speech class khác nhau (clean speech, speech with noise, speech with music). Sau khi xử lí data, ta có 22250 audio file thuộc về speech class và 17617 audio file thuộc về non-speech class. 3.2. Tiền xử lý dữ liệu Mỗi sample được dùng cho việc huấn luyện và đánh giá sẽ là một đoạn audio dài 0.63s để có một đánh giá công bằng với mô Hình 3. Validation loss 92 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 3.4. Kết quả 4.KẾT LUẬN Bảng 2. Kết quả thử nghiệm Trong bài viết này, chúng tôi đã đề xuất With With một mô hình nhỏ chỉ với 74k tham số nhưng All Clean vẫn có độ chính xác cao cho bài toán phát ...
Tìm kiếm theo từ khóa liên quan:
Mạng nơ ron tích chập Mô hình phát hiện tiếng nói Hệ thống xử xử lí tiếng nói Nền tảng Pytorch Lightning Lớp point-wise convolutional layerTài liệu liên quan:
-
12 trang 273 0 0
-
Xác định đặc điểm tác giả văn bản tiếng Việt bằng học sâu
7 trang 118 0 0 -
Nâng cao hiệu năng phát hiện đám cháy sử dụng thị giác máy dựa trên mạng nơ-ron YOLOV5
6 trang 74 0 0 -
Dự đoán góc quay vô lăng của xe tự lái sử dụng mạng nơ ron tích chập
3 trang 38 0 0 -
Luận văn Thạc sĩ Kỹ thuật phần mềm: Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu
33 trang 33 0 0 -
Tạp chí Khoa học và Công nghệ Việt Nam – Số 1 năm 2020
76 trang 33 0 0 -
Ứng dụng mạng GAN trong bài toán sinh dữ liệu đa phương tiện
8 trang 32 0 0 -
Phát hiện tắc nghẽn giao thông từ hình ảnh camera giám sát bằng mạng nơron tích chập
4 trang 31 0 0 -
Nhận dạng cảm xúc trong video sử dụng mạng nơ ron tích chập
6 trang 29 0 0 -
Băng tải giao hành lý thông minh sử dụng kết hợp phát hiện và nhận dạng mã vạch
7 trang 25 0 0