![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Một phương pháp tăng cường dữ liệu cho bài toán nhận dạng ngữ điệu tiếng nói
Số trang: 3
Loại file: pdf
Dung lượng: 297.80 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Một phương pháp tăng cường dữ liệu cho bài toán nhận dạng ngữ điệu tiếng nói đề xuất phương pháp thay đổi tốc độ để gia tăng dữ liệu học giúp tăng chất lượng nhận dạng cảm xúc. Kết quả thử nghiệm trên tập dữ liệu IEMOCAP cho 4 lớp ngữ điệu khác nhau: Angry, happy, neutral, sad cho kết quả khả quan.
Nội dung trích xuất từ tài liệu:
Một phương pháp tăng cường dữ liệu cho bài toán nhận dạng ngữ điệu tiếng nói Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 MỘT PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU CHO BÀI TOÁN NHẬN DẠNG NGỮ ĐIỆU TIẾNG NÓI Lê Đăng Linh1,2, Đỗ Văn Hải3 1 Khoa Điện, Trường Đại học Bách Khoa Hà Nội 2 Trung tâm Không gian Mạng Viettel 3 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU Hiện nay, có rất nhiều ứng dụng thực tế 2.1. Xây dựng hệ thốngcần thông tin về cảm xúc của tiếng nói. Ví Hệ thống nhận dạng cảm xúc bằng tiếngdụ trong các hệ thống tổng đài chăm sóc nói được xây dựng dựa trên mô hình phân lớp dữ liệu. Hệ thống này bao gồm 3 phầnkhách hàng, việc đánh giá mức độ hài lòng chính: xử lý dữ liệu, trích chọn đặc trưng,cũng như thái độ người dùng giúp cho huấn luyện bộ nhận dạng.việc nâng cao chất lượng dịch vụ là vô cùngcần thiết. Trong những năm gần đây, phương pháphọc sâu đã đem lại những tiến bộ vượt bậc Hình 1. Cấu trúc hệ thống nhận dạng.trong xử lý tiếng nói [1,2]. Đặc biệt với bàitoán nhận dạng cảm xúc trong lời nói [3]. Trong bài toán này, trích chọn những đặcNhững nghiên cứu gần đây [4] đã chỉ ra việc trưng cảm xúc là vấn đề chính ảnh hưởng tớisử dụng mạng nơ-ron tích chập (CNN) làm chất lượng hệ thống. Rất nhiều các nghiênbộ phân lớp cho bài toán nhận dạng ngữ cứu đề xuất sử dụng những đặc trưng tiếng nói [6] bao gồm thông tin cảm xúc nhưđiệu tiếng nói cho kết quả tốt hơn nhiều so energy, pitch, formant frequency, Mel-với các phương pháp truyền thống khác như Frequency Cepstrum coefficients (MFCC).mô hình GMM, mô hình mạng nơ-ron sâu Những đặc trưng sau khi được lựa chọn sẽ(DNN). Tuy nhiên dữ liệu cho việc đào tạo được đưa qua những thuật toán phânmô hình đang là một khó khăn lớn đặt ra bởi lớp.Trong bài báo này chúng tôi sử dụngdữ liệu tiếng nói nói chung đặc biệt là dữ mạng CNN giúp đem lại chất lượng nhậnliệu về cảm xúc nói riêng có rất ít và khó dạng tốt nhất. Bên cạnh việc lựa chọn đặctìm. Do vậy các phương pháp gia tăng dữ trưng và mô hình bộ phân lớp thì dữ liệu làliệu học cho bài toán này cần được nghiên yếu tố quan trọng nhất quyết định tới tínhcứu, thử nghiệm. chính xác của hệ thống nhận dạng tiếng nói. Trong bài bài này chúng tôi đề xuất 2.2. Tăng cường dữ liệu họcphương pháp thay đổi tốc độ để gia tăng dữliệu học giúp tăng chất lượng nhận dạng Như đã đề cập lượng dữ liệu cho bài toáncảm xúc. Kết quả thử nghiệm trên tập dữ nhận dạng cảm xúc là khá ít so với những bàiliệu IEMOCAP [5] cho 4 lớp ngữ điệu khác toán học máy. Do vậy chúng tôi đề xuất kĩnhau: angry, happy, neutral, sad cho kết quả thuật làm giàu dữ liệu học bằng cách thay đổi tỉ lệ tốc độ. Phương pháp này đã được chứngkhả quan. minh đạt hiệu quả cao trong các bài toán 201Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8nhận dạng tiếng nói [7]. Với mỗi tín hiệu file có độ dài nhỏ hơn 1s sẽ bị loại bỏ, cáctiếng nói tại x(t) sẽ được biến đổi thành tín file còn lại sẽ chèn thêm phần khoảng lặng).hiệu x(αt). Thay đổi tốc độ audio đồng nghĩavới việc thay đổi độ dài file và làm biến dạnggiọng nói. Đặc biệt với cảm xúc khi thay đổitốc độ quá lớn sẽ làm biến dạng cảm xúc màfile audio thể hiện. Do đó chúng tôi sử dụnghệ số α nằm trong dải (0,9; 0,95; 1,05; 1,1)giúp cho dữ liệu không bị biến dạng quánhiều mà vẫn dữ được những đặc trưng cảmxúc. Dữ liệu sau khi sử dụng phương phápgia tăng đáng kể giúp cho mô hình tránhđược vấn đề quá khớp đồng thời tăng độchính xác mô hình. Hình 2. Phân phối dữ liệu theo độ dài trong tập dữ liệu IEMOCAP.3. KẾT QUẢ NGHIÊN CỨU Trong bài báo này chúng tôi chỉ xem xét 3.1. Thiết lập thí nghiệm sử dụng các đặc trưng MFCC. Đặc trưng này 3.1.1. Xử lý dữ liệu ...
Nội dung trích xuất từ tài liệu:
Một phương pháp tăng cường dữ liệu cho bài toán nhận dạng ngữ điệu tiếng nói Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 MỘT PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU CHO BÀI TOÁN NHẬN DẠNG NGỮ ĐIỆU TIẾNG NÓI Lê Đăng Linh1,2, Đỗ Văn Hải3 1 Khoa Điện, Trường Đại học Bách Khoa Hà Nội 2 Trung tâm Không gian Mạng Viettel 3 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU Hiện nay, có rất nhiều ứng dụng thực tế 2.1. Xây dựng hệ thốngcần thông tin về cảm xúc của tiếng nói. Ví Hệ thống nhận dạng cảm xúc bằng tiếngdụ trong các hệ thống tổng đài chăm sóc nói được xây dựng dựa trên mô hình phân lớp dữ liệu. Hệ thống này bao gồm 3 phầnkhách hàng, việc đánh giá mức độ hài lòng chính: xử lý dữ liệu, trích chọn đặc trưng,cũng như thái độ người dùng giúp cho huấn luyện bộ nhận dạng.việc nâng cao chất lượng dịch vụ là vô cùngcần thiết. Trong những năm gần đây, phương pháphọc sâu đã đem lại những tiến bộ vượt bậc Hình 1. Cấu trúc hệ thống nhận dạng.trong xử lý tiếng nói [1,2]. Đặc biệt với bàitoán nhận dạng cảm xúc trong lời nói [3]. Trong bài toán này, trích chọn những đặcNhững nghiên cứu gần đây [4] đã chỉ ra việc trưng cảm xúc là vấn đề chính ảnh hưởng tớisử dụng mạng nơ-ron tích chập (CNN) làm chất lượng hệ thống. Rất nhiều các nghiênbộ phân lớp cho bài toán nhận dạng ngữ cứu đề xuất sử dụng những đặc trưng tiếng nói [6] bao gồm thông tin cảm xúc nhưđiệu tiếng nói cho kết quả tốt hơn nhiều so energy, pitch, formant frequency, Mel-với các phương pháp truyền thống khác như Frequency Cepstrum coefficients (MFCC).mô hình GMM, mô hình mạng nơ-ron sâu Những đặc trưng sau khi được lựa chọn sẽ(DNN). Tuy nhiên dữ liệu cho việc đào tạo được đưa qua những thuật toán phânmô hình đang là một khó khăn lớn đặt ra bởi lớp.Trong bài báo này chúng tôi sử dụngdữ liệu tiếng nói nói chung đặc biệt là dữ mạng CNN giúp đem lại chất lượng nhậnliệu về cảm xúc nói riêng có rất ít và khó dạng tốt nhất. Bên cạnh việc lựa chọn đặctìm. Do vậy các phương pháp gia tăng dữ trưng và mô hình bộ phân lớp thì dữ liệu làliệu học cho bài toán này cần được nghiên yếu tố quan trọng nhất quyết định tới tínhcứu, thử nghiệm. chính xác của hệ thống nhận dạng tiếng nói. Trong bài bài này chúng tôi đề xuất 2.2. Tăng cường dữ liệu họcphương pháp thay đổi tốc độ để gia tăng dữliệu học giúp tăng chất lượng nhận dạng Như đã đề cập lượng dữ liệu cho bài toáncảm xúc. Kết quả thử nghiệm trên tập dữ nhận dạng cảm xúc là khá ít so với những bàiliệu IEMOCAP [5] cho 4 lớp ngữ điệu khác toán học máy. Do vậy chúng tôi đề xuất kĩnhau: angry, happy, neutral, sad cho kết quả thuật làm giàu dữ liệu học bằng cách thay đổi tỉ lệ tốc độ. Phương pháp này đã được chứngkhả quan. minh đạt hiệu quả cao trong các bài toán 201Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8nhận dạng tiếng nói [7]. Với mỗi tín hiệu file có độ dài nhỏ hơn 1s sẽ bị loại bỏ, cáctiếng nói tại x(t) sẽ được biến đổi thành tín file còn lại sẽ chèn thêm phần khoảng lặng).hiệu x(αt). Thay đổi tốc độ audio đồng nghĩavới việc thay đổi độ dài file và làm biến dạnggiọng nói. Đặc biệt với cảm xúc khi thay đổitốc độ quá lớn sẽ làm biến dạng cảm xúc màfile audio thể hiện. Do đó chúng tôi sử dụnghệ số α nằm trong dải (0,9; 0,95; 1,05; 1,1)giúp cho dữ liệu không bị biến dạng quánhiều mà vẫn dữ được những đặc trưng cảmxúc. Dữ liệu sau khi sử dụng phương phápgia tăng đáng kể giúp cho mô hình tránhđược vấn đề quá khớp đồng thời tăng độchính xác mô hình. Hình 2. Phân phối dữ liệu theo độ dài trong tập dữ liệu IEMOCAP.3. KẾT QUẢ NGHIÊN CỨU Trong bài báo này chúng tôi chỉ xem xét 3.1. Thiết lập thí nghiệm sử dụng các đặc trưng MFCC. Đặc trưng này 3.1.1. Xử lý dữ liệu ...
Tìm kiếm theo từ khóa liên quan:
Phương pháp tăng cường dữ liệu Bài toán nhận dạng ngữ điệu tiếng nói Mạng nơ-ron tích chập Mô hình mạng nơ-ron sâu Thuật toán phân lớpTài liệu liên quan:
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 150 0 0 -
Nhận dạng tấm pin mặt trời bị lỗi dựa trên dữ liệu ảnh bằng trí tuệ nhân tạo
4 trang 67 0 0 -
Ứng dụng Teachable Machine trong nhận diện khuôn mặt theo thời gian thực
4 trang 64 0 0 -
Giáo trình Mạng nơ ron học sâu và ứng dụng: Phần 1
121 trang 48 0 0 -
Nhận dạng tín hiệu ra đa LPI sử dụng mạng nơ ron học sâu
6 trang 45 0 0 -
Ứng dụng kỹ thuật học sâu trong hỗ trợ chẩn đoán bệnh viêm phổi thông qua ảnh chụp X-quang
11 trang 45 0 0 -
Nhận dạng vân tay sử dụng kỹ thuật học sâu
9 trang 43 0 0 -
Mô hình Deep Learning trong nhận diện cảm xúc và cảnh báo stress
3 trang 39 0 0 -
9 trang 35 0 0
-
Nâng cao khả năng phát hiện xâm nhập mạng sử dụng mạng CNN
8 trang 30 0 0