Thông tin tài liệu:
Để xác minh tính hiệu quả của phương pháp chúng tôi đề xuất cũng như ảnh hưởng của các yếu tố về ngôn ngữ, các thử nghiệm được thực hiện trên 2 bộ dữ liệu: (1) một bộ dữ liệu được tổng hợp từ các bộ dữ liệu công khai, (2) một bộ dữ liệu tiếng Việt nhỏ được thu thập từ YouTube.
Nội dung trích xuất từ tài liệu:
Cải thiện mô hình nhận dạng cảm xúc tiếng nóiTuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 CẢI THIỆN MÔ HÌNH NHẬN DẠNG CẢM XÚC TIẾNG NÓI Ngô Thị Thu Huyền1,2, Tạ Bảo Thắng1,2, Đỗ Văn Hải3 1 Trường Đại học Bách khoa Hà Nội, email: huyenthu432002@gmail.com 2 Trung tâm không gian mạng Viettel, email: tabaothang97@gmail.com 3 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. GIỚI THIỆU Nhận dạng cảm xúc tiếng nói (SpeechEmotion Recognition - SER) là một chủ đềnghiên cứu quan trọng cho các hệ thống thôngminh tương tác với các ứng dụng rộng rãi trongnhiều nhiệm vụ, chẳng hạn như dịch vụ kháchhàng, phân tích mạng xã hội và giáo dục. Đâylà một nhiệm vụ khó khăn vì có nhiều cách đểthể hiện cảm xúc. Ngoài ra, yếu tố ngôn ngữcũng ảnh hưởng đến việc xác định cảm xúc. Để giải quyết vấn đề trên, việc rút ra nhữngđặc điểm quan trọng từ giọng nói để xác địnhcảm xúc của người nói là rất cần thiết. Phươngpháp được đề xuất là kết hợp các đặc điểm caođộ vào mô hình Wav2Vec 2.0 [1] - công nghệtrích xuất các đặc điểm âm thanh tiên tiến nhấttừ dạng sóng âm thanh. Để xác minh tính hiệuquả của phương pháp chúng tôi đề xuất cũngnhư ảnh hưởng của các yếu tố về ngôn ngữ,các thử nghiệm được thực hiện trên 2 bộ dữliệu: (1) một bộ dữ liệu được tổng hợp từ cácbộ dữ liệu công khai, (2) một bộ dữ liệu tiếngViệt nhỏ được thu thập từ YouTube. Kết quảcho thấy cảm xúc của tiếng nói bị ảnh hưởngbởi ngôn ngữ và mô hình đề xuất cho kết quả Hình 1. Kiến trúcmô hình đề xuấttốt nhất trên cả bộ dữ liệu tiếng Anh và tiếngViệt với tỷ lệ lần lượt là 91,87% và 75,60% độ 2.1. Mô hình pretrained Wav2Vec 2.0chính xác. Quá trình huấn luyện trước Wav2Vec 2.02. MÔ HÌNH ĐỀ XUẤT tương tự như masked language modeling Mô hình baseline là mô hình chỉ sử dụng trong BERT và được thực hiện trong cài đặtWav2Vec 2.0 [1] để đoán nhãn cảm xúc. tự giám sát. Mô hình đề xuất của bài báo nàyNghiên cứu này đề xuất một mô hình có tên sử dụng mô hình Wav2Vec 2.0 bản base (12joint pitch - Wav2Vec 2.0 (tích hợp cao độ - khối transformer với kích thước embeddingWav2Vec 2.0) được thể hiện trong Hình 1. là 768): 66 Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 Đối với dữ liệu tiếng Anh: Wav2Vec 2.0 3. THỬ NGHIỆM[1] đã được huấn luyện trên 960 giờ của bộ 3.1. Datasetdữ liệu LibriSpeech. Đối với dữ liệu tiếng Việt: mô hình Mô hình đề xuất được thử nghiệm trên 2Wav2Vec 2.0 bản base được huấn luyện trên tập dữ liệu:13 nghìn giờ âm thanh YouTube tiếng Việt Bộ dữ liệu Tiếng Anh: tổng hợp từ 6 bộ(dữ liệu không có nhãn) [2]. dữ liệu công khai bằng tiếng Anh về Nhận 2.2. Tích hợp cao độ vào mô hình dạng cảm xúc lời nói. Tập dữ liệu tổng hợpWav2Vec 2.0 này có tổng thời lượng là 15,19 giờ, bao gồm 14905 đoạn audios của 235 người nói với 2 Trích xuất cao độ cung cấp thông tin có nhãn là angry và non-angry.giá trị về các thuộc tính âm thanh cơ bản của Bộ dữ liệu tiếng Việt: được lấy từ cáclời nói. Chúng tôi đã sử dụng thuật toán trích video phim trên YouTube. Phim Việt đượcxuất cao độ [3] để phù hợp hơn với nhu cầu chọn có chủ đích vì phim là nơi có nhiều sắccủa bài toán SER. Đặc trưng cao độ sau khi thái cảm xúc, đảm bảo sự cân bằng giữa cáctrích xuất được chuyển đến module CNN - nhãn. Các video được thu thập thông tin từpitch encoder (bộ mã hóa cao độ). Đầu vào YouTube sẽ được cắt nhỏ thành âm thanhcủa khối pitch encoder là một vectơ của theo người nói, được cắt thành âm thanh theochuỗi cao độ (pitch sequence) được trích xuất người nói. Các audio có độ dài từ 1 đến 5từ thuật toán trích xuất cao độ (Kaldi pitch). giây và được gán nhãn thủ công. Bộ dữ liệuĐầu ra của pitch encoder là một vectơ dẫnxuất các biểu diễn của nó. này gồm 594 audio, 35 người nói và 2 nhãn, Thông qua mô-đun multihead attention, angry và non-angry. Nhãn angry và non-angrymô hình chú ý đến các phần có liên quan của được gán cho các audio theo hình thức bỏcác đặc trưng cao độ quan trọng để xử lý phiếu, 3 người sẽ gán cho cùng 1 audio.thông tin waveform. Mô-đun này lấy các 3.2. Thiết lập thử nghiệmvectơ đặc trưng cao độ từ khối pitch encoder(Hình 1) làm key và value, đồng t ...