Danh mục

Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt

Số trang: 3      Loại file: pdf      Dung lượng: 316.97 KB      Lượt xem: 11      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt trình bày quá trình tiền xử lý, trích chọn đặc trưng, đưa ra và so sánh hai phương pháp học máy phân loại vùng miền trong tiếng nói tiếng Việt : Rừng ngẫu nhiên - phân loại với học máy thuần, và mô hình mạng tích chập - mô hình phân loại học sâu.
Nội dung trích xuất từ tài liệu:
Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG PHƯƠNG NGỮ VÙNG MIỀN CHO TIẾNG NÓI TIẾNG VIỆT Dương Quang Tiến1, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 1. GIỚI THIỆU CHUNG nhau cho bài toán nhận dạng vùng miền với kho ngữ liệu tiếng Việt. Dữ liệu bao gồm Việt Nam là đất nước đa dạng về phương 3.000 tệp âm thanh được thu thập từ các ngữ. Với mỗi vùng khác nhau, người dân sẽ chương trình quảng cáo, chương trình truyền có cách phát âm tiếng Việt riêng - cụ thể trên hình, các cuộc phỏng vấn và nhiều nguồn lãnh thổ Việt Nam là 3 miền Bắc, Trung, khác, được áp dụng các phương pháp tiền xử Nam, khác nhau ở cả phát âm, ngữ điệu, âm lý, trích xuất đặc trưng, sau đó triển khai so vực, hay cả từ vựng. sánh hai phương pháp phân loại bằng rừng Bài toán nhận dạng vùng miền đóng góp ngẫu nhiên (Random Forest) và mô hình vai trò quan trọng trong bài toán nhận dạng mạng nơ-ron tích chập (Convolutional Neural tiếng nói. Tính năng nhận dạng vùng miền bổ Network - CNN) với đầu vào được xử lý ở sung cho công nghệ trợ lý ảo, hay các tổng trên. Thử nghiệm với rừng ngẫu nhiên cho đài tự động, mang lại những lợi ích quan kết quả độ chính xác là 62,2% trên tập kiểm trọng cho toàn bộ ngành công nghệ xử lý tra. Kết quả của mạng nơ ron tích chập vượt tiếng nói tổng quan [1]. Một số nghiên cứu trội hơn với độ chính xác 73,9%. về phân loại vùng miền tiếng nói đã được phát triển gần đây, tiêu biểu trong đưa ra các 2. PHƯƠNG PHÁP TRIỂN KHAI kết quả tốt nhưng với các ngôn ngữ nước ngoài. Trong phạm vi tiếng Việt, theo hiểu Các tệp trong kho ngữ liệu được gán nhãn biết của chúng tôi, vẫn chưa có nhiều kết quả phân loại thành 3 loại vùng giọng miền Bắc, nổi trội trong bài toán phân loại vùng miền miền Trung và miền Nam. Bộ dữ liệu âm phương ngữ. thanh có nhiễu nền, gồm 3.000 tệp định dạng Trong nghiên cứu này, chúng tôi trình bày .wav lấy mẫu ở tần số 22.050Hz, tách thành sự so sánh hai phương pháp học máy khác 2.400 tệp cho huấn luyện mô hình, 300 tệp Hình 1. Phân bổ về thời lượng và số lượng nhãn của tập dữ liệu 116 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 cho tập phát triển và 300 tệp kiểm tra mô Kiến trúc mô hình lấy cảm hứng bởi mạng hình. Hầu hết các tệp tin có độ dài dưới Wavenet [4], được thiết kế như Hình 2. 3 giây, nhưng có một số nhỏ các tệp đặc biệt Mô hình được huấn luyện với 100 epoch, dài hơn 60 giây (đặc biệt là một số tệp có độ batch size 16, thuật toán tối ưu Adam. Kết dài thậm chí 9 phút hoặc lên đến 11 phút). quả dự đoán trên một file âm thanh gồm Phân bố thời lượng âm thanh và số lượng các nhiều đoạn nhỏ, sẽ lấy nhãn dựa theo đoạn có nhãn mỗi loại được biểu diễn trên Hình 1. chứa xác suất về độ tin cậy cao nhất để lấy Trước khi được đưa vào sử dụng, các tệp định kết quả dự đoán cho toàn bộ đoạn âm thanh dạng .wav được tiền xử lý với phép nhấn mạnh của tệp. Hàm mất mát được sử dụng là hàm (pre-emphasis) để tăng cường tín hiệu dễ bị Cross-Entropy nhiễu, lọc nhiễu nền dưới cường độ 30dB. Sau đó toàn bộ các tệp âm thanh được phân thành 3. THỬ NGHIỆM VÀ KẾT QUẢ các đoạn nhỏ dài 2 giây (tăng cường được tổng Tham số về số lượng cây cho rừng ngẫu số lượng dữ liệu), xếp chồng lên nhau 1 giây nhiên có giá trị 200 được xác định bằng để trích xuất các đặc trưng. Xgboost. Mô hình mạng học sâu có tổng Phương pháp sử dụng phân loại bằng rừng 220.710 tham số, 1.088 tham số không được ngẫu nhiên thường lấy đầu vào là đặc trưng học. Môi trường được sử dụng để phát triển là về MFCC của âm thanh. Một số nghiên cứu Tensorflow 2.0, Keras, toàn bộ quá trình huấn về tiếng nói tiếng Việt sử dụng MFCC đã cho luyện và kiểm tra chạy trên Google Colab Pro. những kết quả tốt như [2], [3]. Tuy nhiên Các công cụ tiền xử lý và trích chọn đặc trưng trong nghiên cứu này, chúng tôi bổ sung đặc sử dụng thư viện Librosa. Phương thức đánh trưng MFCC ghép nối với các đặc trưng về giá là độ chính xác (accuracy) và ma trận sắc độ, cao độ, tỷ lệ vượt mức 0 (Zero- nhầm lẫn (confusion matrix). crossing rate) và năng lượng của tín hiệu. Các vector đặc trưng này được duỗi thành 1 Bảng 1. Độ chính xác của hai phương pháp chiều, sau đó được ghép nối (concatenated) phân loại lại với nhau, để tăng chiều dài đặc trưng, từ Tập Tập Tập đó tăng độ hiệu quả cho phân loại. Mô hình huấn phát kiểm luyện triển tra Rừng ngẫu nhiên 98,6% 58,1% 62,2% Mạng tích chập 94,1% 76,1% 73,9% Từ Bảng 1 ta có thể thấy mô hình mạng tích ...

Tài liệu được xem nhiều: