Bài viết Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt trình bày quá trình tiền xử lý, trích chọn đặc trưng, đưa ra và so sánh hai phương pháp học máy phân loại vùng miền trong tiếng nói tiếng Việt : Rừng ngẫu nhiên - phân loại với học máy thuần, và mô hình mạng tích chập - mô hình phân loại học sâu.
Nội dung trích xuất từ tài liệu:
Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt
Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
PHÁT TRIỂN HỆ THỐNG NHẬN DẠNG PHƯƠNG NGỮ
VÙNG MIỀN CHO TIẾNG NÓI TIẾNG VIỆT
Dương Quang Tiến1, Đỗ Văn Hải1
1
Trường Đại học Thủy lợi
1. GIỚI THIỆU CHUNG nhau cho bài toán nhận dạng vùng miền với
kho ngữ liệu tiếng Việt. Dữ liệu bao gồm
Việt Nam là đất nước đa dạng về phương
3.000 tệp âm thanh được thu thập từ các
ngữ. Với mỗi vùng khác nhau, người dân sẽ
chương trình quảng cáo, chương trình truyền
có cách phát âm tiếng Việt riêng - cụ thể trên
hình, các cuộc phỏng vấn và nhiều nguồn
lãnh thổ Việt Nam là 3 miền Bắc, Trung,
khác, được áp dụng các phương pháp tiền xử
Nam, khác nhau ở cả phát âm, ngữ điệu, âm
lý, trích xuất đặc trưng, sau đó triển khai so
vực, hay cả từ vựng.
sánh hai phương pháp phân loại bằng rừng
Bài toán nhận dạng vùng miền đóng góp
ngẫu nhiên (Random Forest) và mô hình
vai trò quan trọng trong bài toán nhận dạng
mạng nơ-ron tích chập (Convolutional Neural
tiếng nói. Tính năng nhận dạng vùng miền bổ
Network - CNN) với đầu vào được xử lý ở
sung cho công nghệ trợ lý ảo, hay các tổng
trên. Thử nghiệm với rừng ngẫu nhiên cho
đài tự động, mang lại những lợi ích quan
kết quả độ chính xác là 62,2% trên tập kiểm
trọng cho toàn bộ ngành công nghệ xử lý
tra. Kết quả của mạng nơ ron tích chập vượt
tiếng nói tổng quan [1]. Một số nghiên cứu
trội hơn với độ chính xác 73,9%.
về phân loại vùng miền tiếng nói đã được
phát triển gần đây, tiêu biểu trong đưa ra các 2. PHƯƠNG PHÁP TRIỂN KHAI
kết quả tốt nhưng với các ngôn ngữ nước
ngoài. Trong phạm vi tiếng Việt, theo hiểu Các tệp trong kho ngữ liệu được gán nhãn
biết của chúng tôi, vẫn chưa có nhiều kết quả phân loại thành 3 loại vùng giọng miền Bắc,
nổi trội trong bài toán phân loại vùng miền miền Trung và miền Nam. Bộ dữ liệu âm
phương ngữ. thanh có nhiễu nền, gồm 3.000 tệp định dạng
Trong nghiên cứu này, chúng tôi trình bày .wav lấy mẫu ở tần số 22.050Hz, tách thành
sự so sánh hai phương pháp học máy khác 2.400 tệp cho huấn luyện mô hình, 300 tệp
Hình 1. Phân bổ về thời lượng và số lượng nhãn của tập dữ liệu
116
Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
cho tập phát triển và 300 tệp kiểm tra mô Kiến trúc mô hình lấy cảm hứng bởi mạng
hình. Hầu hết các tệp tin có độ dài dưới Wavenet [4], được thiết kế như Hình 2.
3 giây, nhưng có một số nhỏ các tệp đặc biệt Mô hình được huấn luyện với 100 epoch,
dài hơn 60 giây (đặc biệt là một số tệp có độ batch size 16, thuật toán tối ưu Adam. Kết
dài thậm chí 9 phút hoặc lên đến 11 phút). quả dự đoán trên một file âm thanh gồm
Phân bố thời lượng âm thanh và số lượng các nhiều đoạn nhỏ, sẽ lấy nhãn dựa theo đoạn có
nhãn mỗi loại được biểu diễn trên Hình 1. chứa xác suất về độ tin cậy cao nhất để lấy
Trước khi được đưa vào sử dụng, các tệp định kết quả dự đoán cho toàn bộ đoạn âm thanh
dạng .wav được tiền xử lý với phép nhấn mạnh của tệp. Hàm mất mát được sử dụng là hàm
(pre-emphasis) để tăng cường tín hiệu dễ bị Cross-Entropy
nhiễu, lọc nhiễu nền dưới cường độ 30dB. Sau
đó toàn bộ các tệp âm thanh được phân thành 3. THỬ NGHIỆM VÀ KẾT QUẢ
các đoạn nhỏ dài 2 giây (tăng cường được tổng Tham số về số lượng cây cho rừng ngẫu
số lượng dữ liệu), xếp chồng lên nhau 1 giây nhiên có giá trị 200 được xác định bằng
để trích xuất các đặc trưng. Xgboost. Mô hình mạng học sâu có tổng
Phương pháp sử dụng phân loại bằng rừng 220.710 tham số, 1.088 tham số không được
ngẫu nhiên thường lấy đầu vào là đặc trưng học. Môi trường được sử dụng để phát triển là
về MFCC của âm thanh. Một số nghiên cứu Tensorflow 2.0, Keras, toàn bộ quá trình huấn
về tiếng nói tiếng Việt sử dụng MFCC đã cho luyện và kiểm tra chạy trên Google Colab Pro.
những kết quả tốt như [2], [3]. Tuy nhiên Các công cụ tiền xử lý và trích chọn đặc trưng
trong nghiên cứu này, chúng tôi bổ sung đặc sử dụng thư viện Librosa. Phương thức đánh
trưng MFCC ghép nối với các đặc trưng về giá là độ chính xác (accuracy) và ma trận
sắc độ, cao độ, tỷ lệ vượt mức 0 (Zero- nhầm lẫn (confusion matrix).
crossing rate) và năng lượng của tín hiệu.
Các vector đặc trưng này được duỗi thành 1 Bảng 1. Độ chính xác của hai phương pháp
chiều, sau đó được ghép nối (concatenated) phân loại
lại với nhau, để tăng chiều dài đặc trưng, từ Tập Tập Tập
đó tăng độ hiệu quả cho phân loại. Mô hình huấn phát kiểm
luyện triển tra
Rừng ngẫu nhiên 98,6% 58,1% 62,2%
Mạng tích chập 94,1% 76,1% 73,9%
Từ Bảng 1 ta có thể thấy mô hình mạng tích
...