Quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói ở phía khách hàng

Số trang: 3 Loại file: pdf Dung lượng: 171.48 KB Lượt xem: 13 Lượt tải: 0

tailieu_vip

Báo xấu

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói ở phía khách hàng trình bày quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng của hệ thống nhận dạng tiếng nói phù hợp với chính nhu cầu, dữ liệu của người dùng.
Nội dung trích xuất từ tài liệu:
Quy trình xây dựng dữ liệu và huấn luyện liên tục hệ thống nhận dạng tiếng nói ở phía khách hàng Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 QUY TRÌNH XÂY DỰNG DỮ LIỆU VÀ HUẤN LUYỆN LIÊN TỤC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Ở PHÍA KHÁCH HÀNG Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. MỞ ĐẦU liên tục hệ thống nhận dạng tiếng nói nhằm liên tục nâng cao chất lượng của hệ thống Hiện nay các ứng dụng nhận dạng tiếng nhận dạng tiếng nói phù hợp với chính nhu nói đã trở nên rất phổ biến. Ví dụ chúng ta có cầu, dữ liệu của người dùng. thể nhập liệu, tìm kiếm bằng tiếng nói thay vì gõ vào bàn phím qua các ứng dụng của hệ 2. QUY TRÌNH ĐỀ XUẤT điều hành iOS, Android, Windows,… Để xây dựng được những hệ thống nhận - Bước 1: thu thập dữ liệu tiếng nói; bước dạng tiếng nói chúng ta cần có quá trình huấn này được thực hiện bằng các phương thức luyện để máy tính học được mối quan hệ giữa khác nhau như lấy tệp tiếng nói trực tiếp từ tiếng nói ở đầu vào và văn bản ở đầu ra. Về thiết bị lưu trữ hoặc thông qua các kết nối nguyên tắc khi ta càng có nhiều dữ liệu huấn mạng dữ liệu; luyện thì hệ thống nhận dạng càng có khả - Bước 2: tự động cắt tệp tiếng nói thành năng nhận dạng chính xác hơn. Tuy nhiên để các đoạn nhỏ; bước này được thực hiện bằng huấn luyện một hệ thống nhận dạng tiếng nói cách dựa vào đặc tính tín hiệu của tiếng nói; với một lượng dữ liệu lớn ta cần rất nhiều - Bước 3: chuyển đổi tiếng nói sang văn thời gian, cùng với đó là một hệ thống máy bản; tại bước này, tất cả các đoạn tiếng nói ở tính mạnh. Do đó, việc huấn luyện mô hình bước 2 được chuyển sang văn bản bằng cách nhận dạng tiếng nói thường chỉ có thể được sử dụng hệ thống nhận dạng tiếng nói, với thực hiện tại các công ty cung cấp dịch vụ mỗi đoạn tiếng nói thu được một văn bản nhận dạng tiếng nói, mà khó có thể triển khai tương ứng có số từ là N và một chỉ số độ tin ở phía người dùng sử dụng dịch vụ. cậy nhận dạng DTC; Trong khi đó trong quá trình sử dụng dịch - Bước 4: lựa chọn đoạn tiếng nói thỏa mãn vụ nhận dạng tiếng nói, phía người dùng thu điều kiện; tại bước này, lựa chọn các đoạn thập được nhiều dữ liệu thực tế, cùng với đó tiếng nói trong bước 2 thỏa mãn hai điều kiện: là việc phát hiện những trường hợp máy nhận một là có độ tin cậy ở bước 3 nằm trong dạng nhầm. Mong muốn của người dùng đó ngưỡng cho phép, tức là DTC ≥ DTCmin và là làm sao có thể huấn luyện cho máy biết DTC ≤ DTCmax; hai là: có số từ nhận dạng những lỗi sai trong quá trình sử dụng như vậy trong văn bản ở bước 3 cũng nằm trong và khắc phục ngay trong các lần sau. ngưỡng cho phép, tức là: N ≥ Nmin và Do đó cần thiết có một phương pháp có thể N ≤ Nmax. Trong đó DTCmin có giá trị từ 0,4 huấn luyện hệ thống nhận dạng tiếng nói liên đến 0,8 nhằm loại bỏ nhưng đoạn tiếng nói tục từ đó có thể cập nhật nhanh nhất hệ thống có độ tin cậy quá thấp thường là những đoạn nhận dạng với những dữ liệu được thực hiện tiếng nói có chất lượng quá kém hoặc môi ở phía người dùng. trường quá nhiễu; DTCmax có giá trị từ 0,8 Trong nghiên cứu này, chúng tôi đưa ra đến 1,0 nhằm loại bỏ những đoạn tiếng nói một quy trình xây dựng dữ liệu và huấn luyện có độ tin cậy quá cao, nếu bổ sung vào dữ 107 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 liệu học sẽ không mang lại nhiều giá trị; Nmin - Bước 10: đánh giá các hệ thống nhận có giá trị từ 1 đến 10 nhằm loại bỏ những dạng với các tập kiểm thử; tại bước này, bằng đoạn tiếng nói quá ngắn không chứa nhiều cách sử dụng hệ thống hiện thời và các hệ thông tin; Nmax có giá trị từ 10 đến 40 nhằm thống được tạo ra từ bước 9 để nhận dạng các loại bỏ những đoạn tiếng nói quá dài gây khó đoạn tiếng nói trong các tập kiểm thử và sử khăn trong việc nghe và làm dữ liệu; dụng công cụ để tự động so sánh văn bản - Bước 5: gán nhãn và chỉnh sửa lại văn được nhận dạng với văn bản do người gán bản; tại bước này, đưa các đoạn tiếng nói nhãn dữ liệu đã nhập để đưa ra bảng các chỉ được lựa chọn ở bước 4 cùng với văn bản số sai số từ (word error rate1) của các hệ tương ứng được nhận dạng ở bước 3 lên hệ thống với các tập kiểm thử; thống gán nhãn để người gán nhãn nghe và - Bước 11: lựa chọn cập nhật hệ thống chỉnh sửa lại văn bản cho đúng với nội dung nhận dạng; từ kết quả ở bước 10, người quản của đoạn tiếng nói; trị sẽ quyết định lựa chọn hệ thống nhận dạng - Bước 6: kiểm tra chất lượng gán nhãn; tại nào có sai số trung bình thấp nhất để cập nhật bước này, người kiểm tra đánh giá chất lượng hoặc giữ nguyên hệ thống hiện thời. nhãn văn bản được gán ở bước 5, với các 3. THỬ NGHIỆM đoạn tiếng nói không đạt sẽ yêu cầu người gán nhãn chỉnh sửa lại, nếu đạt cho đoạn Giải pháp đã được đưa vào hoạt động để tiếng nói cùng văn bản tương ứng vào kho dữ xây dựng quy trình làm dữ liệu và huấn luyện liệu được gán nhãn; liên tục cho hệ thống nhận dạng tiếng nói của - Bước 7: tạo các tập kiểm thử; theo đó, tổng đài chăm sóc khách hàng của Viettel. người quản trị quyết định lựa chọn một số Chúng tôi xây dựng hệ thống nhận dạng đoạn tiếng nói trong kho dữ liệu được gán tiếng nói để chuyển đổi toàn bộ các cuộc gọi nhãn ở bước 6 để tạo các tập kiểm thử với chăm sóc khách hàng sang văn bản ...