Danh mục

Phương pháp phân tách, nhận dạng tiếng nói trong tổng đài chăm sóc khách hàng

Số trang: 3      Loại file: pdf      Dung lượng: 175.47 KB      Lượt xem: 29      Lượt tải: 0    
Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Phương pháp phân tách, nhận dạng tiếng nói trong tổng đài chăm sóc khách hàng trình bày một phương pháp để phân tách và nhận dạng lời nói của điện thoại và khách hàng trong một cuộc trò chuyện qua tổng đài chăm sóc khách hàng. Thông tin về tiếng nói được sử dụng để phân cụm các đoạn giọng nói thành hai cụm.
Nội dung trích xuất từ tài liệu:
Phương pháp phân tách, nhận dạng tiếng nói trong tổng đài chăm sóc khách hàng Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 PHƯƠNG PHÁP PHÂN TÁCH, NHẬN DẠNG TIẾNG NÓI TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG Đỗ Văn Hải Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. MỞ ĐẦU tổng đài như vậy, điều quan trọng là phải Ngày nay, số lượng các cuộc gọi chăm sóc phân tách được đoạn nào là khách hàng, đoạn khách hàng tăng lên nhanh chóng trong rất nào là do điện thoại viên nói. nhiều lĩnh vực như viễn thông, tài chính, điện Trong bài báo này, chúng tôi đã đề xuất một lực, bán lẻ,… Do đó, làm sao để biết được phương pháp để xác định lời nói của điện thoại mong muốn, băn khoăn của khách hàng cũng viên và khách hàng trong một cuộc điện thoại như các điện thoại viên của mình có tư vấn có hai kênh trộn lẫn vào nhau. Đầu tiên, ta chính xác, đúng mực hay không là một nhu phân cụm các phân đoạn giọng nói trong cuộc cầu cấp thiết đối với người quản lý. Việc này hội thoại kênh hỗn hợp thành hai cụm bằng có thể thực hiện thủ công bằng cách sử dụng cách sử dụng thông tin đặc trưng về người nói người giám sát nghe ngẫu nhiên một số cuộc trong tiếng nói. Sau đó, kỹ thuật mô hình hóa gọi. Tuy nhiên phương pháp này tốn kém về ngôn ngữ hoạt động cùng với hệ thống nhận nhân lực, chậm trễ về mặt thời gian trong khi dạng tiếng nói (ASR) để xác định nhãn điện thông tin thu được lại phụ thuộc vào chủ thoại viên / khách hàng cho mỗi phân đoạn. quan của người giám sát. Kết quả thực nghiệm cho thấy độ chính xác Trong nghiên cứu trước đây [1], chúng tôi đã của phương pháp đề xuất là hơn 95%. sử dụng công nghệ nhận dạng tiếng nói để 2. PHƯƠNG PHÁP ĐỀ XUẤT chuyển đổi toàn bộ các cuộc gọi chăm sóc khách hàng thành văn bản. Sau đó áp dụng Phương pháp đề xuất bao gồm các bước công nghệ xử lý ngôn ngữ tự nhiên để phân tích sau đây. nội dung, sắc thái trong văn bản từ đó biết được Bước 1: thu thập dữ liệu tiếng nói các cuộc nội dung cũng như cảm xúc của khách hàng. gọi tổng đài để phân tách, gán nhãn văn bản thủ Để làm điều này, chúng ta cần thực hiện công. Bước này được thực hiện bằng các nhận dạng giọng nói riêng biệt cho phía phương thức khác nhau như lấy tệp tiếng nói khách hàng và phía điện thoại viên. Tuy trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng, băng nhiên, tại nhiều tổng đài tại Việt Nam, luồng từ,… hoặc thông qua các kết nối mạng dữ liệu, tín hiệu âm thanh của điện thoại viên và mỗi một tệp ứng với một cuộc gọi tổng đài. khách hàng bị trộn lẫn với nhau do nhiều Bước 2: phân tách và gán nhãn văn bản nguyên nhân như tiết kiệm dung lượng phần cho các tệp tiếng nói. Tại bước này, đưa các cứng, lưu trữ. Điều này dẫn đến hệ thống tệp tiếng nói ở bước 1 lên hệ thống gán nhãn giám sát [1] hoạt động không chính xác vì ta để người gán nhãn nghe, phân tách và gán không thể biết đoạn âm thanh nào do điện nhãn văn bản cho phần nói của điện thoại thoại viên hay khách hàng nói. Lý do là, cùng viên và khách hàng. Đầu ra của bước này là một câu nói nếu được nói bởi người điện các tập tiếng nói đã được phân loại và gán thoại viên có thể có ý nghĩa rất khác với lời nhãn riêng biệt thành tập tiếng nói của điện nói của khách hàng. Do đó, để giám sát các thoại viên và tập tiếng nói của khách hàng. 104 Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 Bước 3: tạo tập huấn luyện và kiểm thử. Bước 8: phân cụm các đoạn tiếng nói. Với Theo đó, khi dữ liệu tiếng nói được gán mỗi tệp tiếng nói, phân cụm các đoạn tiếng nhãn trong tệp của điện thoại viên và tệp nói ở bước 6 thành 2 cụm C1 và C2 dựa trên của khách hàng ở bước 2 đều ≥ Hlabel_min giờ các véc tơ đặc trưng người nói được trích dữ liệu, trong đó Hlabel_min ≥ 10 giờ nhằm xuất ở bước 7. đảm bảo tập dữ liệu đủ lớn. Người quản trị Bước 9: chuyển đổi tiếng nói sang văn quyết định lựa chọn một số tệp tiếng nói đã bản. Tất cả các đoạn tiếng nói ở bước 6 được được gán nhãn ở bước 2 để tạo tập huấn chuyển sang văn bản bằng cách sử dụng hệ luyện, các tệp còn lại được sử dụng để tạo thống nhận dạng tiếng nói. Với mỗi đoạn tập kiểm thử với yêu cầu kích thước tập tiếng nói thu được một văn bản tương ứng và kiểm thử cần lớn hơn Htest_min giờ dữ liệu, một chỉ số độ tin cậy nhận dạng DTC có giá trong đó Htest_min ≥ 2 giờ nhằm đảm bảo tập trị từ 0 đến 1. kiểm thử đủ lớn và tin cậy. Bước 10: lựa chọn đoạn tiếng nói thỏa Bước 4: xây dựng hai mô hình ngôn ngữ, mãn điều kiện làm căn cứ phân loại. Với mỗi LMa cho điện thoại viên và LMb cho khách một tệp tiếng nói, lựa chọn đoạn tiếng nói hàng dựa trên tập dữ liệu huấn luyện được trong bước 9 thỏa mãn điều kiện: có độ tin tạo ở bước 3 nhằm lưu trữ những đặc điểm về cậy DTC ≥ α, trong đó 0,5 ≤ α ≤ 0,95 nhằm ngôn ngữ nói như các cụm từ thường xuyên loại bỏ những đoạn tiếng nói có độ tin cậy nói của điện thoại viên và khách hàng từ đó quá thấp thường là những đoạn tiếng nói có để phân biệt được câu nói của điện thoại viên chất lượng quá kém hoặc môi trường quá hay khách hàng ở các bước sau. Trong nhiễu ảnh hưởng đến chất lượng hệ thống nghiên cứu này, các mô hình ngôn ngữ được phân loại. Nếu không lựa chọn được đoạn xây dựng là 4-gram. tiếng nói nào thỏa mãn, bỏ qua tệp này và Bước 5: thu thập dữ liệu tiếng nói các cuộc chuyển sang tệp ...

Tài liệu được xem nhiều: