Mô hình hiểu ngôn ngữ nói hiệu quả
Số trang: 3
Loại file: pdf
Dung lượng: 731.37 KB
Lượt xem: 17
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong nghiên cứu này, để cải thiện chất lượng của mô hình SLU mà không cần bổ sung dữ liệu, chúng tôi đề xuất việc sử dụng một mô hình đã được huấn luyện trong việc nhận diện tiếng nói (Automatic Speech Recognition - ASR). Từ đó nâng cao được kết quả mô hình SLU.
Nội dung trích xuất từ tài liệu:
Mô hình hiểu ngôn ngữ nói hiệu quả Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 MÔ HÌNH HIỂU NGÔN NGỮ NÓI HIỆU QUẢ Nguyễn Duy Khánh1,2, Tạ Bảo Thắng1,2, Đỗ Văn Hải3 1 Trường Đại học Bách khoa Hà Nội, email: khanh14ph@gmail.com 2 Trung tâm không gian mạng Viettel, email: tabaothang97@gmail.com 3 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. GIỚI THIỆU Trong nghiên cứu này, để cải thiện chất lượng của mô hình SLU mà không cần bổ Hệ thống hiểu ngôn ngữ nói (Spoken sung dữ liệu, chúng tôi đề xuất việc sử dụnglanguage understanding - SLU) có nhiệm vụ một mô hình đã được huấn luyện trong việcsuy luận ý định và thực thể trong một câu nhận diện tiếng nói (Automatic Speechnói. Ví dụ, đối với một trợ lý ảo điều khiển Recognition - ASR). Từ đó nâng cao đượcbằng giọng nói, ý định của một câu nói như kết quả mô hình SLU.lịch chiếu phim là bao giờ ấy nhỉ có thể cómột biểu diễn như sau: scenario: lịch | 2. HỆ THỐNG ĐỀ XUẤTaction: truy vấn | Entities: [tag: tên sựkiện | value: phim]. 2.1. Trích chọn đặc trưng Mô hình SLU truyền thống được tạo thành Phương pháp trích chọn đặc trưng dùngtừ hai mô-đun: mô-đun nhận dạng giọng nói trong nghiên cứu này là Mel Spectrogram,tự động (ASR) chuyển đổi giọng nói thành phương pháp được sử dụng rộng rãi trong cácvăn bản, và mô-đun hiểu ngôn ngữ tự nhiên hệ thống liên quan đến xử lí tiếng nói.(NLU) chuyển đổi văn bản thành ý định củangười nói. Một phương pháp thay thế đang 2.2. Tăng cường dữ liệudần trở nên phổ biến là end-to-end SLU. Sử dụng tăng cường dữ liệu (dataTrong mô hình end-to-end SLU, một mô hình augmentation) nhằm giúp mô hình học tránhđơn lẻ có thể chuyển đổi trực tiếp âm thanh quá khớp cũng như tăng tính tổng quát hóa.giọng nói thành ý định của người nói mà Trong nghiên cứu này chúng tôi sử dụngkhông cần tạo ra một văn bản trích xuất rõ phương pháp phổ biến được đề xuất gần đâyràng. Khác với mô hình SLU truyền thống, là SpecAugment [2].end-to-end SLU: Có thể thực hiện tối ưu toàn bộ, thay vì 2.3. Kiến trúc hệ thốngtối ưu cục bộ cho từng mô-đun riêng [1]. Mô hình end-to-end SLU được triển khai Việc sử dụng một mô hình duy nhất sẽ dưới dạng mô hình chuỗi đến chuỗi (sequencetránh được việc lan truyền lỗi giữa các mô- to sequence), bao gồm một bộ mã hóa và mộtđun [1]. bộ giải mã. Đầu vào là audio, đầu ra là một Có thể tận dụng các khía cạnh về âm chuỗi các token, khi ghép lại sẽ ra được mộtthanh (tốc độ nói, nhịp điệu) [1]. ý định của câu nói. Ví dụ: Tuy nhiên, vì tín hiệu nói có số chiều lớn, Đầu vào: put meeting with Khanhviệc huấn luyện các mô hình học sâu đạt kết Đầu ra: [‘action’:‘set’ | ‘entities’: [‘type’:quả cao mà không có một lượng lớn dữ liệu ’event |‘filler’: ‘meeting’ | ‘type’:‘person’ |huấn luyện là khá khó khăn. ‘filler’: ‘Khanh’]. 63Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 một phần ba, giúp dễ dàng triển khai trên thiết bị di động. Hình 1. Kiến trúc thông thường Hiện nay, liên quan đến xử lí tiếng nói, cácnhà nghiên cứu có xu hướng sử dụng các mô Hình 2. Kiến trúc đề xuấthình tự giám sát (self-supervised model), tức Mô hình ASR được tận dụng ở đây là môlà mô hình được tiền huấn luyện trên dữ liệu hình Conformer[4], mô hình này đã đạt đượckhông nhãn, để rồi huấn luyện trên dữ liệu có kết quả rất tốt ở tác vụ ASR. Ý tưởng của mônhãn của tác vụ con. Theo hướng phát triển hình này là sử dụng sự kết hợp của các mô-đó, trong hệ thống SLU, mô hình tự giám sát đun tự chú ý (self-attention) và tích chậpđược dùng như bộ mã hóa (encoder). Do kết (convolution) để đạt được lợi ích tốt nhất từquả của hệ thống SLU dựa trên mô hình tự hai phương pháp này, các lớp tự chú ý có thểgiám sát HuBERT[3] đang là tốt nhất, chúng học được tương tác toàn cục trong khi cáctôi sẽ lấy mô hình này làm baseline. tích chập hiệu quả học được các tương quan Dựa trên ý tưởng sử dụng các ...
Nội dung trích xuất từ tài liệu:
Mô hình hiểu ngôn ngữ nói hiệu quả Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 MÔ HÌNH HIỂU NGÔN NGỮ NÓI HIỆU QUẢ Nguyễn Duy Khánh1,2, Tạ Bảo Thắng1,2, Đỗ Văn Hải3 1 Trường Đại học Bách khoa Hà Nội, email: khanh14ph@gmail.com 2 Trung tâm không gian mạng Viettel, email: tabaothang97@gmail.com 3 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn1. GIỚI THIỆU Trong nghiên cứu này, để cải thiện chất lượng của mô hình SLU mà không cần bổ Hệ thống hiểu ngôn ngữ nói (Spoken sung dữ liệu, chúng tôi đề xuất việc sử dụnglanguage understanding - SLU) có nhiệm vụ một mô hình đã được huấn luyện trong việcsuy luận ý định và thực thể trong một câu nhận diện tiếng nói (Automatic Speechnói. Ví dụ, đối với một trợ lý ảo điều khiển Recognition - ASR). Từ đó nâng cao đượcbằng giọng nói, ý định của một câu nói như kết quả mô hình SLU.lịch chiếu phim là bao giờ ấy nhỉ có thể cómột biểu diễn như sau: scenario: lịch | 2. HỆ THỐNG ĐỀ XUẤTaction: truy vấn | Entities: [tag: tên sựkiện | value: phim]. 2.1. Trích chọn đặc trưng Mô hình SLU truyền thống được tạo thành Phương pháp trích chọn đặc trưng dùngtừ hai mô-đun: mô-đun nhận dạng giọng nói trong nghiên cứu này là Mel Spectrogram,tự động (ASR) chuyển đổi giọng nói thành phương pháp được sử dụng rộng rãi trong cácvăn bản, và mô-đun hiểu ngôn ngữ tự nhiên hệ thống liên quan đến xử lí tiếng nói.(NLU) chuyển đổi văn bản thành ý định củangười nói. Một phương pháp thay thế đang 2.2. Tăng cường dữ liệudần trở nên phổ biến là end-to-end SLU. Sử dụng tăng cường dữ liệu (dataTrong mô hình end-to-end SLU, một mô hình augmentation) nhằm giúp mô hình học tránhđơn lẻ có thể chuyển đổi trực tiếp âm thanh quá khớp cũng như tăng tính tổng quát hóa.giọng nói thành ý định của người nói mà Trong nghiên cứu này chúng tôi sử dụngkhông cần tạo ra một văn bản trích xuất rõ phương pháp phổ biến được đề xuất gần đâyràng. Khác với mô hình SLU truyền thống, là SpecAugment [2].end-to-end SLU: Có thể thực hiện tối ưu toàn bộ, thay vì 2.3. Kiến trúc hệ thốngtối ưu cục bộ cho từng mô-đun riêng [1]. Mô hình end-to-end SLU được triển khai Việc sử dụng một mô hình duy nhất sẽ dưới dạng mô hình chuỗi đến chuỗi (sequencetránh được việc lan truyền lỗi giữa các mô- to sequence), bao gồm một bộ mã hóa và mộtđun [1]. bộ giải mã. Đầu vào là audio, đầu ra là một Có thể tận dụng các khía cạnh về âm chuỗi các token, khi ghép lại sẽ ra được mộtthanh (tốc độ nói, nhịp điệu) [1]. ý định của câu nói. Ví dụ: Tuy nhiên, vì tín hiệu nói có số chiều lớn, Đầu vào: put meeting with Khanhviệc huấn luyện các mô hình học sâu đạt kết Đầu ra: [‘action’:‘set’ | ‘entities’: [‘type’:quả cao mà không có một lượng lớn dữ liệu ’event |‘filler’: ‘meeting’ | ‘type’:‘person’ |huấn luyện là khá khó khăn. ‘filler’: ‘Khanh’]. 63Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 một phần ba, giúp dễ dàng triển khai trên thiết bị di động. Hình 1. Kiến trúc thông thường Hiện nay, liên quan đến xử lí tiếng nói, cácnhà nghiên cứu có xu hướng sử dụng các mô Hình 2. Kiến trúc đề xuấthình tự giám sát (self-supervised model), tức Mô hình ASR được tận dụng ở đây là môlà mô hình được tiền huấn luyện trên dữ liệu hình Conformer[4], mô hình này đã đạt đượckhông nhãn, để rồi huấn luyện trên dữ liệu có kết quả rất tốt ở tác vụ ASR. Ý tưởng của mônhãn của tác vụ con. Theo hướng phát triển hình này là sử dụng sự kết hợp của các mô-đó, trong hệ thống SLU, mô hình tự giám sát đun tự chú ý (self-attention) và tích chậpđược dùng như bộ mã hóa (encoder). Do kết (convolution) để đạt được lợi ích tốt nhất từquả của hệ thống SLU dựa trên mô hình tự hai phương pháp này, các lớp tự chú ý có thểgiám sát HuBERT[3] đang là tốt nhất, chúng học được tương tác toàn cục trong khi cáctôi sẽ lấy mô hình này làm baseline. tích chập hiệu quả học được các tương quan Dựa trên ý tưởng sử dụng các ...
Tìm kiếm theo từ khóa liên quan:
Kiến trúc hệ thống Mô hình hiểu ngôn ngữ nói Mô hình SLU Mô-đun nhận dạng giọng nói tự động Mô hình baselineGợi ý tài liệu liên quan:
-
Bài giảng Phân tích thiết kế hướng đối tượng: Chương 2 - Nguyễn Ngọc Duy
7 trang 224 0 0 -
Bài giảng Thương mại điện tử: Chương 4 - ThS. Thiều Quang Trung
59 trang 28 0 0 -
Bài giảng Các mô hình kiến trúc
30 trang 24 0 0 -
Bài giảng Yếu tố con người: Bài 3 - ThS. Nguyễn Kim Đức
9 trang 23 0 0 -
Chương 1: Kiến trúc hệ thống & Tổng quan về Hệ điều hành
44 trang 22 0 0 -
67 trang 22 0 0
-
44 trang 21 0 0
-
Bài giảng Truyền thông giữa các tiến trình (Inter-process communication)
18 trang 20 0 0 -
140 trang 19 0 0
-
Bài giảng Tích hợp hệ thống - ĐH Kinh tế Tp HCM
8 trang 19 0 0