Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt
Số trang: 3
Loại file: pdf
Dung lượng: 315.18 KB
Lượt xem: 18
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt xây dựng hệ thống KWS để kích hoạt thiết bị khi phát hiện từ khóa tiếng Việt dựa trên kiến trúc mạng nơ-ron tích chập tiên tiến - CNN.
Nội dung trích xuất từ tài liệu:
Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 XÂY DỰNG HỆ THỐNG ĐÁNH THỨC THIẾT BỊ BẰNG TỪ KHÓA TIẾNG VIỆT Dương Văn Phụng1,2, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 2 Trung tâm Không gian Mạng Viettel, email: haidv@tlu.edu.vn1. GIỚI THIỆU CHUNG hiện từ khóa tiếng Việt dựa trên kiến trúc mạng nơ-ron tích chập tiên tiến - CNN [3]. Với sự phát triển nhanh chóng của cácthiết bị di động và các thiết bị Internet of 2. PHƯƠNG PHÁP NGHIÊN CỨUThings (IoT), hệ thống đánh thức thiết bịngày càng trở nên cần thiết. Hệ thống này Theo Hình 1, một hệ thống KWS đượcgiúp người dùng kích hoạt thiết bị thông chia làm 3 thành phần chính [3]:qua tiếng nói mà không cần sử dụng đến - Trích chọn đặc trưng (Feature extraction).các nút bấm vật lý hay màn hình cảm ứng. - Mạng nơ-ron (Neural network).Cách thức này được gọi là đánh thức thiết - Đánh giá xác suất hậu nghiệm (Posteriorbị bằng cách phát hiện từ khóa (KWS - handling).Keyword spotting). Một ví dụ điển hình của hệ thống đánhthức thiết bị là: Google đã triển khai hệ thốngcho phép người dùng sử dụng chế độ kíchhoạt nhận dạng giọng nói hoàn toàn rảnh tay,được biết đến với từ khóa Ok Google hoặcHey Google [2]. Hệ thống luôn luôn lắng Hình 1. Ba thành phần chính của hệ thốngnghe để phát hiện từ khóa từ đó kích hoạt keyword spotting [3]thiết bị trước khi khởi động hệ thống nhận Để xây dựng hệ thống KWS cho tiếngdạng tiếng nói. Hệ thống này đã và đang Việt, chúng tôi sử dụng kiến trúc mạng nơ-được Google nghiên cứu và triển khai rất ron tích chập (CNN) [3]. Như mô tả trênthành công đối với ngôn ngữ là tiếng Anh. Hình 2, chúng tôi sử dụng mạng CNN vớiTuy nhiên, hiện chưa có nghiên cứu nào cho 2 lớp tích chập, 1 lớp kết nối đầy đủ và 1 lớphệ thống KWS với ngôn ngữ là tiếng Việt. softmax. Có nhiều phương pháp để xây dựng KWSnhư: sử dụng mạng nơ-ron sâu (Deep NeuralNetwork - DNN) [1], mạng nhớ ngắn-dài(Long Short Term Memory - LSTM) [4],...Tuy nhiên, thời gian gần đây cách tiếp cận sửdụng mạng nơ-ron tích chập (ConvolutionalNeural Network - CNN) [3] đã được thửnghiệm là một trong những phương pháp tốt Hình 2. Kiến trúc mạng tích chập cho KWSnhất để xây dựng hệ thống KWS. tiếng Việt Trong bài báo này, chúng tôi xây dựng hệ Để nhận dạng được các từ khóa, tín hiệuthống KWS để kích hoạt thiết bị khi phát âm thanh đầu vào được chuyển đổi sang miền 189Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8tần số. Từ đó, trích chọn ma trận đặc trưng V phải từ khóa. Do đó, đầu ra của mạngcó kích thước t×f trong đó t và f lần lượt là CNN có tổng cộng 5 đầu ra ứng với 5 lớp cầnkích thước của ma trận đặc trưng theo thời nhận dạng.gian và tần số. Chúng ta sử dụng n cửa sổ có Dữ liệu huấn luyện được chuẩn bị theokích thước m×r. Do đó, một ma trận trọng số những cách sau đây:W (m×r)×n được tích hợp với đầu vào V. Dữ liệu về 3 lớp từ khóa: mỗi từ khóa Chia ma trận trọng số với kích thước m×r, được ghi âm thành 250 file audio từ nhiềutrong đó m < t và r < f. Việc chia ma trận người nói khác nhau và thu âm ở môi trườngtrọng số này giúp mô hình hóa mối tương làm việc thông thường. Mỗi file có độ dàiquan cục bộ trong tín hiệu đầu vào. Ma trận trung bình 1 giây.trọng số có n đơn vị ẩn, nghĩa là có n bản đồ Dữ liệu về lớp UNK: 100.000 file có độđặc trưng (feature maps). Bộ lọc (filter) có dài 1 giây thể hiện cách nói của các từ khôngbước chuyển s theo thời gian và p theo tần số. phải là từ khóa được lấy trên Youtube.Sau hoạt động tích chập ta thu được n feature Dữ liệu lớp SIL: 18.000 file audio có độmaps có kích thước: dài 1 giây thể hiện những âm thanh không t − m +1 f − r +1 phải là tiếng nói như nhiễu, ồn, âm nhạc của × s v môi trường. Những dữ liệu này được ghi âm Sau khi thực hiện tích chập, lớp max- và lấy từ Youtube.pooling giúp loại bỏ sự biến đổi trong không Tập dữ liệu trên được chia theo tỉ lệgi ...
Nội dung trích xuất từ tài liệu:
Xây dựng hệ thống đánh thức thiết bị bằng từ khóa tiếng Việt Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 XÂY DỰNG HỆ THỐNG ĐÁNH THỨC THIẾT BỊ BẰNG TỪ KHÓA TIẾNG VIỆT Dương Văn Phụng1,2, Đỗ Văn Hải1 1 Trường Đại học Thủy lợi 2 Trung tâm Không gian Mạng Viettel, email: haidv@tlu.edu.vn1. GIỚI THIỆU CHUNG hiện từ khóa tiếng Việt dựa trên kiến trúc mạng nơ-ron tích chập tiên tiến - CNN [3]. Với sự phát triển nhanh chóng của cácthiết bị di động và các thiết bị Internet of 2. PHƯƠNG PHÁP NGHIÊN CỨUThings (IoT), hệ thống đánh thức thiết bịngày càng trở nên cần thiết. Hệ thống này Theo Hình 1, một hệ thống KWS đượcgiúp người dùng kích hoạt thiết bị thông chia làm 3 thành phần chính [3]:qua tiếng nói mà không cần sử dụng đến - Trích chọn đặc trưng (Feature extraction).các nút bấm vật lý hay màn hình cảm ứng. - Mạng nơ-ron (Neural network).Cách thức này được gọi là đánh thức thiết - Đánh giá xác suất hậu nghiệm (Posteriorbị bằng cách phát hiện từ khóa (KWS - handling).Keyword spotting). Một ví dụ điển hình của hệ thống đánhthức thiết bị là: Google đã triển khai hệ thốngcho phép người dùng sử dụng chế độ kíchhoạt nhận dạng giọng nói hoàn toàn rảnh tay,được biết đến với từ khóa Ok Google hoặcHey Google [2]. Hệ thống luôn luôn lắng Hình 1. Ba thành phần chính của hệ thốngnghe để phát hiện từ khóa từ đó kích hoạt keyword spotting [3]thiết bị trước khi khởi động hệ thống nhận Để xây dựng hệ thống KWS cho tiếngdạng tiếng nói. Hệ thống này đã và đang Việt, chúng tôi sử dụng kiến trúc mạng nơ-được Google nghiên cứu và triển khai rất ron tích chập (CNN) [3]. Như mô tả trênthành công đối với ngôn ngữ là tiếng Anh. Hình 2, chúng tôi sử dụng mạng CNN vớiTuy nhiên, hiện chưa có nghiên cứu nào cho 2 lớp tích chập, 1 lớp kết nối đầy đủ và 1 lớphệ thống KWS với ngôn ngữ là tiếng Việt. softmax. Có nhiều phương pháp để xây dựng KWSnhư: sử dụng mạng nơ-ron sâu (Deep NeuralNetwork - DNN) [1], mạng nhớ ngắn-dài(Long Short Term Memory - LSTM) [4],...Tuy nhiên, thời gian gần đây cách tiếp cận sửdụng mạng nơ-ron tích chập (ConvolutionalNeural Network - CNN) [3] đã được thửnghiệm là một trong những phương pháp tốt Hình 2. Kiến trúc mạng tích chập cho KWSnhất để xây dựng hệ thống KWS. tiếng Việt Trong bài báo này, chúng tôi xây dựng hệ Để nhận dạng được các từ khóa, tín hiệuthống KWS để kích hoạt thiết bị khi phát âm thanh đầu vào được chuyển đổi sang miền 189Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8tần số. Từ đó, trích chọn ma trận đặc trưng V phải từ khóa. Do đó, đầu ra của mạngcó kích thước t×f trong đó t và f lần lượt là CNN có tổng cộng 5 đầu ra ứng với 5 lớp cầnkích thước của ma trận đặc trưng theo thời nhận dạng.gian và tần số. Chúng ta sử dụng n cửa sổ có Dữ liệu huấn luyện được chuẩn bị theokích thước m×r. Do đó, một ma trận trọng số những cách sau đây:W (m×r)×n được tích hợp với đầu vào V. Dữ liệu về 3 lớp từ khóa: mỗi từ khóa Chia ma trận trọng số với kích thước m×r, được ghi âm thành 250 file audio từ nhiềutrong đó m < t và r < f. Việc chia ma trận người nói khác nhau và thu âm ở môi trườngtrọng số này giúp mô hình hóa mối tương làm việc thông thường. Mỗi file có độ dàiquan cục bộ trong tín hiệu đầu vào. Ma trận trung bình 1 giây.trọng số có n đơn vị ẩn, nghĩa là có n bản đồ Dữ liệu về lớp UNK: 100.000 file có độđặc trưng (feature maps). Bộ lọc (filter) có dài 1 giây thể hiện cách nói của các từ khôngbước chuyển s theo thời gian và p theo tần số. phải là từ khóa được lấy trên Youtube.Sau hoạt động tích chập ta thu được n feature Dữ liệu lớp SIL: 18.000 file audio có độmaps có kích thước: dài 1 giây thể hiện những âm thanh không t − m +1 f − r +1 phải là tiếng nói như nhiễu, ồn, âm nhạc của × s v môi trường. Những dữ liệu này được ghi âm Sau khi thực hiện tích chập, lớp max- và lấy từ Youtube.pooling giúp loại bỏ sự biến đổi trong không Tập dữ liệu trên được chia theo tỉ lệgi ...
Tìm kiếm theo từ khóa liên quan:
Hệ thống đánh thức thiết bị Kiến trúc mạng nơ-ron Mạng nơ-ron tích chập Thiết bị Internet of Things Xây dựng hệ thống KWSGợi ý tài liệu liên quan:
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 131 0 0 -
59 trang 65 1 0
-
Nhận dạng tấm pin mặt trời bị lỗi dựa trên dữ liệu ảnh bằng trí tuệ nhân tạo
4 trang 63 0 0 -
Ứng dụng Teachable Machine trong nhận diện khuôn mặt theo thời gian thực
4 trang 49 0 0 -
Giáo trình Mạng nơ ron học sâu và ứng dụng: Phần 1
121 trang 44 0 0 -
Ứng dụng kỹ thuật học sâu trong hỗ trợ chẩn đoán bệnh viêm phổi thông qua ảnh chụp X-quang
11 trang 38 0 0 -
Nhận dạng tín hiệu ra đa LPI sử dụng mạng nơ ron học sâu
6 trang 37 0 0 -
Nhận dạng vân tay sử dụng kỹ thuật học sâu
9 trang 35 0 0 -
4 trang 32 0 0
-
Mô hình Deep Learning trong nhận diện cảm xúc và cảnh báo stress
3 trang 31 0 0