Điều khiển robot di động sáu chân thông qua âm thanh
Số trang: 3
Loại file: pdf
Dung lượng: 1.19 MB
Lượt xem: 41
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đối với việc chuyển đổi âm thanh giọng nói thành tín hiệu điều khiển, có thể sử dụng nền tảng có sẵn hoặc mô hình được huấn luyện để nhận dạng giọng nói. Nghiên cứu này sử dụng phương pháp xây dựng mô hình mạng CNN (Convolution Neural Network) để tiến hành nhận dạng các từ khóa cơ bản có trong tiếng nói thu được.
Nội dung trích xuất từ tài liệu:
Điều khiển robot di động sáu chân thông qua âm thanh Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 ĐIỀU KHIỂN ROBOT DI ĐỘNG SÁU CHÂN THÔNG QUA ÂM THANH Nguyễn Tuấn Anh1, Nguyễn Tiến Thịnh1, Nguyễn Huy Thế1 1 Trường Đại học Thủy lợi, email: nguyehuythe@tlu.edu.vn 1. GIỚI THIỆU CHUNG 2.1.1. Thu thập dữ liệu âm thanh Việc chế tạo và vận hành robot di động sáu Dữ liệu âm thanh được lựa chọn cho quá chân có ý nghĩa khoa học, góp phần phát triển trình huấn luyện mô hình là Google Speech lĩnh vực nghiên cứu robot có cấu trúc chuỗi Command datasets [1]. Tệp dữ liệu này bao động học song song, đồng thời phục vụ đào tạo gồm hơn 105.000 file audio ở định dạng .wav các môn học chuyên ngành thuộc lĩnh vực kỹ của hơn 30 từ tiếng Anh khác nhau. Với mục thuật cơ điện tử, kỹ thuật robot. Tuy nhiên, các tiêu là điều khiển robot, các từ khóa gần gũi nghiên cứu về robot sáu chân hầu hết tập trung với phương hướng chuyển động của robot vào bài toán thiết kế và điều khiển cơ bản, được sử dụng, bao gồm “yes”, “up”, “down”, chưa có sự tương tác với môi trường xung “left”, “right”, “stop”, “go”, “off”. quanh. Do đó, bài toán điều khiển robot sáu 2.1.2. Xử lý dữ liệu chân thông qua tương tác trực tiếp với người dùng rất cần thiết, đặc biệt là ứng dụng công Các tệp dữ liệu âm thanh nêu trên bao gồm nghệ nhận dạng và xử lý âm thanh. chuỗi số liệu về biên độ của tín hiệu âm Đối với việc chuyển đổi âm thanh giọng nói thanh tại thời điểm trích mẫu tương ứng. thành tín hiệu điều khiển, có thể sử dụng nền Hình 1 biểu diễn dữ liệu theo thời gian của tảng có sẵn hoặc mô hình được huấn luyện để file âm thanh của từ “left”. nhận dạng giọng nói. Nghiên cứu này sử dụng phương pháp xây dựng mô hình mạng CNN (Convolution Neural Network) để tiến hành nhận dạng các từ khóa cơ bản có trong tiếng nói thu được. Mô hình nhận dạng được xây dựng bởi thư viện mã nguồn mở Tensorflow trong Hình 1. Dữ liệu file âm thanh ngôn ngữ Python, sau đó sẽ được huấn luyện với các tệp dữ liệu âm thanh có đánh nhãn và Chuỗi tín hiệu tuy dài nhưng hàm lượng được kiểm nghiệm bằng cách triển khai thực thi thông tin không nhiều nên thường không trên máy tính nhúng Raspberry Pi với âm thanh được sử dụng trực tiếp trong việc phân tích, thu trực tiếp để từ đó điều khiển robot. thay vào đó là các thông tin đặc trưng thu được từ việc chuyển sang miền tần số bởi 2. PHƯƠNG PHÁP NGHIÊN CỨU phép biến đổi Fourier. Các kỹ thuật để trích 2.1. Xây dựng mô hình xuất đặc trưng (feature extraction) của giọng nói hay được sử dụng là MFCC - Mel Quy trình huấn luyện mô hình nhận dạng Frequency Cepstral Coefficients và PLP - giọng nói bao gồm các bước sau: thu thập dữ Perceptual Linear Predictive [2]. Trong liệu, xử lý dữ liệu, huấn luyện - kiểm tra mô nghiên cứu này, MFCC được lựa chọn bởi sự hình và kết xuất mô hình. thuận tiện trong cả quá trình tính toán và thực 286 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 thi. Quá trình sử dụng MFCC để tính toán tương tự như thông tin của một bức ảnh nên các hệ số đặc trưng của âm thanh được tóm mạng tích chập CNN được sử dụng để phân tắt như ở Hình 2 [3]: loại các bộ dữ liệu này. Cấu trúc chung mạng được thể hiện ở trên Hình 4 [4]: Trong đó, cấu trúc mạng CNN được chia thành hai lớp chính: lớp trích xuất đặc trưng ảnh (feature extraction) và lớp phân loại (classification layer). Lớp trích xuất này bao gồm nhiều lớp con khác nhau. Lớp tích chập Hình 2. Thuật toán MFCC (convolution) có nhiệm vụ chính là trích xuất Trong hình 2, ADC đại diện cho quá trình các tính năng từ hình ảnh đầu vào thông qua chuyển đổi âm thanh thành tín hiệu số, pre- phép nhân chập từng phần của ảnh với một emphasis là quá trình kích hoạt các tín hiệu ở bộ lọc (filter/kernel). Lớp ReLu (Rectified tần số cao. Windows là bước chia nhỏ tín Linear Unit) có vai trò là khử tính tuyến tính hiệu âm thanh thành nhiều khung dữ liệu con có trong dữ liệu. Lớp gộp Pooling có chức (frame) để thuận tiện cho áp dụng biến đổi năng làm giảm số lượng tham số khi dữ liệu Fourier rời rạc tại bước DFT. Mel filterbank ảnh đầu vào lớn mà vẫn giữ lại các thông tin được xây dựng giống với cơ chế cảm nhận quan trong. Số lượng các lớp con này và vị trí âm thanh tai người (cảm nhận tốt với tín hiệu của chúng trong lớp tích chập là không giống tần số thấp và kém đối với tần số cao), sau đó nhau và sẽ linh hoạt theo từng bài toán. Dữ đi qua khâu Log sẽ thu được các hệ số mel. liệu sau khi đi qua lớp tích chập sẽ được dàn Khâu IDFT (Fourier ngược) có vai trò loại bỏ phẳng để có thể đưa vào lớp phân loại. Lớp tần số f0 - đặc trưng cho cao độ của giọng này về bản chất là một mạng nơron suy luận nói. Từ đây sẽ thu được các hệ số đặc trưng tiến (feedforward) và áp dụng phương pháp cho mỗi frame xác định phía trên. Lặp lại lan truyền ngược (back propagation) cho quá việc này cho các frame tiếp theo từ đó thu trình huấn luyện. Qua một loạt lần lặp, mô được một bộ d ...
Nội dung trích xuất từ tài liệu:
Điều khiển robot di động sáu chân thông qua âm thanh Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 ĐIỀU KHIỂN ROBOT DI ĐỘNG SÁU CHÂN THÔNG QUA ÂM THANH Nguyễn Tuấn Anh1, Nguyễn Tiến Thịnh1, Nguyễn Huy Thế1 1 Trường Đại học Thủy lợi, email: nguyehuythe@tlu.edu.vn 1. GIỚI THIỆU CHUNG 2.1.1. Thu thập dữ liệu âm thanh Việc chế tạo và vận hành robot di động sáu Dữ liệu âm thanh được lựa chọn cho quá chân có ý nghĩa khoa học, góp phần phát triển trình huấn luyện mô hình là Google Speech lĩnh vực nghiên cứu robot có cấu trúc chuỗi Command datasets [1]. Tệp dữ liệu này bao động học song song, đồng thời phục vụ đào tạo gồm hơn 105.000 file audio ở định dạng .wav các môn học chuyên ngành thuộc lĩnh vực kỹ của hơn 30 từ tiếng Anh khác nhau. Với mục thuật cơ điện tử, kỹ thuật robot. Tuy nhiên, các tiêu là điều khiển robot, các từ khóa gần gũi nghiên cứu về robot sáu chân hầu hết tập trung với phương hướng chuyển động của robot vào bài toán thiết kế và điều khiển cơ bản, được sử dụng, bao gồm “yes”, “up”, “down”, chưa có sự tương tác với môi trường xung “left”, “right”, “stop”, “go”, “off”. quanh. Do đó, bài toán điều khiển robot sáu 2.1.2. Xử lý dữ liệu chân thông qua tương tác trực tiếp với người dùng rất cần thiết, đặc biệt là ứng dụng công Các tệp dữ liệu âm thanh nêu trên bao gồm nghệ nhận dạng và xử lý âm thanh. chuỗi số liệu về biên độ của tín hiệu âm Đối với việc chuyển đổi âm thanh giọng nói thanh tại thời điểm trích mẫu tương ứng. thành tín hiệu điều khiển, có thể sử dụng nền Hình 1 biểu diễn dữ liệu theo thời gian của tảng có sẵn hoặc mô hình được huấn luyện để file âm thanh của từ “left”. nhận dạng giọng nói. Nghiên cứu này sử dụng phương pháp xây dựng mô hình mạng CNN (Convolution Neural Network) để tiến hành nhận dạng các từ khóa cơ bản có trong tiếng nói thu được. Mô hình nhận dạng được xây dựng bởi thư viện mã nguồn mở Tensorflow trong Hình 1. Dữ liệu file âm thanh ngôn ngữ Python, sau đó sẽ được huấn luyện với các tệp dữ liệu âm thanh có đánh nhãn và Chuỗi tín hiệu tuy dài nhưng hàm lượng được kiểm nghiệm bằng cách triển khai thực thi thông tin không nhiều nên thường không trên máy tính nhúng Raspberry Pi với âm thanh được sử dụng trực tiếp trong việc phân tích, thu trực tiếp để từ đó điều khiển robot. thay vào đó là các thông tin đặc trưng thu được từ việc chuyển sang miền tần số bởi 2. PHƯƠNG PHÁP NGHIÊN CỨU phép biến đổi Fourier. Các kỹ thuật để trích 2.1. Xây dựng mô hình xuất đặc trưng (feature extraction) của giọng nói hay được sử dụng là MFCC - Mel Quy trình huấn luyện mô hình nhận dạng Frequency Cepstral Coefficients và PLP - giọng nói bao gồm các bước sau: thu thập dữ Perceptual Linear Predictive [2]. Trong liệu, xử lý dữ liệu, huấn luyện - kiểm tra mô nghiên cứu này, MFCC được lựa chọn bởi sự hình và kết xuất mô hình. thuận tiện trong cả quá trình tính toán và thực 286 Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 thi. Quá trình sử dụng MFCC để tính toán tương tự như thông tin của một bức ảnh nên các hệ số đặc trưng của âm thanh được tóm mạng tích chập CNN được sử dụng để phân tắt như ở Hình 2 [3]: loại các bộ dữ liệu này. Cấu trúc chung mạng được thể hiện ở trên Hình 4 [4]: Trong đó, cấu trúc mạng CNN được chia thành hai lớp chính: lớp trích xuất đặc trưng ảnh (feature extraction) và lớp phân loại (classification layer). Lớp trích xuất này bao gồm nhiều lớp con khác nhau. Lớp tích chập Hình 2. Thuật toán MFCC (convolution) có nhiệm vụ chính là trích xuất Trong hình 2, ADC đại diện cho quá trình các tính năng từ hình ảnh đầu vào thông qua chuyển đổi âm thanh thành tín hiệu số, pre- phép nhân chập từng phần của ảnh với một emphasis là quá trình kích hoạt các tín hiệu ở bộ lọc (filter/kernel). Lớp ReLu (Rectified tần số cao. Windows là bước chia nhỏ tín Linear Unit) có vai trò là khử tính tuyến tính hiệu âm thanh thành nhiều khung dữ liệu con có trong dữ liệu. Lớp gộp Pooling có chức (frame) để thuận tiện cho áp dụng biến đổi năng làm giảm số lượng tham số khi dữ liệu Fourier rời rạc tại bước DFT. Mel filterbank ảnh đầu vào lớn mà vẫn giữ lại các thông tin được xây dựng giống với cơ chế cảm nhận quan trong. Số lượng các lớp con này và vị trí âm thanh tai người (cảm nhận tốt với tín hiệu của chúng trong lớp tích chập là không giống tần số thấp và kém đối với tần số cao), sau đó nhau và sẽ linh hoạt theo từng bài toán. Dữ đi qua khâu Log sẽ thu được các hệ số mel. liệu sau khi đi qua lớp tích chập sẽ được dàn Khâu IDFT (Fourier ngược) có vai trò loại bỏ phẳng để có thể đưa vào lớp phân loại. Lớp tần số f0 - đặc trưng cho cao độ của giọng này về bản chất là một mạng nơron suy luận nói. Từ đây sẽ thu được các hệ số đặc trưng tiến (feedforward) và áp dụng phương pháp cho mỗi frame xác định phía trên. Lặp lại lan truyền ngược (back propagation) cho quá việc này cho các frame tiếp theo từ đó thu trình huấn luyện. Qua một loạt lần lặp, mô được một bộ d ...
Tìm kiếm theo từ khóa liên quan:
Điều khiển robot di động sáu chân Robot di động sáu chân Mô hình mạng CNN Ngôn ngữ Python Kỹ thuật robotGợi ý tài liệu liên quan:
-
Nghiên cứu hệ thống tự động chấm điểm bài thi trắc nghiệm ứng dụng xử lý ảnh
3 trang 305 0 0 -
Tính toán động học robot di động sáu chân
3 trang 152 0 0 -
48 trang 97 0 0
-
Kỹ thuật điều khiển robot công nghiệp
270 trang 72 0 0 -
Mô phỏng hoạt hình dao động điều hòa bằng ngôn ngữ Python
6 trang 56 0 0 -
Bài tập Lập trình python: Phần 1
91 trang 32 0 0 -
50 trang 32 0 0
-
Bài giảng Kỹ thuật robot - GV. Nguyễn Hoàng Long
120 trang 31 0 0 -
10 trang 30 0 0
-
25 trang 30 0 0