Danh mục

Nhận diện cảm xúc khuôn mặt dùng mạng nơ – ron tích chập CNN trên phần cứng Jetson TX2

Số trang: 8      Loại file: pdf      Dung lượng: 1.50 MB      Lượt xem: 28      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 1,000 VND Tải xuống file đầy đủ (8 trang) 0
Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này trình bày về việc sử dụng mạng nơ-ron tích chập, một trong những kiến trúc phổ biến của học sâu để nhận diện và phân loại cảm xúc khuôn mặt. Một cách tổng quát, các mạng nơ-ron được chọn có cấu trúc phức tạp và có tham số lớn, tác giả tập trung vào việc xây dựng một mạng nơ-ron đơn giản hơn và phù hợp với bộ dữ liệu thông qua phương pháp so sánh và đánh giá. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Nhận diện cảm xúc khuôn mặt dùng mạng nơ – ron tích chập CNN trên phần cứng Jetson TX2 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 63 (04/2021) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 11 NHẬN DIỆN CẢM XÚC KHUÔN MẶT DÙNG MẠNG NƠ – RON TÍCH CHẬP CNN TRÊN PHẦN CỨNG JETSON TX2 IMPLEMENTATION OF FACIAL EMOTION RECOGNITION USING CNN ON JETSON TX2 Phạm Minh Quyền, Phùng Thanh Huy, Đỗ Duy Tân, Huỳnh Hoàng Hà, Trương Quang Phúc Trường Đại học Sư phạm Kỹ thuật TP.HCM, Việt Nam Ngày toà soạn nhận bài 19/8/2020, ngày phản biện đánh giá 3/9/2020, ngày chấp nhận đăng 29/9/2020 TÓM TẮT Trong bài báo này, tác giả sử dụng mạng nơ-ron tích chập, một trong những kiến trúc phổ biến của học sâu để nhận diện và phân loại cảm xúc khuôn mặt. Một cách tổng quát, các mạng nơ-ron được chọn có cấu trúc phức tạp và có tham số lớn, tác giả tập trung vào việc xây dựng một mạng nơ-ron đơn giản hơn và phù hợp với bộ dữ liệu thông qua phương pháp so sánh và đánh giá. Ngoài ra, tác giả cũng tập trung vào việc thu thập một tập dữ liệu đủ lớn để đạt kết quả cao. Cụ thể, tác giả lựa chọn sử dụng nền tảng phần cứng nhúng Jetson TX2 của NVIDIA để tận dụng khả năng tính toán của GPU nhằm tối ưu thời gian tính toán và huấn luyện dữ liệu. Trong đó, dữ liệu được sử dụng là FER2013 và RAF để huấn luyện và kiểm tra. Phương pháp sử dụng đã đạt được độ chính xác 72% trên tập dự liệu kiểm tra. Từ khóa: Nhận diện; cảm xúc khuôn mặt; mạng nơ-ron; CNN; Jetson TX2. ABSTRACT In this paper, a convolutional neural network (CNN), one of the most popular deep learning architectures used for facial extraction research, has been implemented on NVIDIA Jetson TX2 hardware. Different from many existing approaches investigating CNN with complex structure and large parameters, we have focused on building a robust neural network through extensive performance comparison and evaluation. In addition, we have collected a dataset using a built-in camera on a laptop computer. Specifically, we have applied our model on Jetson TX2 hardware to take advantage of the computational power of the embedded GPU to optimize computation time and data training. In particular, both FER2013 and RAF datasets with seven basic emotions have been used for training and testing purposes. Finally, the evaluation results show that the proposed method achieves an accuracy of up to 72% on the testing dataset. Keywords: recognition; facial emotion; neural network; CNN; Jetson TX2. nhà nghiên cứu trong và ngoài nước. Trong 1. GIỚI THIỆU [1], nhóm nghiên cứu thuộc trường đại học Trong các hệ thống thông minh hỗ trợ Nanchang, Trung Quốc đã áp dụng kiến trúc tương tác người dùng, quá trình thu thập dữ mạng nơ-ron tích chập, mạng VGG, và đạt liệu và đánh giá hành vi của khách hàng là được độ chính xác 73.06%. Mạng VGG rất cần thiết, việc này đòi hỏi hệ thống có được xem là có hiệu quả cao mặc dù có cấu thể ghi nhận được trạng thái cảm xúc của trúc đơn giản hơn so với nhiều kiến trúc khách hàng thông qua nhận diện cảm xúc mạng CNN khác nhưng lại có số lượng tham khuôn mặt là hết sức cần thiết. Thực vậy, số nhiều hơn và tăng chiều sâu hơn ở mỗi các phương pháp và hệ thống nhận diện cảm lớp. Mạng VGG có kích thước khá lớn và xúc khuông mặt được sự quan tâm của nhiều nhiều tham số (136 triệu) nên sẽ tốn rất Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 63 (04/2021) 12 Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh nhiều thời gian huấn luyện dữ liệu. Bên 2. TẬP DỮ LIỆU cạnh đó, trong [2], các tác giả đã xây dựng Cảm xúc của con người là muôn hình ứng dụng nhận diện cảm xúc khuôn mặt của vạn trạng. Mỗi người điều có mỗi cách bày tỏ sinh viên sử dụng CNN với độ chính xác đạt cảm xúc của mình khác nhau. Chính vì thế, được là 70%. Ở trường đại học Hà Nội, Việt dữ liệu cần để huấn luyện cho mô hình nhận Nam, một nhóm nghiên cứu đã triển khai diện cảm xúc khuôn mặt người là rất lớn. một dạng kiến trúc khác của CNN đó là Trong đề tài này, tập dữ liệu FER2013 được BKStart với khoảng 7.17 triệu tham số lựa chọn sử dụng, một phần tập dữ liệu RAF nhưng vẫn đạt được độ chính xác khá cao và các dữ liệu được thu thập từ internet. Hình (70,4%) trên FERC2013 dataset [3]. 1 là tổng quan toàn bộ tập dữ liệu và cách xử BKStart khác với VGG bằng việc sử dụng lý từng loại dữ liệu để đưa bài toán nhận diện các kernel có kích thước lớn hơn tuy nhiên cảm xúc: lại sử dụng stride bằng 1 để tăng hiệu quả trích xuất đặc trưng. Tác giả cũng đã áp dụng mạng Nơ-ron tích chập CNN, một trong những kiến trúc phổ biến trong học sâu, để nhận diện cảm xúc con người. Bên cạnh sự phát triển của các thuật toán, một yếu tố quan trọng khác đó chính yếu tố phần cứng. Một nhóm nghiên cứu ở Luân đôn, Vương Quốc Anh cũng đã tiến hành thực hiện thiết kế kết hợp với phần cứng Xilinx Spartan-6 LX45 FPGA cho hệ thống nhận diện cảm xúc khuôn mặt [4]. Với phần cứng FPGA, tốc độ xử lý đã được cải thiện đáng kể, có thể đạt được được 30FPS. Tuy có thể cải thiện được khả năng tính toán nhưng Hình 1. Tập dữ liệu huấn luyện lại không thể áp dụng được các thuật toán phức tạp nên dẫn đến độ chính xác còn khá 2.1 Tập dữ liệu FER2013 thấp 51.28%. Phần cứng Jetson TX2 được Tập dữ liệu nguồn mở FER2013.csv, lựa chọn để thực hiện m ...

Tài liệu được xem nhiều: