Bài viết này trình bày các thuật toán nhận dạng khuôn mặt sử dụng kỹ thuật học sâu không giám sát GAN (Generative Adversarial Networks) với hai biến thể là CGAN (Conditional Generative Adversarial Networks) và SRGAN (Super Resolution Generative Adversarial Networks) nhằm tăng tính đa dạng các trạng thái biểu cảm khuôn mặt, làm dày và tăng chất lượng tập ảnh đầu vào.
Nội dung trích xuất từ tài liệu:
Một tiếp cận hiệu quả trong nhận diện khuôn mặt sử dụng kỹ thuật học sâu với mạng CGAN và SRGAN
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0046
MỘT TIẾP CẬN HIỆU QUẢ TRONG NHẬN DIỆN KHUÔN MẶT
SỬ DỤNG KỸ THUẬT HỌC SÂU VỚI MẠNG CGAN VÀ SRGAN
Phan Anh Cang1, Tô Huỳnh Thiên Trường2, Trần Hồ Đạt1, Phan Thượng Cang3
Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long
1
2
Trường Trung cấp nghề Kỹ thuật Công nghệ Hùng Vương
3
Khoa Công nghệ thông tin và Truyền thông, Trường Đại học Cần Thơ
cangpa@vlute.edu.vn, truong_tht@hungvuongtech.edu.vn, datth@vlute.edu.vn, ptcang@cit.ctu.edu.vn
TÓM TẮT: Trong những năm gần đây, nhận diện khuôn mặt đã đạt được những thành tựu cao nhờ sự phát triển của kỹ
thuật học sâu. Một trong những kỹ thuật học sâu được sử dụng phổ biến là mạng nơron tích chập sâu được thiết kế, điều chỉnh cho
phù hợp với mục đích sử dụng khác nhau. Trong nghiên cứu này, chúng tôi đề xuất phương pháp sử dụng các kỹ thuật HOG và
mạng nơron tích chập sâu cho việc rút trích đặc trưng khuôn mặt, đồng thời sử dụng kỹ thuật SVM, mạng nơron cho việc nhận
dạng. Để cải tiến độ chính xác nhận dạng, chúng tôi sử dụng kỹ thuật học sâu không giám sát GAN (Generative Adversarial
Networks) với hai biến thể là CGAN (Conditional Generative Adversarial Networks)và SRGAN (Super Resolution Generative
Adversarial Networks) nhằm tăng tính đa dạng các trạng thái biểu cảm khuôn mặt, làm dày và tăng chất lượng tập ảnh đầu vào.
Chúng tôi thực nghiệm trên các tập dữ liệu khuôn mặt Asian, LFW, VN-Celeb, Pin-faces để so sánh, đánh giá độ chính xác nhận
dạng khuôn mặt. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt độ chính xác nhận diện khuôn mặt trên 90% cho hầu hết
các tập dữ liệu thực nghiệm.
Từ khóa: Nhận diện khuôn mặt, mạng nơron tích chập sâu, CGAN, SRGAN.
I. GIỚI THIỆU
Nhận dạng khuôn mặt là một bài toán đã có lâu đời và được nghiên cứu rộng rãi trong nhiều năm trở lại đây.
Bài toán nhận dạng khuôn mặt áp dụng trong nhiều lĩnh vực khác nhau như: hệ thống phát hiện tội phạm, hệ thống
giám sát vào ra trong một đơn vị, hệ thống giám sát nơi công cộng, hệ thống tìm kiếm thông tin trên ảnh, video dựa
trên nội dung,… Hiện nay, bài toán nhận dạng khuôn mặt gặp nhiều thách thức, ví dụ như hệ thống camera công cộng,
chụp hình vui chơi thì ảnh mặt nhận được có thể bị che khuất một phần, ảnh chụp không chính diện hay chất lượng ảnh
không tốt. Các yếu tố này ảnh hưởng không nhỏ đến các thuật toán nhận dạng khuôn mặt. Có nhiều thuật toán khắc
phục điều này, họ sử dụng một số kỹ thuật như xác định nhiều điểm chính trên khuôn mặt, lấy những chi tiết nhỏ hay
sử dụng các phương pháp học sâu. Ojala và cộng sự [1] đã phát triển phương pháp Local Binary Patterns (LBP), nó là
một mô tả kết cấu có thể được sử dụng để biểu diễn các khuôn mặt, vì một hình ảnh khuôn mặt có thể được xem như là
một thành phần của các mô hình văn bản vi mô. Tóm lại, quy trình này bao gồm việc chia hình ảnh khuôn mặt thành
nhiều vùng trong đó các tính năng LBP được trích xuất và ghép vào một vectơ đặc trưng sẽ được sử dụng làm mô tả
khuôn mặt. Một số nghiên cứu nhận dạng khuôn mặt khác cũng được quan tâm như SIFT của David G. Lowe [2].
Thuật toán Bag-of-visual-words của Yang và cộng sự (2007) [3] được đề xuất hiệu quả trong nhận dạng khuôn mặt.
Bên cạnh đó, nhiều phương pháp nhận dạng khuôn mặt áp dụng kỹ thuật học sâu được đề xuất. Các phương pháp học
sâu, chẳng hạn như mạng nơron tích chập, sử dụng nhiều tầng tích chập để trích xuất đặc trưng và nhận dạng. Năm
2014, DeepFace [14], DeepID [15], FaceNet [15] đã đạt được một bước đột phá về hiệu suất hiện đại và trọng tâm
nghiên cứu đã chuyển sang các phương pháp tiếp cận dựa trên học tập sâu. Các phương pháp này đạt được cải thiện độ
chính xá cao từ khoảng 90% đến trên 99%.
Tuy nhiên, các phương pháp này phụ thuộc nhiều vào số lượng, chất lượng, khoảng cách chụp lấy mẫu và tính
đa dạng về trạng thái biểu cảm của khuôn mặt đối với tập ảnh huấn luyện. Đặc biệt, các phương pháp ứng dụng kỹ
thuật học sâu đòi hỏi tập dữ liệu huấn luyện phải đủ lớn và đa dạng các trạng thái biểu cảm khuôn mặt. Các yếu tố này
ảnh hưởng đến độ chính xác của nhận dạng. Để cải tiến chất lượng nhận dạng khuôn mặt, bài báo cáo này trình bày các
thuật toán nhận dạng khuôn mặt sử dụng kỹ thuật học sâu không giám sát GAN (Generative Adversarial Networks) với
hai biến thể là CGAN (Conditional Generative Adversarial Networks) và SRGAN (Super Resolution Generative
Adversarial Networks) nhằm tăng tính đa dạng các trạng thái biểu cảm khuôn mặt, làm dày và tăng chất lượng tập ảnh
đầu vào. Chúng tôi thực nghiệm trên các tập dữ liệu khuôn mặt CASIA-WebFace, Asian, LFW, VN-Celeb, Pin-faces,
FEI Face để so sánh, đánh giá độ chính xác nhận dạng khuôn mặt.
II. CÔNG VIỆC LIÊN QUAN
A. Kỹ thuật học sâu
Trong những năm gần đây, cùng với sự bùng nổ của cuộc cách mạng công nghiệp 4.0, các thuật ngữ như trí tuệ
nhân tạo (AI), học máy (machine learning) và học sâu (deep learning) đang dần trở nên phổ biến. Kỹ thuật Deep
Learning [8] đang được ứng dụng trong nhiều lĩnh vực giao thông, kinh tế, y học, an ninh, hệ thống chấm công, ô tô tự
lái, robot phẫu thuật, hệ thống dịch tự động, chatbot tự động trả lời,...
Phan Anh Cang, Tô Huỳnh Thiên Trường, Trần Hồ Đạt, Phan Thượng Cang 85
Hình 1. Quá trình phát triển của công nghệ deep learning [8]
Deep Learning là một kỹ thuật máy học giúp cho trí tuệ nhân tạo được sánh với trí tuệ con người. Deep
Learning cấu tạo từ các mạ ...