Một tiếp cận hiệu quả trong nhận diện khuôn mặt sử dụng kỹ thuật học sâu với mạng CGAN và SRGAN

Số trang: 8 Loại file: pdf Dung lượng: 610.52 KB Lượt xem: 16 Lượt tải: 0

tailieu_vip

Phí tải xuống: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này trình bày các thuật toán nhận dạng khuôn mặt sử dụng kỹ thuật học sâu không giám sát GAN (Generative Adversarial Networks) với hai biến thể là CGAN (Conditional Generative Adversarial Networks) và SRGAN (Super Resolution Generative Adversarial Networks) nhằm tăng tính đa dạng các trạng thái biểu cảm khuôn mặt, làm dày và tăng chất lượng tập ảnh đầu vào.
Nội dung trích xuất từ tài liệu:
Một tiếp cận hiệu quả trong nhận diện khuôn mặt sử dụng kỹ thuật học sâu với mạng CGAN và SRGAN Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0046 MỘT TIẾP CẬN HIỆU QUẢ TRONG NHẬN DIỆN KHUÔN MẶT SỬ DỤNG KỸ THUẬT HỌC SÂU VỚI MẠNG CGAN VÀ SRGAN Phan Anh Cang1, Tô Huỳnh Thiên Trường2, Trần Hồ Đạt1, Phan Thượng Cang3 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long 1 2 Trường Trung cấp nghề Kỹ thuật Công nghệ Hùng Vương 3 Khoa Công nghệ thông tin và Truyền thông, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, truong_tht@hungvuongtech.edu.vn, datth@vlute.edu.vn, ptcang@cit.ctu.edu.vn TÓM TẮT: Trong những năm gần đây, nhận diện khuôn mặt đã đạt được những thành tựu cao nhờ sự phát triển của kỹ thuật học sâu. Một trong những kỹ thuật học sâu được sử dụng phổ biến là mạng nơron tích chập sâu được thiết kế, điều chỉnh cho phù hợp với mục đích sử dụng khác nhau. Trong nghiên cứu này, chúng tôi đề xuất phương pháp sử dụng các kỹ thuật HOG và mạng nơron tích chập sâu cho việc rút trích đặc trưng khuôn mặt, đồng thời sử dụng kỹ thuật SVM, mạng nơron cho việc nhận dạng. Để cải tiến độ chính xác nhận dạng, chúng tôi sử dụng kỹ thuật học sâu không giám sát GAN (Generative Adversarial Networks) với hai biến thể là CGAN (Conditional Generative Adversarial Networks)và SRGAN (Super Resolution Generative Adversarial Networks) nhằm tăng tính đa dạng các trạng thái biểu cảm khuôn mặt, làm dày và tăng chất lượng tập ảnh đầu vào. Chúng tôi thực nghiệm trên các tập dữ liệu khuôn mặt Asian, LFW, VN-Celeb, Pin-faces để so sánh, đánh giá độ chính xác nhận dạng khuôn mặt. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt độ chính xác nhận diện khuôn mặt trên 90% cho hầu hết các tập dữ liệu thực nghiệm. Từ khóa: Nhận diện khuôn mặt, mạng nơron tích chập sâu, CGAN, SRGAN. I. GIỚI THIỆU Nhận dạng khuôn mặt là một bài toán đã có lâu đời và được nghiên cứu rộng rãi trong nhiều năm trở lại đây. Bài toán nhận dạng khuôn mặt áp dụng trong nhiều lĩnh vực khác nhau như: hệ thống phát hiện tội phạm, hệ thống giám sát vào ra trong một đơn vị, hệ thống giám sát nơi công cộng, hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung,… Hiện nay, bài toán nhận dạng khuôn mặt gặp nhiều thách thức, ví dụ như hệ thống camera công cộng, chụp hình vui chơi thì ảnh mặt nhận được có thể bị che khuất một phần, ảnh chụp không chính diện hay chất lượng ảnh không tốt. Các yếu tố này ảnh hưởng không nhỏ đến các thuật toán nhận dạng khuôn mặt. Có nhiều thuật toán khắc phục điều này, họ sử dụng một số kỹ thuật như xác định nhiều điểm chính trên khuôn mặt, lấy những chi tiết nhỏ hay sử dụng các phương pháp học sâu. Ojala và cộng sự [1] đã phát triển phương pháp Local Binary Patterns (LBP), nó là một mô tả kết cấu có thể được sử dụng để biểu diễn các khuôn mặt, vì một hình ảnh khuôn mặt có thể được xem như là một thành phần của các mô hình văn bản vi mô. Tóm lại, quy trình này bao gồm việc chia hình ảnh khuôn mặt thành nhiều vùng trong đó các tính năng LBP được trích xuất và ghép vào một vectơ đặc trưng sẽ được sử dụng làm mô tả khuôn mặt. Một số nghiên cứu nhận dạng khuôn mặt khác cũng được quan tâm như SIFT của David G. Lowe [2]. Thuật toán Bag-of-visual-words của Yang và cộng sự (2007) [3] được đề xuất hiệu quả trong nhận dạng khuôn mặt. Bên cạnh đó, nhiều phương pháp nhận dạng khuôn mặt áp dụng kỹ thuật học sâu được đề xuất. Các phương pháp học sâu, chẳng hạn như mạng nơron tích chập, sử dụng nhiều tầng tích chập để trích xuất đặc trưng và nhận dạng. Năm 2014, DeepFace [14], DeepID [15], FaceNet [15] đã đạt được một bước đột phá về hiệu suất hiện đại và trọng tâm nghiên cứu đã chuyển sang các phương pháp tiếp cận dựa trên học tập sâu. Các phương pháp này đạt được cải thiện độ chính xá cao từ khoảng 90% đến trên 99%. Tuy nhiên, các phương pháp này phụ thuộc nhiều vào số lượng, chất lượng, khoảng cách chụp lấy mẫu và tính đa dạng về trạng thái biểu cảm của khuôn mặt đối với tập ảnh huấn luyện. Đặc biệt, các phương pháp ứng dụng kỹ thuật học sâu đòi hỏi tập dữ liệu huấn luyện phải đủ lớn và đa dạng các trạng thái biểu cảm khuôn mặt. Các yếu tố này ảnh hưởng đến độ chính xác của nhận dạng. Để cải tiến chất lượng nhận dạng khuôn mặt, bài báo cáo này trình bày các thuật toán nhận dạng khuôn mặt sử dụng kỹ thuật học sâu không giám sát GAN (Generative Adversarial Networks) với hai biến thể là CGAN (Conditional Generative Adversarial Networks) và SRGAN (Super Resolution Generative Adversarial Networks) nhằm tăng tính đa dạng các trạng thái biểu cảm khuôn mặt, làm dày và tăng chất lượng tập ảnh đầu vào. Chúng tôi thực nghiệm trên các tập dữ liệu khuôn mặt CASIA-WebFace, Asian, LFW, VN-Celeb, Pin-faces, FEI Face để so sánh, đánh giá độ chính xác nhận dạng khuôn mặt. II. CÔNG VIỆC LIÊN QUAN A. Kỹ thuật học sâu Trong những năm gần đây, cùng với sự bùng nổ của cuộc cách mạng công nghiệp 4.0, các thuật ngữ như trí tuệ nhân tạo (AI), học máy (machine learning) và học sâu (deep learning) đang dần trở nên phổ biến. Kỹ thuật Deep Learning [8] đang được ứng dụng trong nhiều lĩnh vực giao thông, kinh tế, y học, an ninh, hệ thống chấm công, ô tô tự lái, robot phẫu thuật, hệ thống dịch tự động, chatbot tự động trả lời,... Phan Anh Cang, Tô Huỳnh Thiên Trường, Trần Hồ Đạt, Phan Thượng Cang 85 Hình 1. Quá trình phát triển của công nghệ deep learning [8] Deep Learning là một kỹ thuật máy học giúp cho trí tuệ nhân tạo được sánh với trí tuệ con người. Deep Learning cấu tạo từ các mạ ...