So sánh thuật toán SSD và YOLO trong phát hiện đối tượng
Số trang: 7
Loại file: pdf
Dung lượng: 1.03 MB
Lượt xem: 34
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Phát hiện đối tượng có thể chia thành hai nhóm là: Phát hiện một đối tượng cụ thể và phát hiện chủng loại đối tượng. Hầu hết các phương pháp điều dựa trên họ R-CNN (Regions with Convolutional Neural Network Family) như R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN,… gồm một chuỗi tiến trình nhiều lớp xen kẽ nhau rất phức tạp và chi phí cao.
Nội dung trích xuất từ tài liệu:
So sánh thuật toán SSD và YOLO trong phát hiện đối tượng TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Trà Văn Đồng và các tgk SO SÁNH THUẬT TOÁN SSD VÀ YOLO TRONG PHÁT HIỆN ĐỐI TƯỢNG COMPARE SSD ALGORITHM AND YOLO IN OBJECT DETECTION TRÀ VĂN ĐỒNG, NGUYỄN THU NGUYỆT MINH(**) và HUỲNH CHÍ NHÂN TÓM TẮT: Phát hiện đối tượng có thể chia thành hai nhóm là: 1) Phát hiện một đối tượng cụ thể và 2) Phát hiện chủng loại đối tượng. Hầu hết các phương pháp đều dựa trên họ R-CNN (Regions with Convolutional Neural Network Family) như R-CNN, Fast R-CNN [4], Faster R-CNN [2], Mask R-CNN,… gồm một chuỗi tiến trình nhiều lớp xen kẽ nhau rất phức tạp và chi phí cao. Năm 2016, Joseph Redmon và đồng sự đề xuất phương pháp phát hiện đối tượng YOLO (You Only Look Once) [1] và Wei Liu và đồng sự đề xuất phương pháp phát hiện đối tượng SSD (Single Shot Detector) [3] dựa trên cách tiếp cận khác. Từ khóa: phát hiện đối tượng; deep learning; mạng neuron tích chập CNN; YOLO; SSD. ABSTRACT: Object detection can be divided into two groups: 1) detecting a specific object, and 2) detecting categories of the object. Most of methods based on R-CNN family (Regions with Convolutional Neural Network Family) such as R-CNN, Fast R-CNN, Faster R-CNN, Mask R- CNN,… it comprises of a sequence of processing of alternated layers which is very complex and expensive. In 2016, Joseph Redmon et al. proposed a method of object detection named YOLO (You Only Look Once), and Wei Liu et al. proposed a method of object detection named SDD (Single Shot Detector) based on a different approach. Key words: object detection; deep learning; convolutional neural network; YOLO; SSD. 1. ĐẶT VẤN ĐỀ những phương pháp học khá hữu hiệu các đặc Thuật toán SSD và YOLO đều thuộc trưng được rút trích trực tiếp từ dữ liệu. nhóm single shot detectors. Cả hai đều sử dụng Khi chúng ta muốn phát hiện ra object convolution layer để rút trích đặc trưng và một trong một bức ảnh, sau đó đánh nhãn cho convolution filter để đưa quyết định và đều object đó, các phương pháp cũ quá chậm để dùng feature map có độ phân giải thấp (low phục vụ trong real-time, hoặc đòi hỏi thiết bị resolution feature map) để dò tìm đối tượng, phải mạnh cho đến khi YOLO và SSD ra đời, chỉ phát hiện được các đối tượng có kích thước có khả năng gán nhãn cho toàn bộ object trong lớn. Phát hiện đối tượng với mục tiêu là phát khung hình với chỉ duy nhất một operation và hiện đối tượng có hay không trong một hoặc mô hình sử dụng một mạng neural duy nhất. Có nhiều ảnh, định vị đối tượng đó trong ảnh, là thể nói YOLO, SSD đã xây dựng một hướng một trong những bài toán cơ bản và thử thách tiếp cận đầu tiên giúp đưa Object detection thực nhất trong thị giác máy tính. Các kỹ thuật deep sự khả thi trong cuộc sống. Trong bài viết này, learning [8] phát triển gần đây được xem như là chúng tôi xin trình bày hai thuật toán nói trên để làm rõ hơn vấn đề tìm kiếm đối tượng. ThS. Trường Đại học Văn Lang, dong.tv@vlu.edu.vn ThS. Trường Đại học Văn Lang, Mã số: TCKH22-10-2020 62 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 23, Tháng 9 – 2020 2. NỘI DUNG này có nghĩa là Pr(Object) = 0 nếu đối tượng không 2.1. Thuật toán YOLO [5] có trong box và Pr(Object) = 1 nếu đối tượng có YOLO là một mô hình mạng CNN cho việc trong box. Chỉ số conf phản ánh có hay không một phát hiện, nhận dạng, phân loại đối tượng. YOLO đối tượng thuộc một chủng loại (lớp) trong box.IOU được tạo ra từ việc kết hợp giữa các convolutional là tỷ lệ giữa diện tích vùng giao nhau và diện tích layers và connected layers. Trong đó, các convolutional vùng hợp nhất của 2 box, thông thường nếu IOU > layers sẽ trích xuất ra các feature của ảnh; full- 50% thì được xem là box dự đoán đó có đối tượng. connected layers sẽ dự đoán ra xác suất và tọa độ Trường hợp muốn dự đoán xác xuất đối tượng của đối tượng. YOLO được đề xuất từ ý tưởng con thuộc chủng loại nào thì sử dụng thêm xác xuất có người có thể phát hiện và định vị được một đối điều kiện Pr(Class(i) | Object). tượng nào đó khi đã nhìn qua một lần. Do đó kiến 2.1.2. Mạng neuron tích chập trúc một hệ thống phát hiện đối tượng YOLO tương YOLO xây dựng một mạng CNN để dự đối đơn giản như minh họa trong hình 1. đoán các tensor kích thước (7,7,30). Mạng CNN này có tác dụng làm giảm kích thước không gian mỗi vị trí thành 7 x 7 với 1024 một kênh đầu ra. Hình 2 minh họa kiến trúc một mạng YOLO. Kiến trúc mạng CNN trong YOLO có 24 lớp tích chập kết hợp với các lớp max pooling và 2 lớp fully connected. Lần lượt Hình 1. Hệ thống phát hiện đối tượng YOLO đơn giản mỗi lớp tích chập sẽ giảm kích thước không Ghi chú: 1) Ảnh được điều chỉnh thành ảnh có kích thước gian đặc trưng từ lớp trước đó. phù hợp (chẳng hạn 448x448); 2) Chạy một mạng tích chập đề rút trích đặc trưng; 3) Kết ...
Nội dung trích xuất từ tài liệu:
So sánh thuật toán SSD và YOLO trong phát hiện đối tượng TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Trà Văn Đồng và các tgk SO SÁNH THUẬT TOÁN SSD VÀ YOLO TRONG PHÁT HIỆN ĐỐI TƯỢNG COMPARE SSD ALGORITHM AND YOLO IN OBJECT DETECTION TRÀ VĂN ĐỒNG, NGUYỄN THU NGUYỆT MINH(**) và HUỲNH CHÍ NHÂN TÓM TẮT: Phát hiện đối tượng có thể chia thành hai nhóm là: 1) Phát hiện một đối tượng cụ thể và 2) Phát hiện chủng loại đối tượng. Hầu hết các phương pháp đều dựa trên họ R-CNN (Regions with Convolutional Neural Network Family) như R-CNN, Fast R-CNN [4], Faster R-CNN [2], Mask R-CNN,… gồm một chuỗi tiến trình nhiều lớp xen kẽ nhau rất phức tạp và chi phí cao. Năm 2016, Joseph Redmon và đồng sự đề xuất phương pháp phát hiện đối tượng YOLO (You Only Look Once) [1] và Wei Liu và đồng sự đề xuất phương pháp phát hiện đối tượng SSD (Single Shot Detector) [3] dựa trên cách tiếp cận khác. Từ khóa: phát hiện đối tượng; deep learning; mạng neuron tích chập CNN; YOLO; SSD. ABSTRACT: Object detection can be divided into two groups: 1) detecting a specific object, and 2) detecting categories of the object. Most of methods based on R-CNN family (Regions with Convolutional Neural Network Family) such as R-CNN, Fast R-CNN, Faster R-CNN, Mask R- CNN,… it comprises of a sequence of processing of alternated layers which is very complex and expensive. In 2016, Joseph Redmon et al. proposed a method of object detection named YOLO (You Only Look Once), and Wei Liu et al. proposed a method of object detection named SDD (Single Shot Detector) based on a different approach. Key words: object detection; deep learning; convolutional neural network; YOLO; SSD. 1. ĐẶT VẤN ĐỀ những phương pháp học khá hữu hiệu các đặc Thuật toán SSD và YOLO đều thuộc trưng được rút trích trực tiếp từ dữ liệu. nhóm single shot detectors. Cả hai đều sử dụng Khi chúng ta muốn phát hiện ra object convolution layer để rút trích đặc trưng và một trong một bức ảnh, sau đó đánh nhãn cho convolution filter để đưa quyết định và đều object đó, các phương pháp cũ quá chậm để dùng feature map có độ phân giải thấp (low phục vụ trong real-time, hoặc đòi hỏi thiết bị resolution feature map) để dò tìm đối tượng, phải mạnh cho đến khi YOLO và SSD ra đời, chỉ phát hiện được các đối tượng có kích thước có khả năng gán nhãn cho toàn bộ object trong lớn. Phát hiện đối tượng với mục tiêu là phát khung hình với chỉ duy nhất một operation và hiện đối tượng có hay không trong một hoặc mô hình sử dụng một mạng neural duy nhất. Có nhiều ảnh, định vị đối tượng đó trong ảnh, là thể nói YOLO, SSD đã xây dựng một hướng một trong những bài toán cơ bản và thử thách tiếp cận đầu tiên giúp đưa Object detection thực nhất trong thị giác máy tính. Các kỹ thuật deep sự khả thi trong cuộc sống. Trong bài viết này, learning [8] phát triển gần đây được xem như là chúng tôi xin trình bày hai thuật toán nói trên để làm rõ hơn vấn đề tìm kiếm đối tượng. ThS. Trường Đại học Văn Lang, dong.tv@vlu.edu.vn ThS. Trường Đại học Văn Lang, Mã số: TCKH22-10-2020 62 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 23, Tháng 9 – 2020 2. NỘI DUNG này có nghĩa là Pr(Object) = 0 nếu đối tượng không 2.1. Thuật toán YOLO [5] có trong box và Pr(Object) = 1 nếu đối tượng có YOLO là một mô hình mạng CNN cho việc trong box. Chỉ số conf phản ánh có hay không một phát hiện, nhận dạng, phân loại đối tượng. YOLO đối tượng thuộc một chủng loại (lớp) trong box.IOU được tạo ra từ việc kết hợp giữa các convolutional là tỷ lệ giữa diện tích vùng giao nhau và diện tích layers và connected layers. Trong đó, các convolutional vùng hợp nhất của 2 box, thông thường nếu IOU > layers sẽ trích xuất ra các feature của ảnh; full- 50% thì được xem là box dự đoán đó có đối tượng. connected layers sẽ dự đoán ra xác suất và tọa độ Trường hợp muốn dự đoán xác xuất đối tượng của đối tượng. YOLO được đề xuất từ ý tưởng con thuộc chủng loại nào thì sử dụng thêm xác xuất có người có thể phát hiện và định vị được một đối điều kiện Pr(Class(i) | Object). tượng nào đó khi đã nhìn qua một lần. Do đó kiến 2.1.2. Mạng neuron tích chập trúc một hệ thống phát hiện đối tượng YOLO tương YOLO xây dựng một mạng CNN để dự đối đơn giản như minh họa trong hình 1. đoán các tensor kích thước (7,7,30). Mạng CNN này có tác dụng làm giảm kích thước không gian mỗi vị trí thành 7 x 7 với 1024 một kênh đầu ra. Hình 2 minh họa kiến trúc một mạng YOLO. Kiến trúc mạng CNN trong YOLO có 24 lớp tích chập kết hợp với các lớp max pooling và 2 lớp fully connected. Lần lượt Hình 1. Hệ thống phát hiện đối tượng YOLO đơn giản mỗi lớp tích chập sẽ giảm kích thước không Ghi chú: 1) Ảnh được điều chỉnh thành ảnh có kích thước gian đặc trưng từ lớp trước đó. phù hợp (chẳng hạn 448x448); 2) Chạy một mạng tích chập đề rút trích đặc trưng; 3) Kết ...
Tìm kiếm theo từ khóa liên quan:
Mạng neuron tích chập CNN Thuật toán SSD Thuật toán YOLO Phương pháp phát hiện đối tượng SSD Vector dự đoán Hàm chi phíTài liệu liên quan:
-
Nghiên cứu xây dựng mô hình nhận diện cảm xúc qua giọng nói
4 trang 22 0 0 -
8 trang 15 0 0
-
Mô hình kinh tế đối ngẫu: Suy nghĩ về hướng nghiên cứu lý thuyết người sản xuất
4 trang 15 0 0 -
Thiết kế hệ thống nhận dạng biển báo giao thông với ứng dụng YOLO
14 trang 14 0 0 -
Thuật toán di chuyển theo đối tượng trên mặt sàn dựa trên dòng video nhận được từ xe tự hành
6 trang 14 0 0 -
Bài 3 – Cách ứng xử của chi phí & ước lượng chi phí
20 trang 14 0 0 -
7 trang 8 0 0
-
Bài giảng Kinh tế vi mô 2: Bài 4 - Phúc lợi người tiêu dùng và phân tích chính sách
31 trang 6 0 0