Danh mục

Khai phá hàm chi phí cho phát hiện phương tiện giao thông trong không ảnh

Số trang: 8      Loại file: pdf      Dung lượng: 704.77 KB      Lượt xem: 11      Lượt tải: 0    
10.10.2023

Hỗ trợ phí lưu trữ khi tải xuống: 4,000 VND Tải xuống file đầy đủ (8 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phát hiện phương tiện giao thông trên không ảnh là bài toán thiết thực, giải quyết được nhiều vấn đề về giao thông trong thành phố. Nghiên cứu tiến hành khảo sát hiệu quả của các hàm chi phí IoU và L1 trên cùng phương pháp DETR huấn luyện trên bộ dữ liệu XDUAV để quan sát sự cải thiện mô hình.
Nội dung trích xuất từ tài liệu:
Khai phá hàm chi phí cho phát hiện phương tiện giao thông trong không ảnh Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0051 KHAI PHÁ HÀM CHI PHÍ CHO PHÁT HIỆN PHƯƠNG TIỆN GIAO THÔNG TRONG KHÔNG ẢNH Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang Trường Đại học Công nghệ thông tin, ĐHQG- TP.HCM mynh.12@grad.uit.edu.vn, 19521366@gm.uit.edu.vn, {nguyenvd, khangnttm}@uit.edu.vn TÓM TẮT: Phát hiện phương tiện giao thông trên không ảnh là bài toán thiết thực, giải quyết được nhiều vấn đề về giao thông trong thành phố. Tuy nhiên do các bộ dữ liệu hiện có được thu thập đa góc quay, đối tượng ở góc quay cao thường rất nhỏ trở thành một trong các thách thức của bài toán. Trong nghiên cứu này chúng tôi tiến hành khảo sát hiệu quả của các hàm chi phí IoU và L1 trên cùng phương pháp DETR huấn luyện trên bộ dữ liệu XDUAV để quan sát sự cải thiện mô hình. Qua thực nghiệm, chúng tôi thu được kết quả cao nhất là mAP50 = 94.9% khi sử dụng hàm mất mát GIoU và Balanced L1. Từ khóa: Object detection, drone, aerial, IoU loss, CIoU loss, GIoU loss, smooth L1 loss, balanced L1 loss. I. GIỚI THIỆU Phát hiện đối tượng là bài toán phổ biến của cộng đồng nghiên cứu trí tuệ nhân tạo nói chung và lĩnh vực thị giác máy tính nói riêng[1][2][15]. Nhờ vào sự phát triển của của phương pháp học sâu, bài toán phát hiện đối tượng ngày càng được cải tiến và áp dụng trong nhiều lĩnh vực cụ thể, đóng góp vai trò quan trọng trong lĩnh vực. Đầu vào của bài toán là hình ảnh, video hay hình ảnh truyền tải từ các camera real-time, đầu ra sẽ là vị trí của các đối tượng cần được xác định. Bên cạnh đó, với sự phát triển của máy bay không người lái thì việc ứng dụng thiết bị này để giải quyết các vấn đề liên quan đến giao thông trở nên vô cùng thu hút, do đó bài toán phát hiện phương tiện giao thông trong không ảnh nhận được rất nhiều sự quan tâm của cộng đồng khoa học thế giới. Hiện nay, đã có các bộ dữ liệu đặc trưng cho bài toán được giới thiệu như UAVDT[5], XDUAV[6], Visdrone19[7], AERIAU[8], cũng như đã có các nghiên cứu chỉ ra các hướng để tiếp cận bài toán, trong đó hướng tiếp cận phổ biến là sử dụng các phương pháp học sâu phát hiện đối tượng. Trong nghiên cứu hình 1, Khang và cộng sự đã khảo sát sự hiệu quả của các phương pháp phát hiện đối tượng: RetinaNet, YOLOv3, SSD, CenterNet, RFCN và SNIPER trên bộ dữ liệu VisDrone2019[7], nghiên cứu cho thấy phương pháp CenterNet cho kết quả cao nhất mAP50 = 32.28% với thời gian huấn luyện ghi nhận là 5.3 tiếng và FPS = 7.6. Qua các thử nghiệm, nghiên cứu cũng chỉ ra được những hạn chế của các phương pháp phát hiện đối tượng hiện có. Trong nghiên cứu [8], Chung và cộng sự đã thực hiện phân tích hiệu quả của kỹ thuật tăng cường dữ liệu trên bộ dữ liệu kết hợp AERIAU. Qua thực nghiệm các tác giả đã cho thấy kết quả có cải thiện trên phương pháp State-of-the-Art thời điểm đó là YOLOv3. Phát hiện đối tượng trên không gặp nhiều thách thức về dữ liệu: góc quay đa dạng dấn đến có nhiều kích thước đối tượng khác nhau trong ảnh, đôi khi đối tượng còn sẽ bị cắt một phần khi di chuyển giữa các khung hình, dẫn đến việc dự đoán trở nên khó khăn. Trong nghiên cứu này, chúng tôi tập trung nghiên cứu cách cải thiện bài toán phát hiện phương tiện giao thông không ảnh bằng việc sử dụng phương pháp phát hiện đối tượng DETR và khai phá các hàm mất mát L1 để khảo sát sự hiệu quả. Để so sánh các hàm mất mát chúng tôi thực hiện các thử nghiệm trên bộ dữ liệu XDUAV. Hình 1. Bài toán phát hiện phương tiện giao thông, các khung bao với các màu sắc đỏ - xe buýt, xanh dương - xe hơi, trắng - xe mô tô [1] Nguyễn Hoàn Mỹ, Bùi Cao Doanh, Võ Duy Nguyên, Nguyễn Tấn Trần Minh Khang 129 Phần còn lại của bài báo sẽ được trình bày như sau: Chương II chúng tôi sẽ trình bày các nghiên cứu liên quan. Chương III sẽ tập trung trình bày về bộ dữ liệu và các hàm mất mát mà chúng tôi áp dụng vào phương pháp DETR. Chương IV sẽ đưa ra những phân tích và đánh giá. Chương V trình bày kết quả thực nghiệm. Chương VI tổng kết và đưa ra hướng phát triển của nghiên cứu trong tương lai. II. CÁC NGHIÊN CỨU LIÊN QUAN Các phương pháp phát hiện đối tượng hiện nay được chia làm hai loại: phát hiện hai giai đoạn và một gia đoạn. Các phương pháp phát hiện hai giai đoạn thường đạt được độ chính xác cao hơn, tuy nhiên các phương pháp phát hiện một giai đoạn lại đạt được hiệu quả tốt hơn khi sử dụng thời gian thực. Hình 2 cho thấy sự phát triển của các phương pháp phát hiện đối tượng. Hình 2. Sự phát triển của các phương pháp phát hiện đối tượng Phương pháp hai giai đoạn Đại diện của các phương pháp phát hiện hai giai đoạn có thể được kể đến như R-CNN, Faster R-CNN. R-CNN Giới thiệu lần đầu bởi Girshick và cộng sự vào năm 2014, phương pháp phát hiện đối tượng cổ điển này đã giới thiệu khái niệm Vùng đề xuất (Region proposal) để đề xuất các vị trí có thể chứa đối tượng trong ảnh bằng kỹ thuật chọn trực tiếp (selective search). Các vùng đề xuất này sẽ được cắt khỏi ảnh và điều chỉnh về cùng một kích thước, sau đó đi qua một mạng CNN (AlexNet). Tại bước này, tất cả các vùng đề xuất có ???????????? ≥ 0.5 với hộp giới hạn ground- truth sẽ được tiếp tục dự đoán lớp đối tượng, các vùng còn lại sẽ bị loại. Sau đó các vùng này sẽ được xác định lớp bằng một bộ phân loại SVM, còn tọa độ của hộp giới hạn sẽ được xác định bởi một bộ hồi quy hộp giới hạn (Bounding box regressor). Phương pháp này còn tương đối chậm vì các bước phát hiện phải được huấn luyện riêng, bên cạnh đó kỹ thuật ...

Tài liệu được xem nhiều: