Danh mục

Tóm tắt Luận án Tiến sĩ Mạng máy tính và truyền thông dữ liệu: Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người

Số trang: 27      Loại file: pdf      Dung lượng: 1.26 MB      Lượt xem: 18      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 1,000 VND Tải xuống file đầy đủ (27 trang) 0
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Đề tài "Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người" nhằm mục đích nghiên cứu tổng quan về vai trò của ảnh nhiệt trong phát hiện và theo vết đối tượng người, đánh giá hiệu năng các thuật toán phát hiện và theo vết đối tượng nói chung và các thuật toán kết hợp ảnh màu và ảnh nhiệt để phát hiện và theo vết đối tượng người nói riêng. Đề xuất các thuật toán có khối lượng tính toán, tốc độ phù hợp để tiếp tục thử nghiệm kết hợp ảnh màu và ảnh nhiệt.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Mạng máy tính và truyền thông dữ liệu: Nghiên cứu giải pháp kết hợp ảnh nhiệt và ảnh màu trong bài toán phát hiện và theo vết đối tượng người BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Đào Vũ Hiệp NGHIÊN CỨU GIẢI PHÁP KẾT HỢP ẢNH NHIỆT VÀ ẢNH MÀU TRONG BÀI TOÁN PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG NGƯỜI Ngành: Mạng máy tính và truyền thông dữ liệu Mã số: 9480102 TÓM TẮT LUẬN ÁN TIẾN SĨ MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG DỮ LIỆU Hà Nội – 2023 Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS. Trần Quang Đức Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội Vào hồi …….. giờ, ngày ….. tháng ….. năm ……… Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Đại học Bách khoa Hà Nội 2. Thư viện Quốc gia Việt Nam MỞ ĐẦU 1.1. Bối cảnh nghiên cứu Ngày nay, các hệ thống xử lý ảnh được sử dụng rộng rãi trong nhiều lĩnh vực như: Giao thông thông minh, giám sát, phát hiện vi phạm hay tai nạn; giám sát các vị trí quan trọng như ngân hàng, trụ sở, cửa hàng; sản xuất công nghiệp, giám sát hoạt động, phát hiện các nguy hiểm, cháy, nổ…; trong an ninh, quốc phòng, giám sát, phát hiện xâm nhập bất hợp pháp biên giới và có thể sử dụng để điều khiển các loại vũ khí, hỏa lực. Các hệ thống xử lý ảnh thông thường sử dụng ảnh màu là loại ảnh được tạo bởi tín hiệu có bước sóng khả kiến (0,4÷0,7) μm. Ảnh màu có thể mô tả đối tượng với màu sắc, hình dạng, kích thước rõ ràng trong điều kiện chiếu sáng tốt. Tuy nhiên, khi trời tối hoặc điều kiện thời tiết xấu, chất lượng nhận dạng dựa trên ảnh màu trở nên kém đi. Trong khi đó, ảnh được tạo từ tín hiệu hồng ngoại bước sóng dài (8÷14 µm), gọi tắt là ảnh nhiệt, không bị ảnh hưởng trong các trường hợp này [1]. Mặt khác, các loại thiết bị để tạo ảnh từ tín hiệu này cũng có thể tiếp cận dễ dàng với chi phí không cao. Vì vậy, các hướng nghiên cứu kết hợp ảnh màu với ảnh nhiệt bắt đầu được chú ý thời gian gần đây. Đối với các thuật toán phát hiện đối tượng sử dụng mạng nơ ron tích chập, có thể chia thành 02 nhóm theo kiến trúc một giai đoạn hoặc kiến trúc hai giai đoạn. - Các thuật toán phát hiện đối tượng hai giai đoạn hiện nay đều được phát triển từ thuật toán R-CNN như: Fast R-CNN [4], Faster R- CNN [5] và Libra R-CNN [6]; sau này là kiến trúc xếp chồng nhiều mạng R-CNN để cho độ chính xác cao như Cascade R-CNN [7]. - Các thuật toán phát hiện đối tượng một giai đoạn kế thừa từ mạng tích chập kết nối toàn phần (FCN - Fully Convolutional Network), chia ảnh thành lưới các vùng để có thể huấn luyện và suy luận đồng thời trên toàn bộ ảnh cùng lúc (whole-image-at-time). Hiện nay, có một số thuật toán phát hiện đối tượng một giai đoạn phổ biến như YOLO v1, v2, v3, v4 [8], [9], [10], [11]; SSD [12] hay RetinaNet [13]. - Đối với các thuật toán theo vết đối tượng được phát triển theo hai hướng tiếp cận: (i) Xác định vị trí đối tượng tại khung hình tiếp theo thông 1 qua đối sánh biểu diễn đối tượng (trực tiếp hoặc đặc trưng) đã được xác định vị trí tại khung hình trước; (ii) huấn luyện một tập các bộ lọc tương quan phân biệt (DCF - Discriminative Correlation Filters) thông qua đối tượng vị trí của đối tượng tại khung hình trước và dùng các DCF để xác định vị trí của đối tượng tại khung hình tiếp theo. Sử dụng mạng nơ ron tích chập được huấn luyện với các đối tượng ở nhiều ngữ cảnh khác nhau sẽ giải quyết cơ bản các vấn đề tư thế, góc nhìn, màu sắc, kết cấu đa dạng của đối tượng; phần nào giải quyết được bài toán nền lộn xộn (clutter background) và đối tượng bị che khuất một phần (occlusion). Tuy nhiên, khi điều kiện chiếu sáng kém đi thì các thuật toán phát hiện đối tượng dựa trên ảnh màu sẽ cho hiệu năng kém đi. Do đó, cần phải sử dụng thêm ảnh nhiệt để nâng cao hiệu năng. - Các thuật toán phát hiện đối tượng kết hợp ảnh màu và ảnh nhiệt được phát triển bằng cách từ các mô hình đã được huấn luyện với tập dữ liệu lớn (như COCO), thực hiện huấn luyện chuyển giao (transfer learning) với tập dữ liệu có các cặp ảnh màu - ảnh nhiệt có góc nhìn tương đương nhau. Luồng ảnh màu và ảnh nhiệt được kết hợp với nhau theo các mức sau: + Kết hợp mức điểm ảnh để tạo ra ảnh trộn (blended images). + Kết hợp ở mức đặc trưng. + Kết hợp ở mức kết quả. Một số tác giả công bố một số kỹ thuật xây dựng trọng số kết hợp như: Thuật toán CIAN (Cross-Modality Interactive Attention Network [28]; thuật toán IAF R-CNN (Illumination Aware Fusion R- CNN) [24]; Zhiwei Cao công bố trong [29] một thuật toán kết hợp sử dụng trọng số được xây dựng thông q ...

Tài liệu được xem nhiều:

Tài liệu liên quan: