Bài viết tập trung nghiên cứu về các đặc trưng được dùng biểu diễn phương tiện và các kết quả thử nghiệm sẽ được đánh giá trên bộ dữ liệu VeRi-776, đây là bộ dữ liệu chuyên phục vụ bài toán tái nhận dạng phương tiện giao thông. Với mục tiêu kết hợp các đặc trưng học sâu nhằm cải thiện hiệu quả tìm kiếm phương tiện và lưu trữ đặc trưng, chúng tôi đã thực hiện một vài thử nghiệm trên hai loại đặc trưng VGG16, Vcolor và thiết kế một mạng nơron để kết hợp hai đặc trưng trên.
Nội dung trích xuất từ tài liệu:
Tái nhận dạng phương tiện giao thông sử dụng mạng kết hợp các đặc trưng học sâu
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018
DOI: 10.15625/vap.2018.00063
TÁI NHẬN DẠNG PHƯƠNG TIỆN GIAO THÔNG SỬ DỤNG MẠNG
KẾT HỢP CÁC ĐẶC TRƯNG HỌC SÂU
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy
PTN Truyền thông Đa phƣơng tiện, Đại học Công nghệ Thông tin ĐHQG TP. HCM
hoangtrinh1001@gmail.com
{sonnt, tiepnv, khangnttm, duyld}@uit.edu.vn
TÓM TẮT: Công trình này nghiên cứu về bài toán tái nhận dạng phương tiện giao thông. Cho một ảnh phương tiện, nhiệm vụ bài
toán tái nhận dạng phương tiện giao thông là tìm kiếm trong tập dữ liệu các phương tiện có cùng định danh với phương tiện trong
ảnh. Đây là một bài toán đang nhận được rất nhiều sự quan tâm của cộng đồng vì khả năng ứng dụng của nó, đặc biệt trong các hệ
thống camera giám sát giao thông. Trong bài báo này, chúng tôi tập trung nghiên cứu về các đặc trưng được dùng biểu diễn
phương tiện và các kết quả thử nghiệm sẽ được đánh giá trên bộ dữ liệu VeRi-776, đây là bộ dữ liệu chuyên phục vụ bài toán tái
nhận dạng phương tiện giao thông. Với mục tiêu kết hợp các đặc trưng học sâu nhằm cải thiện hiệu quả tìm kiếm phương tiện và lưu
trữ đặc trưng, chúng tôi đã thực hiện một vài thử nghiệm trên hai loại đặc trưng VGG16, Vcolor và thiết kế một mạng nơron để kết
hợp hai đặc trưng trên. Các kết quả thực nghiệm cho thấy, đặc trưng được rút trích từ mạng nơron được đề xuất không những có
hiệu quả cao hơn so với các đặc trưng riêng biệt mà còn giảm được số chiều của đặc trưng cần lưu trữ đến 3 lần.
Từ khóa: Tái nhận dạng phương tiện giao thông, đặc trưng học sâu, kết hợp đặc trưng học sâu.
I. GIỚI THIỆU
Tái nhận dạng phƣơng tiện giao thông là một bài toán thƣờng đƣợc sử dụng trong quá trình tìm kiếm và theo dõi
phƣơng tiện. Mặc dù đã tồn tại nhiều phƣơng pháp để theo dõi và nhận dạng đối tƣợng nhƣ theo dõi bằng GPS hoặc
theo dõi bằng tín hiệu sóng Bluetooth1, hầu hết chỉ có thể áp dụng vào các phƣơng tiện công cộng hoặc phƣơng tiện
của một tổ chức nhất định. Sự phát triển của hệ thống camera giám sát giao thông trong các thành phố lớn đã mang lại
một nhiều thuận lợi cho việc xây dựng một hệ thống theo dõi phƣơng tiện giao thông thông qua áp dụng bài toán tái
nhận diện phƣơng tiện giao thông vào các dữ liệu thu thập đƣợc (Vehicle re-identification).
Hình 1. Mục tiêu của tái nhận dạng phƣơng tiện giao thông là tìm ra ảnh của mục tiêu đã di chuyển
qua vùng quan sát của nhiều camera khác nhau
Việc tái nhận dạng phƣơng tiện giao thông trong một hệ thống gồm nhiều camera khác nhau tồn tại rất nhiều
thách thức. Đặc biệt, trong môi trƣờng thực tế, khả năng tái nhận dạng càng thấp do các phƣơng tiện có thể bị che
khuất, các ảnh hƣởng của ánh sáng, góc quay,… Ngoài ra, với tính chất đặc biệt của loại dữ liệu, một vài sự nhập
nhằng khi so sánh hai ảnh của hai phƣơng tiện có thể xảy ra, ví dụ nhƣ hai phƣơng tiện có định danh khác nhau nhƣng
1
Thông tin đƣợc tham khảo từ http://www.libelium.com/vehicle_traffic_monitoring_bluetooth_sensors_over_zigbee/
Trịnh Mẫn Hoàng, Nguyễn Thanh Sơn, Nguyễn Vinh Tiệp, Nguyễn Tấn Trần Minh Khang, Lê Đình Duy 483
có ngoại hình hoàn toàn tƣơng đồng hay cùng một phƣơng tiện có thể có thông tin thị giác rất khác nhau ở các góc
chụp khác nhau,... cũng là các vấn đề lớn cần giải quyết để tái nhận dạng các phƣơng tiện một cách chính xác.
Để giải quyết các thách thức trên, các thông tin bổ sung nhƣ không gian và thời gian thƣờng đƣợc cung cấp
nhằm tăng hiệu quả so khớp. Tuy nhiên việc chỉ sử dụng duy nhất một đặc trƣng liệu có đủ để biễu diễn phƣơng tiện.
Để trả lời câu hỏi này, trong công trình [1], Xinchen Liu và cộng sự đã đề xuất một mô hình kết hợp các đặc trƣng thủ
công BOW_SIFT [4], BOW_CN [5] và đặc trƣng học sâu GoogleNet [6] dựa trên kết hợp độ tƣơng đồng theo trọng số
gọi là Fusion of Attributes and Color feaTures (FACT) [1]. Cách kết hợp đặc trƣng của FACT đã giúp tăng hiệu quả
chung của hệ thống tái nhận dạng phƣơng tiện, tuy nhiên FACT gặp nhiều hạn chế vì quá phụ thuộc vào các trọng số
kết hợp cho trƣớc, điều này dẫn đến sự thiếu linh hoạt khi muốn mở rộng mô hình, đồng thời, các đặc trƣng thủ công
trong FACT dƣờng nhƣ không đóng góp nhiều cho mô hình kết hợp (xem hình 2).
Hình 2. Mô hình Fusion of Attributes and Color feaTures.
Nhằm giải quyết vấn đề hạn chế về tọn số của mô hình FACT, trong bài báo này, chúng tôi đã đề xuất một mô
hình kết hợp hai đặc trƣng học sâu bằng mạng nơron với các trọng số đƣợc học tự động. Cụ thể, chúng tôi đánh giá đặc
trƣng rút trích từ mạng học sâu gồm Vcolor từ bài toán nhận dạng màu sắc phƣơng tiện giao thông và VGG16 [2] từ
bài toán tái nhận dạng phƣơng tiện giao thông trên bộ dữ liệu chuyên về tái nhận dạng phƣơng tiện giao thông là VeRi-
776 [1], [3] (776 phƣơng tiện và 50.000 ảnh). Từ các kết quả thực nghiệm, chúng tôi đƣa ra một số nhận xét về các kết
quả thu đƣợc.
Phần còn lại của bài báo đƣợc tổ chức nhƣ sau: trong phần II chúng tôi sẽ trình bày các công trình liên quan
đƣợc sử dụng trong bài báo này. Phần III sẽ trình bày các đặc trƣng học sâu đƣợc khảo sát trong bài báo này và mô
hình kết hợp các đặc trƣng học sâu đƣợc đề xuất. Phần IV, chúng tôi sẽ trình bày môi trƣờng thực nghiệm, kết quả thu
đƣợc và thảo luận về kết quả tƣơng ứng với các phƣơng pháp. Cuối cùng, Phần V sẽ kết luận bài báo và đƣa ra các
hƣớng nghiên cứu tiếp theo.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong phần này, chúng tôi trình bày về mô hình đƣợc ...