Thông tin tài liệu:
Bài viết Phân loại hành vi vượt đèn đỏ sử dụng camera giao thông giới thiệu CrossNet, mô hình sử dụng dữ liệu đầu vào là video giao thông và các bao đóng của xe, đạt độ 99,23% precision và 96,27% F1 score trong việc phân loại hành vi vượt đèn đỏ. Kết hợp mô hình này với mạng phát hiện xe có thể tạo ra một hệ thống phát hiện hành vi vượt đèn đỏ tốt với đầu vào dễ thu thập và chi phí thiết lập rẻ.
Nội dung trích xuất từ tài liệu:
Phân loại hành vi vượt đèn đỏ sử dụng camera giao thông
Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
PHÂN LOẠI HÀNH VI VƯỢT ĐÈN ĐỎ SỬ DỤNG CAMERA
GIAO THÔNG
Nguyễn Văn Nam1, Phan Nhật Minh2
1
Trường Đại học Thủy lợi, email: nvnam@tlu.edu.vn
2
Fontbonne University, St. Louis MO 63105, United States
1. GIỚI THIỆU CHUNG 2. PHƯƠNG PHÁP NGHIÊN CỨU
Việc phát hiện hành vi vượt đèn đỏ Mô hình được đề xuất bao gồm hai phần
(Hình 1) từ lâu đã được thực hiện chủ yếu chính: bộ mã hóa Video (Video Encoder) và
bởi con người. Các phương pháp tự động sử bộ mã hóa chuyển động (Path Encoder).
dụng trạng thái của xe trong ngã tư hoặc sử Video Encoder. Bộ mã hóa Video sử dụng
dụng cảm biến mang lại kết quả không khả mô hình xử lý video X3D[2] để trích xuất các
quan do độ chính xác thấp hoặc chi phí thiết thông tin chung của video. Các mô hình được
lập cao[1][3]. Bài báo này giới thiệu thử nghiệm là X3D-XS và X3D-S được pre-
CrossNet, mô hình sử dụng dữ liệu đầu vào là train trên tập dữ liệu Kinetics-400.
video giao thông và các bao đóng của xe, đạt Path Encoder. Bộ mã hóa chuyển động sử
độ 99,23% precision và 96,27% F1 score dụng một danh sách các vectơ đại diện cho
trong việc phân loại hành vi vượt đèn đỏ. Kết tọa độ của các bao đóng làm đầu vào. Sau đó,
hợp mô hình này với mạng phát hiện xe có chúng được chạy qua 4 Transformer Encoder
thể tạo ra một hệ thống phát hiện hành vi
để trích xuất các đặc trưng chuyển động của
vượt đèn đỏ tốt với đầu vào dễ thu thập và
phương tiện.
chi phí thiết lập rẻ.
CrossNet. (Hình 2) Sau khi nhận được
embeddings từ hai bộ mã hóa, các đặc trưng
được ghép lại và đưa qua một mạng MLP và
đưa ra 2 nơ-ron đầu ra, phân loại phương tiện
đang xét có hành vi vượt đèn đỏ hay không.
Mô hình cơ sở. Mô hình cơ sở sử dụng
X3D-XS cho Video Encoder. Mô hình có số
khung hình đầu vàO t = 4 có kích thước
H W = 182 182px lấy mẫu từ video sử
dụng Uniform Temporal Subsampling, mỗi
khung hình có số kênh màU c = 3
Path Encoder mã hóa mỗi tọa độ hộp giới
Hình 1. Tác vụ phân loại hành vi vượt đèn hạn thành một vectơ đặc trưng với Ebbox = 128
đỏ. Mỗi xe được dán nhãn đúng hoặc sai. chiều, sau đó đưa vào Module Transformer
Ví dụ trên chọn 2 phương tiện có hộp giới để trích trọn đặc trưng. Module chứa 4 lớp
hạn được đánh dấu. Xe có bao đóng màu với 4 đầu chú ý trong mỗi lớp. Đầu ra được
xanh được dự đoán sai (không vượt đèn đỏ) làm phẳng và chuyển sang một lớp MLP với
và xe có bao đóng màu tím được dự đoán dropout = 0.2 để có được embedding đầu ra
có vượt đèn đỏ bởi mô hình có kích thước Epath = 256.
101
Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
precision* recall
F1 2 *
precision recall
Trong đó:
TP: True Positive
FP: False Positive
FN: False Negative
Quá trình huấn luyện. Quá trình huấn
luyện sử dụng mini-batch B = 4. Mô hình
được huấn luyện 20 epochs với learning rate
10-6. Optimizer được sử dụng là Adam với
1 = 0.9, 2 = 0,999, = 10-8, không sử
dụng weight decay. Mô hình thực hiện
checkpointing sau mỗi epoch, checkpoint có
Validation loss thấp nhất sẽ được chọn để
đánh giá tập Test.
Hình 2. Mô hình CrossNet đề xuất
Sau đó, các đặc trưng được nối và chuyển 3. DỮ LIỆU ĐẦU VÀO
qua một lớp neuron ẩn gồm 512 neuron với Bộ dữ liệu bao gồm 107 video từ ba
dropout = 0.2 và sau đó đến lớp Output gồm 2 camera giám sát khác nhau. Mỗi video có độ
neuron. Lớp output sau đó đưa qua một lớp phân giải 2560 1980px , với thời lượng 15
softmax để đưa kết quả về phân phối xác suất. giây, danh sách ID phương tiện và vị trí các
e zi bao đóng trên các khung hình.
soft maxi ( z ) z
je j Lọc phương tiện. Bước đầu tiên trong quá
Weighted Cross-Entropy Loss. Hàm trình xử lý dữ liệu thô là trích xuất các
Cross-Entropy Loss cùng các trọng số cho các phương tiện đi về phía trước và lọc không xét
lớps được sử dụng để huấn luyện mô hình: các phương tiện đi từ các hướng khác. ...