![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Phát hiện và phân lớp phương tiện giao thông dựa trên mô hình mạng nơ ron tích chập
Số trang: 8
Loại file: pdf
Dung lượng: 783.04 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trên một hệ thống giao thông, các thông tin cơ bản về luồng giao thông như số lượng, chủng loại và tốc độ di chuyển của các phương tiện là đầu vào quan trọng trong quá trình xử lý dữ liệu phục vụ cho công tác quản lý và điều hành giao thông. Bài viết đề cập tới một giải pháp phát hiện và phân lớp các phương tiện giao thông với độ chính xác cao dựa trên mô hình mạng nơ-ron tích chập (Convolutional Neural Network – CNN).
Nội dung trích xuất từ tài liệu:
Phát hiện và phân lớp phương tiện giao thông dựa trên mô hình mạng nơ ron tích chập Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải PHÁT HIỆN VÀ PHÂN LỚP PHƯƠNG TIỆN GIAO THÔNG DỰA TRÊN MÔ HÌNH MẠNG NƠ-RON TÍCH CHẬP Lại Mạnh Dũng 1, Nguyễn Quốc Tuấn 1 1 Trường Đại học Giao thông Vận tải, Số 3 Cầu Giấy, Hà Nội * Tác giả liên hệ: Email: dzunglm@utc.edu.vn Tóm tắt. Trên một hệ thống giao thông, các thông tin cơ bản về luồng giao thông như số lượng, chủng loại và tốc độ di chuyển của các phương tiện là đầu vào quan trọng trong quá trình xử lý dữ liệu phục vụ cho công tác quản lý và điều hành giao thông. Để thu thập các thông tin này, đã có nhiều giải pháp kỹ thuật được nghiên cứu và triển khai, trong đó có các giải pháp ứng dụng kỹ thuật xử lý ảnh trong thu thập dữ liệu từ camera giám sát và tự động phân tích các thông tin về luồng giao thông. Gần đây, cùng với sự phát triển mạnh về phần cứng máy tính, cho ra các bộ xử lý đồ họa GPU có tốc độ tính toán vượt trội, tạo điều kiện cho việc phát triển các mô hình học máy tiên tiến, trong đó có các kỹ thuật học sâu (deep learning) cho phép phát hiện và phân lớp các đối tượng trên ảnh với độ chính xác rất cao. Trong bài báo này, chúng tôi đề cập tới một giải pháp phát hiện và phân lớp các phương tiện giao thông với độ chính xác cao dựa trên mô hình mạng nơ-ron tích chập (Convolutional Neural Network –CNN). Các mô hình cải tiến từ mô hình CNN ban đầu cho phép giảm khối lượng tính toán, qua đó giải quyết được bài toán phân lớp phương tiện giao thông trong điều kiện áp dụng cho dòng giao thông hỗn hợp, có nhiều loại hình phương tiện với mật độ lớn như ở các thành phố lớn của Việt Nam. Đặc biệt là đáp ứng được nhu cầu xử lý ảnh từ camera giám sát giao thông theo thời gian thực. Từ khóa: Phát hiện và phân lớp phương tiện giao thông, Mạng nơ-ron tích chập, Kỹ thuật học sâu, Mạng R-CNN, Mạng YOLO 1. TỔNG QUAN Mạng nơ-ron tích chập CNNs là một trong những mô hình Deep Learning tiên tiến cho phép xây dựng được những hệ thống xử lý ảnh với độ chính xác cao bằng cách thiết lập các mối liên kết giữa các tầng của mạng dựa trên phép tích chập, cho phép tăng cường các đặc trưng được sử dụng để phân lớp các đối tượng. Phép tích chập (Convolution): Trong xử lý ảnh, tích chập là phép biến đổi ảnh dựa trên phép nhân ma trận được thực hiện theo công thức (1) nhằm tạo ra ảnh mới có một số đặc trưng được tăng cường. Trong đó, - g(x,y) là giá trị mức xám tại điểm (x,y) sau khi thực hiện phép tích chập - f(x,y) là giá trị mức xám tại điểm (x,y) ban đầu - k là hạt nhân tích chập (convolution kernel), là ma trận có kích thước (2a+1) x (2b+1), hoạt dộng như một bộ lọc (filter), lần lượt trượt qua từng điểm ảnh của ảnh gốc theo chiều từ trái sang phải, từ trên xuống dưới, mỗi bước dịch qua một điểm ảnh để tính giá -298- Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải trị tích chập của điểm ảnh gốc theo công thức (1). Kết quả của phép tích chập của một kernel với ma trận ảnh ban đầu sẽ là một ma trận ảnh có một số tính chất khác biệt với ảnh ban đầu. Ví dụ được mô tả trong [9] có thể làm mờ bức ảnh ban đầu bằng cách lấy giá trị trung bình của các điểm ảnh xung quanh cho điểm ảnh ở vị trí trung tâm bằng cách dùng bộ lọc như Hình 21 Hoặc ta có thể phát hiện biên ảnh bằng cách tính vi phân giữa các điểm ảnh lân cận nhờ sử dụng bộ lọc như trong Hình 22. Hình 21: Làm mờ ảnh bằng tích chập Hình 22: Phát hiện biên bằng tích chập Mạng nơ-ron tích chập CNNs gồm một số tầng (layer), trong đó tầng phía sau là tích chập của tầng liền kề phía trước với một bộ lọc nào đó. Bằng cách tích chập với các bộ lọc phù hợp và sử dụng các hàm kích hoạt phi tuyến (nonlinear activation function) như ReLU ta có thể tạo ra thông tin trừu tượng ở mức cao hơn cho các layer tiếp theo. Mạng nơ-ron tích chập CNNs đã được nghiên cứu và đề xuất vào những năm 1990 [7], nhưng việc triển khai các ứng dụng trong bài toán phân lớp đối tượng gặp nhiều khó khăn. Lý do là, để thực hiện phân lớp được nhiều đối tượng trên ảnh, đòi hỏi phải huấn luyện mô hình bằng các tập dữ liệu ảnh lớn, lên đến hàng triệu ảnh đã gán nhãn, trong khi đó, mô hình CNNs đòi hỏi khối lượng tính toán lớn dựa trên các phép tích chập. Với sự phát triển mạnh mẽ về phần cứng máy tính, cho ra đời các bộ xử lý đồ họa GPU (Graphical Processing Unit) tốc độ cao, được tối ưu hóa khi thực hiện các phép tích chập hai chiều. Cùng với ưu điểm của mô hình phân lớp SVM (Support Vector Machine). Năm 2012, Krizhevsky và các cộng sự [7].A đã khơi dậy mối quan tâm đối với mạng nơ-ron tích chập CNNs bằng việc huấn luyện mạng CNN dựa trên tập dữ liệu ảnh mẫu quy mô lớn tên là ImageNet lên đến 1.2 triệu hình ảnh đã được gán nhãn. Để thực hiện việc này, ông và các cộng sự đã đề xuất mô hình mạng nơ ron tích chập gồm có 8 lớp, trong đó có 5 lớp tích chập và 3 lớp kết nối đầy đủ (fully connected layer). Ngoài ra, ông và các cộng sự còn phải thiết kế -299- Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải chương trình huấn luyện mạng để có thể thực hiện trên 02 GPU chạy song song. Mỗi GPU được giao thực hiện các phép tính toán độc lập, làm việc đồng thời và chỉ giao tiếp với nhau tại một số lớp nhất định. Hình 23 mô tả kiến trúc mạng nơ-ron tích chập CNN do Krizhevsky và các cộng sự đề xuất với 8 lớp được thiết kế để có thể sử dụng hai GPU huấn luyện đồng thời. Trong đó, GPU số 1 sẽ thực hiện các tính toán ở tầng bên trên, GPU số 2 sẽ thực hiện các tính toán ở tầng dưới. Hai GPU chỉ giao tiếp với nhau ở một số tầng nhất ...
Nội dung trích xuất từ tài liệu:
Phát hiện và phân lớp phương tiện giao thông dựa trên mô hình mạng nơ ron tích chập Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải PHÁT HIỆN VÀ PHÂN LỚP PHƯƠNG TIỆN GIAO THÔNG DỰA TRÊN MÔ HÌNH MẠNG NƠ-RON TÍCH CHẬP Lại Mạnh Dũng 1, Nguyễn Quốc Tuấn 1 1 Trường Đại học Giao thông Vận tải, Số 3 Cầu Giấy, Hà Nội * Tác giả liên hệ: Email: dzunglm@utc.edu.vn Tóm tắt. Trên một hệ thống giao thông, các thông tin cơ bản về luồng giao thông như số lượng, chủng loại và tốc độ di chuyển của các phương tiện là đầu vào quan trọng trong quá trình xử lý dữ liệu phục vụ cho công tác quản lý và điều hành giao thông. Để thu thập các thông tin này, đã có nhiều giải pháp kỹ thuật được nghiên cứu và triển khai, trong đó có các giải pháp ứng dụng kỹ thuật xử lý ảnh trong thu thập dữ liệu từ camera giám sát và tự động phân tích các thông tin về luồng giao thông. Gần đây, cùng với sự phát triển mạnh về phần cứng máy tính, cho ra các bộ xử lý đồ họa GPU có tốc độ tính toán vượt trội, tạo điều kiện cho việc phát triển các mô hình học máy tiên tiến, trong đó có các kỹ thuật học sâu (deep learning) cho phép phát hiện và phân lớp các đối tượng trên ảnh với độ chính xác rất cao. Trong bài báo này, chúng tôi đề cập tới một giải pháp phát hiện và phân lớp các phương tiện giao thông với độ chính xác cao dựa trên mô hình mạng nơ-ron tích chập (Convolutional Neural Network –CNN). Các mô hình cải tiến từ mô hình CNN ban đầu cho phép giảm khối lượng tính toán, qua đó giải quyết được bài toán phân lớp phương tiện giao thông trong điều kiện áp dụng cho dòng giao thông hỗn hợp, có nhiều loại hình phương tiện với mật độ lớn như ở các thành phố lớn của Việt Nam. Đặc biệt là đáp ứng được nhu cầu xử lý ảnh từ camera giám sát giao thông theo thời gian thực. Từ khóa: Phát hiện và phân lớp phương tiện giao thông, Mạng nơ-ron tích chập, Kỹ thuật học sâu, Mạng R-CNN, Mạng YOLO 1. TỔNG QUAN Mạng nơ-ron tích chập CNNs là một trong những mô hình Deep Learning tiên tiến cho phép xây dựng được những hệ thống xử lý ảnh với độ chính xác cao bằng cách thiết lập các mối liên kết giữa các tầng của mạng dựa trên phép tích chập, cho phép tăng cường các đặc trưng được sử dụng để phân lớp các đối tượng. Phép tích chập (Convolution): Trong xử lý ảnh, tích chập là phép biến đổi ảnh dựa trên phép nhân ma trận được thực hiện theo công thức (1) nhằm tạo ra ảnh mới có một số đặc trưng được tăng cường. Trong đó, - g(x,y) là giá trị mức xám tại điểm (x,y) sau khi thực hiện phép tích chập - f(x,y) là giá trị mức xám tại điểm (x,y) ban đầu - k là hạt nhân tích chập (convolution kernel), là ma trận có kích thước (2a+1) x (2b+1), hoạt dộng như một bộ lọc (filter), lần lượt trượt qua từng điểm ảnh của ảnh gốc theo chiều từ trái sang phải, từ trên xuống dưới, mỗi bước dịch qua một điểm ảnh để tính giá -298- Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải trị tích chập của điểm ảnh gốc theo công thức (1). Kết quả của phép tích chập của một kernel với ma trận ảnh ban đầu sẽ là một ma trận ảnh có một số tính chất khác biệt với ảnh ban đầu. Ví dụ được mô tả trong [9] có thể làm mờ bức ảnh ban đầu bằng cách lấy giá trị trung bình của các điểm ảnh xung quanh cho điểm ảnh ở vị trí trung tâm bằng cách dùng bộ lọc như Hình 21 Hoặc ta có thể phát hiện biên ảnh bằng cách tính vi phân giữa các điểm ảnh lân cận nhờ sử dụng bộ lọc như trong Hình 22. Hình 21: Làm mờ ảnh bằng tích chập Hình 22: Phát hiện biên bằng tích chập Mạng nơ-ron tích chập CNNs gồm một số tầng (layer), trong đó tầng phía sau là tích chập của tầng liền kề phía trước với một bộ lọc nào đó. Bằng cách tích chập với các bộ lọc phù hợp và sử dụng các hàm kích hoạt phi tuyến (nonlinear activation function) như ReLU ta có thể tạo ra thông tin trừu tượng ở mức cao hơn cho các layer tiếp theo. Mạng nơ-ron tích chập CNNs đã được nghiên cứu và đề xuất vào những năm 1990 [7], nhưng việc triển khai các ứng dụng trong bài toán phân lớp đối tượng gặp nhiều khó khăn. Lý do là, để thực hiện phân lớp được nhiều đối tượng trên ảnh, đòi hỏi phải huấn luyện mô hình bằng các tập dữ liệu ảnh lớn, lên đến hàng triệu ảnh đã gán nhãn, trong khi đó, mô hình CNNs đòi hỏi khối lượng tính toán lớn dựa trên các phép tích chập. Với sự phát triển mạnh mẽ về phần cứng máy tính, cho ra đời các bộ xử lý đồ họa GPU (Graphical Processing Unit) tốc độ cao, được tối ưu hóa khi thực hiện các phép tích chập hai chiều. Cùng với ưu điểm của mô hình phân lớp SVM (Support Vector Machine). Năm 2012, Krizhevsky và các cộng sự [7].A đã khơi dậy mối quan tâm đối với mạng nơ-ron tích chập CNNs bằng việc huấn luyện mạng CNN dựa trên tập dữ liệu ảnh mẫu quy mô lớn tên là ImageNet lên đến 1.2 triệu hình ảnh đã được gán nhãn. Để thực hiện việc này, ông và các cộng sự đã đề xuất mô hình mạng nơ ron tích chập gồm có 8 lớp, trong đó có 5 lớp tích chập và 3 lớp kết nối đầy đủ (fully connected layer). Ngoài ra, ông và các cộng sự còn phải thiết kế -299- Hội nghị Khoa học công nghệ lần thứ XXII Trường Đại học Giao thông vận tải chương trình huấn luyện mạng để có thể thực hiện trên 02 GPU chạy song song. Mỗi GPU được giao thực hiện các phép tính toán độc lập, làm việc đồng thời và chỉ giao tiếp với nhau tại một số lớp nhất định. Hình 23 mô tả kiến trúc mạng nơ-ron tích chập CNN do Krizhevsky và các cộng sự đề xuất với 8 lớp được thiết kế để có thể sử dụng hai GPU huấn luyện đồng thời. Trong đó, GPU số 1 sẽ thực hiện các tính toán ở tầng bên trên, GPU số 2 sẽ thực hiện các tính toán ở tầng dưới. Hai GPU chỉ giao tiếp với nhau ở một số tầng nhất ...
Tìm kiếm theo từ khóa liên quan:
Phân lớp phương tiện giao thông Mạng nơ-ron tích chập Kỹ thuật học sâu Mạng R-CNN Công tác quản lý giao thôngTài liệu liên quan:
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 154 0 0 -
Giáo trình Nhận dạng và xử lý ảnh: Phần 2
137 trang 99 0 0 -
Nhận dạng tấm pin mặt trời bị lỗi dựa trên dữ liệu ảnh bằng trí tuệ nhân tạo
4 trang 67 0 0 -
Ứng dụng Teachable Machine trong nhận diện khuôn mặt theo thời gian thực
4 trang 65 0 0 -
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
8 trang 57 0 0 -
8 trang 51 0 0
-
Giáo trình Mạng nơ ron học sâu và ứng dụng: Phần 1
121 trang 50 0 0 -
Nhận dạng tín hiệu ra đa LPI sử dụng mạng nơ ron học sâu
6 trang 45 0 0 -
Nhận dạng vân tay sử dụng kỹ thuật học sâu
9 trang 45 0 0 -
Ứng dụng kỹ thuật học sâu trong hỗ trợ chẩn đoán bệnh viêm phổi thông qua ảnh chụp X-quang
11 trang 45 0 0