Nhận dạng và truy vấn đối tượng ba chiều với Ring View và Neural Embedding
Số trang: 5
Loại file: pdf
Dung lượng: 908.33 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài toán nhận dạng và truy vấn vật thể ba chiều (3D) dành được sự quan tâm. Trong công trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D bằng cách khai thác các hình chiếu 2D của vật thể 3D từ nhiều góc nhìn khác nhau. Tác giả khai thác tính thứ tự giữa các hình chiếu 2D trong một ring, trong khi không ép buộc tính thứ tự giữa tất cả các hình chiếu.
Nội dung trích xuất từ tài liệu:
Nhận dạng và truy vấn đối tượng ba chiều với Ring View và Neural EmbeddingGiải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DẠNG VÀ TRUY VẤN ĐỐI TƯỢNG BA CHIỀU VỚI RING VIEW VÀ NEURAL EMBEDDING Bùi Ngọc Minh*, Đỗ Trọng Lễ, Nguyễn Vinh Tiệp, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh *Tác giả liên lạc: bnminh@selab.hcmus.edu.vn TÓM TẮTBài tóa n nhận dạng và truy vấn vật thể ba chiều (3D) dành được sự quan tâm.Trong công trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D bằngcách khai thác các hình chiếu 2D của vật thể 3D từ nhiều góc nhìn khác nhau.Tác giả khai thác tính thứ tự giữa các hình chiếu 2D trong một ring, trong khikhông ép buộc tính thứ tự giữa tất cả các hình chiếu. Với cấu trúc Ring View đãđược định nghĩa, chúng tôi đề xuất một mạng neural network để phân lớp các vậtthể 3D. Phương pháp được đề xuất không chỉ giới hạn cho các đối tượng 3D toànvẹn, mà cũng có thể phân lớp những đối tượng không toàn vẹn, thường bắt gặptừ dữ liệu thu thập bởi robot. Tác giả thí nghiệm với tập dữ liệu từ cuộc thiSHREC 2017 và 2018, phần “RGB-D to CAD retrieval”, cũng như với tập dữliệu ModelNet40. Phương pháp đề xuất đạt độ chính xác truy vấn mAP 85.5%trong tập dữ liệu từ SHREC 2017, 85.4% trong tập dữ liệu từ SHREC 2018 và91.13% trong tập dữ liệu ModelNet40, tương đương với các công trình liên quantrong lĩnh vực.Từ khóa: Máy học, thị giác máy tính 3D, nhận dạng đối tượng, truy vấn đốitượng. 3D OBJECT CLASSIFICATION AND RETRIEVAL WITH RING VIEW AND NEURAL EMBEDDING Bui Ngoc Minh*, Do Trong Le, Nguyen Vinh Tiep, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: bnminh@selab.hcmus.edu.vn ABSTRACTThe problem of 3D object classification and retrieval has attracted lot ofattention. In this work, we propose a method to recognize 3D object by exploitingthe 2D projections of the 3D objects from different viewpoints. We based on thetopological combination between views in a ring, which has several views, whilewe do not enforce the topological relationship between of all views. With thepredefined structure of view-rings, we propose a neural network to classify the3D objects. The proposed method is not limited to recognize complete 3D objects,but has the ability to classify even incomplete objects, which are commonlycaptured by moving robots. We experiment our method with datasets from theSHREC2017 and SHREC2018 competition, track RGB-D to CAD retrieval, alsowith the ModelNet40 dataset. We achieve the mAP retrieval score of 85.5% onthe dataset from SHREC2017, 85.4% on the dataset from SHREC2018 and91.13% on the ModelNet40 dataset, which are comparable with another worksin the field.Keywords: Machine learning, 3D vision, object classification, object retrieval. 185Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa họcTỔNG QUAN Phương pháp truyền thống trong việcLĩnh vực thị giác máy tính ba chiều mô tả một đối tượng ảnh ba chiều là sửđang là một chủ đề được quan tâm dụng các đặc trưng truyền thống thiếtnhiều hơn bởi sự xuất hiện của các thiết kế bởi con người. Phân loại đối tượngbị, cảm biến thu thập dữ liệu thông tin 3D dựa trên nhóm phương pháp nàyba chiều và những nhu cầu thực tế yêu cũng bao gồm các thao tác chính: phátcầu máy tính hiểu và sử dụng được dữ hiện keypoint, trích xuất đặc trưng vàliệu ba chiều như thực tại tăng cường, phân lớp dựa trên đặc trưng đã tríchthực tại ảo, xe tự lái, robot giao hàng, xuất. Các phương pháp thuộc nhómsiêu thị tự động, chứng thực bằng này có ưu điểm là có thể thực thikhuôn mặt ba chiều,v.v… nhanh, không cần nhiều dữ liệu mẫu,Yêu cầu của bài tóa n nhận dạng đối tuy nhiên có thể không đủ tổng quát vàtượng ba chiều là, đầu vào là thông tin tốt để nhận dạng dữ liệu. Các phươngvật thể ba chiều, phân lớp hoặc gán pháp được áp dụng thành công nhưnhãn phù hợp cho vật thể đó. Mục tiêu Point Feature Histograms, Fast Pointcủa hệ thống truy vấn thông tin là tìm Feature Histograms, RoPS.kiếm những mẫu thông tin có liên quan Các phương pháp tiếp cận sử dụnghoặc tương tự với thông tin mà người mạng Neural network - Deepdùng cần tìm kiếm. LearningTrong đề tài này, nhóm tác giả tiếp cận Dựa trên dữ liệu voxel. 3D ShapeNetslĩnh vực truy vấn thông tin ba chiều và VoxNet (Maturana et al., 2015),cross-domain dựa trên kết quả của việc Volumetric and Multi-View CNNs lànhận dạng đối tượng 3D. Nhóm tác ...
Nội dung trích xuất từ tài liệu:
Nhận dạng và truy vấn đối tượng ba chiều với Ring View và Neural EmbeddingGiải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DẠNG VÀ TRUY VẤN ĐỐI TƯỢNG BA CHIỀU VỚI RING VIEW VÀ NEURAL EMBEDDING Bùi Ngọc Minh*, Đỗ Trọng Lễ, Nguyễn Vinh Tiệp, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh *Tác giả liên lạc: bnminh@selab.hcmus.edu.vn TÓM TẮTBài tóa n nhận dạng và truy vấn vật thể ba chiều (3D) dành được sự quan tâm.Trong công trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D bằngcách khai thác các hình chiếu 2D của vật thể 3D từ nhiều góc nhìn khác nhau.Tác giả khai thác tính thứ tự giữa các hình chiếu 2D trong một ring, trong khikhông ép buộc tính thứ tự giữa tất cả các hình chiếu. Với cấu trúc Ring View đãđược định nghĩa, chúng tôi đề xuất một mạng neural network để phân lớp các vậtthể 3D. Phương pháp được đề xuất không chỉ giới hạn cho các đối tượng 3D toànvẹn, mà cũng có thể phân lớp những đối tượng không toàn vẹn, thường bắt gặptừ dữ liệu thu thập bởi robot. Tác giả thí nghiệm với tập dữ liệu từ cuộc thiSHREC 2017 và 2018, phần “RGB-D to CAD retrieval”, cũng như với tập dữliệu ModelNet40. Phương pháp đề xuất đạt độ chính xác truy vấn mAP 85.5%trong tập dữ liệu từ SHREC 2017, 85.4% trong tập dữ liệu từ SHREC 2018 và91.13% trong tập dữ liệu ModelNet40, tương đương với các công trình liên quantrong lĩnh vực.Từ khóa: Máy học, thị giác máy tính 3D, nhận dạng đối tượng, truy vấn đốitượng. 3D OBJECT CLASSIFICATION AND RETRIEVAL WITH RING VIEW AND NEURAL EMBEDDING Bui Ngoc Minh*, Do Trong Le, Nguyen Vinh Tiep, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: bnminh@selab.hcmus.edu.vn ABSTRACTThe problem of 3D object classification and retrieval has attracted lot ofattention. In this work, we propose a method to recognize 3D object by exploitingthe 2D projections of the 3D objects from different viewpoints. We based on thetopological combination between views in a ring, which has several views, whilewe do not enforce the topological relationship between of all views. With thepredefined structure of view-rings, we propose a neural network to classify the3D objects. The proposed method is not limited to recognize complete 3D objects,but has the ability to classify even incomplete objects, which are commonlycaptured by moving robots. We experiment our method with datasets from theSHREC2017 and SHREC2018 competition, track RGB-D to CAD retrieval, alsowith the ModelNet40 dataset. We achieve the mAP retrieval score of 85.5% onthe dataset from SHREC2017, 85.4% on the dataset from SHREC2018 and91.13% on the ModelNet40 dataset, which are comparable with another worksin the field.Keywords: Machine learning, 3D vision, object classification, object retrieval. 185Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa họcTỔNG QUAN Phương pháp truyền thống trong việcLĩnh vực thị giác máy tính ba chiều mô tả một đối tượng ảnh ba chiều là sửđang là một chủ đề được quan tâm dụng các đặc trưng truyền thống thiếtnhiều hơn bởi sự xuất hiện của các thiết kế bởi con người. Phân loại đối tượngbị, cảm biến thu thập dữ liệu thông tin 3D dựa trên nhóm phương pháp nàyba chiều và những nhu cầu thực tế yêu cũng bao gồm các thao tác chính: phátcầu máy tính hiểu và sử dụng được dữ hiện keypoint, trích xuất đặc trưng vàliệu ba chiều như thực tại tăng cường, phân lớp dựa trên đặc trưng đã tríchthực tại ảo, xe tự lái, robot giao hàng, xuất. Các phương pháp thuộc nhómsiêu thị tự động, chứng thực bằng này có ưu điểm là có thể thực thikhuôn mặt ba chiều,v.v… nhanh, không cần nhiều dữ liệu mẫu,Yêu cầu của bài tóa n nhận dạng đối tuy nhiên có thể không đủ tổng quát vàtượng ba chiều là, đầu vào là thông tin tốt để nhận dạng dữ liệu. Các phươngvật thể ba chiều, phân lớp hoặc gán pháp được áp dụng thành công nhưnhãn phù hợp cho vật thể đó. Mục tiêu Point Feature Histograms, Fast Pointcủa hệ thống truy vấn thông tin là tìm Feature Histograms, RoPS.kiếm những mẫu thông tin có liên quan Các phương pháp tiếp cận sử dụnghoặc tương tự với thông tin mà người mạng Neural network - Deepdùng cần tìm kiếm. LearningTrong đề tài này, nhóm tác giả tiếp cận Dựa trên dữ liệu voxel. 3D ShapeNetslĩnh vực truy vấn thông tin ba chiều và VoxNet (Maturana et al., 2015),cross-domain dựa trên kết quả của việc Volumetric and Multi-View CNNs lànhận dạng đối tượng 3D. Nhóm tác ...
Tìm kiếm theo từ khóa liên quan:
Thị giác máy tính 3D Nhận dạng đối tượng Truy vấn đối tượng Truy vấn vật thể ba chiều Tập dữ liệu ModelNet40Gợi ý tài liệu liên quan:
-
Xây dựng công cụ nhận dạng khuôn mặt theo thời gian thực hiện trên nền hệ điều hành mã nguồn mỡ
7 trang 212 0 0 -
Độ chính xác nhận dạng trong mô hình Faster R-CNN khi có nhiễu
5 trang 60 0 0 -
Nghiên cứu tìm hiểu thuật toán học máy Adaboost và ứng dụng trong phát hiện và nhận diện biển số xe
8 trang 17 0 0 -
Các bước cơ bản thực hiện quá trình nhận dạng
22 trang 17 0 0 -
Nhận dạng đối tượng phi tuyến động trên cơ sở mạng neural nhân tạo
15 trang 16 0 0 -
Ứng dụng công nghệ AI trong bảo vệ nhà yến từ động vật săn mồi
8 trang 12 0 0 -
Ước lượng tốc độ luồng giao thông trên video giao thông sử dụng YOLOv8 và ByteTrack
9 trang 10 0 0 -
Mô hình học thích ứng: Một hướng tiếp cận nhằm nâng cao chất lượng nhận dạng đối tượng
10 trang 9 0 0