Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi
Số trang: 5
Loại file: pdf
Dung lượng: 392.82 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết trình bày nhận dạng cử chỉ tay bằng mạng tích chập (CNN) kết hợp với học chuyển đổi để nâng cao độ chính xác. Mục tiêu là nhận dạng 17 cử chỉ tay trong tập dữ liệu của nhóm tác giả Xiao Sun, Yichen Wei, Shuang Liang, Xiaoou Tang và Jian Sun, CVPR 2015, và nâng cao độ chính xác nhận dạng. Chúng tôi huấn luyện một mạng tích chập mới bằng cách học kế thừa từ mạng Google Net.
Nội dung trích xuất từ tài liệu:
Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi Tuyển tập Hội nghị khoa học toàn quốc lần thứ nhất về Động lực học và Điều khiển Đà Nẵng, ngày 19-20/7/2019, tr. 147-151, DOI 10.15625/vap.2019000271 Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi Nguyễn Hoài Nam, Đặng Thanh Hải và Trần Gia Khánh Bộ môn Điều khiển tự động, Viện Điện, Đại học Bách khoa Hà Nội Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Hà Nội, Việt Nam E-mail: nam.nguyenhoai@hust.edu.vn Tóm tắt 2. Học sâu Trong bài báo này, chúng tôi sẽ nhận dạng cử chỉ tay bằng Học sâu là một nhánh của học máy dựa trên việc mạng tích chập (CNN) kết hợp với học chuyển đổi để nâng cao học các dữ liệu đại diện, trái ngược với các thuật toán cụ độ chính xác. Mục tiêu là nhận dạng 17 cử chỉ tay trong tập dữ thể theo nhiệm vụ. Việc học có thể là học giám sát, bán liệu của nhóm tác giả Xiao Sun, Yichen Wei, Shuang Liang, giám sát hoặc không giám sát. Xiaoou Tang và Jian Sun, CVPR 2015, và nâng cao độ chính Các mô hình học sâu được lấy cảm hứng từ các mô xác nhận dạng. Chúng tôi huấn luyện một mạng tích chập mới hình xử lý thông tin và giao tiếp trong các hệ thống bằng cách học kế thừa từ mạng Google Net. Toàn bộ việc huấn nơron sinh học nhưng có sự khác biệt khác nhau từ các luyện và kiếm tra mạng được thực hiện với tập dữ liệu được đặc tính cấu trúc và chức năng của bộ não sinh học (đặc chia sẻ công khai. Chúng tôi thấy rằng, mạng tích chập được biệt là bộ não con người). học chuyển đổi từ mạng đã được huấn luyện sẽ có khả năng Cấu trúc của học sâu thường được xây dựng cùng nhận dạng cử chỉ tay tốt hơn. Không những thế, học kế thừa với phương pháp lớp chồng lớp. Học sâu giúp tháo gỡ giúp giảm tài nguyên cần phải sử dụng, và tăng tốc độ học. những khái niệm trừu tượng này và chọn ra những đặc Từ khóa: CNN, tích chập, Deep Learning, Nhận dạng cử chỉ điểm cần thiết cho việc học. tay, mạng nơron. Trong học sâu, mỗi mức học cách chuyển đổi dữ liệu đầu vào của nó thành một đại diện tóm lược hơn một 1. Mở đầu chút. Trong ứng dụng nhận dạng hình ảnh, đầu vào thô có thể là một ma trận các điểm ảnh; lớp đại diện đầu tiên Con người hoàn toàn có khả năng nhận biết được có thể tóm lược các điểm ảnh và mã hóa các cạnh. Lớp những cử chỉ tay, cùng với những quyết định tiếp theo thứ 2 có thể tổng hợp và mã hóa sự sắp xếp của các cạnh. có thể đưa ra. Sau một thời gian học, chúng ta có thể Lớp thứ 3 có thể mã hóa mũi và mắt, và lớp thứ tư có giao tiếp gần như dễ dàng bằng cử chỉ tay. Trong thời thể nhận ra rằng hình ảnh chứa một khuôn mặt. Quan gian gần đây, nhiều nghiên cứu quan trọng đã được tiến trọng, một quá trình học sâu có thể tìm hiểu các đặc điểm hành trong việc phát triển các máy có khả năng phân loại để tối ưu hóa ở cấp độ cao. Tất nhiên, điều này không hình ảnh được chụp bằng cử chỉ tay vào các danh mục hoàn toàn làm giảm nhu cầu điều chỉnh bằng tay; ví dụ, được xem xét. Những hệ thống như vậy đã được tìm thấy số lượng lớp và kích cỡ lớp khác nhau có thể cung cấp các ứng dụng trong điều khiển trò chơi và điện tử, điều mức độ tích hợp khác nhau. khiển robot, môi trường thực tế ảo và giao tiếp ngôn ngữ tự nhiên. Trong nhiều công việc, việc nhận ra cử chỉ tay 3. Mạng tích chập tĩnh dựa trên cử chỉ quan trọng hoặc khác biệt tương đối Mạng tích chập – Convolutional neural networks giữa các cử chỉ, vì rõ ràng là một số cử chỉ tay khá giống (CNN) là công cụ được sử dụng rộng rãi đối với học sâu. nhau khi xem ở chế độ 2D. Do đó, tập hợp các dấu hiệu Nó đặc biệt thích hợp cho việc sử dụng hình ảnh làm đầu cử chỉ tay được tìm thấy trong cơ sở dữ liệu được trích vào mặc dù nó cũng được sử dụng cho các ứng dụng xuất cho nhiệm vụ nhận biết. Tuy nhiên, các đặc điểm khác như chữ viết, tín hiệu và các phản hồi liên tục khác. phân biệt nhỏ có mặt trong tất cả các cử chỉ, có thể được Tuy nhiên, trường hợp sử dụng cơ bản và phổ biến nhất cảm nhận bởi con người. Khả năng của các hệ thống của các mạng này là để nhận dạng hình ảnh. tương tác người – máy để mở rộng vốn từ vựng bằng Một mạng tích chập có nhiều lớp như là lớp tích cách có khả năng nhận ra nhiều cử chỉ tay hơn là rất quan chập, lớp max-pooling hoặc average-pooling, và lớp liên trọng, vì điều này cho phép mở rộng ở cấp độ của giao kết đủ [1]. Với một hình ảnh đầu vào, lớp đầu tiên của tiếp và điều khiển. mạng sẽ xác định kích thước tương ứng như chiều dài, chiều rộng và số kênh màu. Các nơron trong mỗi lớp tích Trong bài báo này, chúng tôi áp dụng học sâu, dựa chập sẽ học các đặc điểm trong ảnh. Đầu ra của một lớp trên mạng tích chập với học chuyển đổi sử dụng mạng tích chập là một bản đồ đặc trưng và là đầu vào của lớp GoogleNet để thực hiện nhiệm vụ phân loại 17 cử chỉ ...
Nội dung trích xuất từ tài liệu:
Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi Tuyển tập Hội nghị khoa học toàn quốc lần thứ nhất về Động lực học và Điều khiển Đà Nẵng, ngày 19-20/7/2019, tr. 147-151, DOI 10.15625/vap.2019000271 Nâng cao chất lượng hệ thống nhận dạng cử chỉ tay sử dụng mạng tích chập với học chuyển đổi Nguyễn Hoài Nam, Đặng Thanh Hải và Trần Gia Khánh Bộ môn Điều khiển tự động, Viện Điện, Đại học Bách khoa Hà Nội Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Hà Nội, Việt Nam E-mail: nam.nguyenhoai@hust.edu.vn Tóm tắt 2. Học sâu Trong bài báo này, chúng tôi sẽ nhận dạng cử chỉ tay bằng Học sâu là một nhánh của học máy dựa trên việc mạng tích chập (CNN) kết hợp với học chuyển đổi để nâng cao học các dữ liệu đại diện, trái ngược với các thuật toán cụ độ chính xác. Mục tiêu là nhận dạng 17 cử chỉ tay trong tập dữ thể theo nhiệm vụ. Việc học có thể là học giám sát, bán liệu của nhóm tác giả Xiao Sun, Yichen Wei, Shuang Liang, giám sát hoặc không giám sát. Xiaoou Tang và Jian Sun, CVPR 2015, và nâng cao độ chính Các mô hình học sâu được lấy cảm hứng từ các mô xác nhận dạng. Chúng tôi huấn luyện một mạng tích chập mới hình xử lý thông tin và giao tiếp trong các hệ thống bằng cách học kế thừa từ mạng Google Net. Toàn bộ việc huấn nơron sinh học nhưng có sự khác biệt khác nhau từ các luyện và kiếm tra mạng được thực hiện với tập dữ liệu được đặc tính cấu trúc và chức năng của bộ não sinh học (đặc chia sẻ công khai. Chúng tôi thấy rằng, mạng tích chập được biệt là bộ não con người). học chuyển đổi từ mạng đã được huấn luyện sẽ có khả năng Cấu trúc của học sâu thường được xây dựng cùng nhận dạng cử chỉ tay tốt hơn. Không những thế, học kế thừa với phương pháp lớp chồng lớp. Học sâu giúp tháo gỡ giúp giảm tài nguyên cần phải sử dụng, và tăng tốc độ học. những khái niệm trừu tượng này và chọn ra những đặc Từ khóa: CNN, tích chập, Deep Learning, Nhận dạng cử chỉ điểm cần thiết cho việc học. tay, mạng nơron. Trong học sâu, mỗi mức học cách chuyển đổi dữ liệu đầu vào của nó thành một đại diện tóm lược hơn một 1. Mở đầu chút. Trong ứng dụng nhận dạng hình ảnh, đầu vào thô có thể là một ma trận các điểm ảnh; lớp đại diện đầu tiên Con người hoàn toàn có khả năng nhận biết được có thể tóm lược các điểm ảnh và mã hóa các cạnh. Lớp những cử chỉ tay, cùng với những quyết định tiếp theo thứ 2 có thể tổng hợp và mã hóa sự sắp xếp của các cạnh. có thể đưa ra. Sau một thời gian học, chúng ta có thể Lớp thứ 3 có thể mã hóa mũi và mắt, và lớp thứ tư có giao tiếp gần như dễ dàng bằng cử chỉ tay. Trong thời thể nhận ra rằng hình ảnh chứa một khuôn mặt. Quan gian gần đây, nhiều nghiên cứu quan trọng đã được tiến trọng, một quá trình học sâu có thể tìm hiểu các đặc điểm hành trong việc phát triển các máy có khả năng phân loại để tối ưu hóa ở cấp độ cao. Tất nhiên, điều này không hình ảnh được chụp bằng cử chỉ tay vào các danh mục hoàn toàn làm giảm nhu cầu điều chỉnh bằng tay; ví dụ, được xem xét. Những hệ thống như vậy đã được tìm thấy số lượng lớp và kích cỡ lớp khác nhau có thể cung cấp các ứng dụng trong điều khiển trò chơi và điện tử, điều mức độ tích hợp khác nhau. khiển robot, môi trường thực tế ảo và giao tiếp ngôn ngữ tự nhiên. Trong nhiều công việc, việc nhận ra cử chỉ tay 3. Mạng tích chập tĩnh dựa trên cử chỉ quan trọng hoặc khác biệt tương đối Mạng tích chập – Convolutional neural networks giữa các cử chỉ, vì rõ ràng là một số cử chỉ tay khá giống (CNN) là công cụ được sử dụng rộng rãi đối với học sâu. nhau khi xem ở chế độ 2D. Do đó, tập hợp các dấu hiệu Nó đặc biệt thích hợp cho việc sử dụng hình ảnh làm đầu cử chỉ tay được tìm thấy trong cơ sở dữ liệu được trích vào mặc dù nó cũng được sử dụng cho các ứng dụng xuất cho nhiệm vụ nhận biết. Tuy nhiên, các đặc điểm khác như chữ viết, tín hiệu và các phản hồi liên tục khác. phân biệt nhỏ có mặt trong tất cả các cử chỉ, có thể được Tuy nhiên, trường hợp sử dụng cơ bản và phổ biến nhất cảm nhận bởi con người. Khả năng của các hệ thống của các mạng này là để nhận dạng hình ảnh. tương tác người – máy để mở rộng vốn từ vựng bằng Một mạng tích chập có nhiều lớp như là lớp tích cách có khả năng nhận ra nhiều cử chỉ tay hơn là rất quan chập, lớp max-pooling hoặc average-pooling, và lớp liên trọng, vì điều này cho phép mở rộng ở cấp độ của giao kết đủ [1]. Với một hình ảnh đầu vào, lớp đầu tiên của tiếp và điều khiển. mạng sẽ xác định kích thước tương ứng như chiều dài, chiều rộng và số kênh màu. Các nơron trong mỗi lớp tích Trong bài báo này, chúng tôi áp dụng học sâu, dựa chập sẽ học các đặc điểm trong ảnh. Đầu ra của một lớp trên mạng tích chập với học chuyển đổi sử dụng mạng tích chập là một bản đồ đặc trưng và là đầu vào của lớp GoogleNet để thực hiện nhiệm vụ phân loại 17 cử chỉ ...
Tìm kiếm theo từ khóa liên quan:
Động lực học và Điều khiển Nhận dạng cử chỉ tay Mạng tích chập Mạng Google Net Mô hình học sâuTài liệu liên quan:
-
69 trang 178 0 0
-
7 trang 166 0 0
-
Đề cương môn học Động lực học và điều khiển (Dynamic Systems and Control)
8 trang 84 0 0 -
Thiết kế và chế tạo cánh tay robot 5 bậc tự do ứng dụng xử lý ảnh để phân loại vật thể
7 trang 62 0 0 -
Xử lý vi phạm vượt đèn đỏ và dừng đỗ sai dựa trên học sâu
5 trang 54 0 0 -
Bài giảng Học sâu và ứng dụng - Bài 3: Giới thiệu về mạng tích chập (Conv Neural Networks)
48 trang 35 0 0 -
Ứng dụng học sâu trong nhận dạng cử chỉ tay
6 trang 33 0 0 -
Tái tạo mô hình 3D của đối tượng từ ảnh phác thảo 2.5D
6 trang 30 0 0 -
Liveness Detection và ứng dụng trong bài toán nhận diện khuôn mặt
4 trang 29 0 0 -
Nhận dạng ngôn ngữ ký hiệu tiếng Việt trong video bằng LSTM và I3D đa khối
9 trang 28 0 0