Nghiên cứu bài toán tránh vật cản cho rô bốt tự hành trên cơ sở ứng dụng học sâu tăng cường DQN

Số trang: 9 Loại file: pdf Dung lượng: 614.37 KB Lượt xem: 8 Lượt tải: 0

tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 5,000 VND

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày việc giải quyết bài toán thông qua dự báo hành vi và kỹ thuật học sâu tăng cường QDN (Deep Q learning). Robot tự hành trong nghiên cứu là loại robot có 2 bánh xe chủ động điều khiển độc lập. Các kết quả thu được chứng tỏ tính hiệu quả của hướng tiếp cận, robot có thể dự đoán hành vi của vật cản dựa trên bộ nhớ hành vi trước đó mà không cần mô hình hóa robot.
Nội dung trích xuất từ tài liệu:
Nghiên cứu bài toán tránh vật cản cho rô bốt tự hành trên cơ sở ứng dụng học sâu tăng cường DQN Kỹ thuật Điều khiển – Tự động hóa NGHIÊN CỨU BÀI TOÁN TRÁNH VẬT CẢN CHO RÔ BỐT TỰ HÀNH TRÊN CƠ SỞ ỨNG DỤNG HỌC SÂU TĂNG CƯỜNG DQN Đỗ Nam Thắng1*, Phạm Trung Dũng2, Nguyễn Quang Hùng1 Tóm tắt: Bài toán tránh vật cản động cho robot tự hành trên cơ sở ứng dụng các công cụ trí tuệ nhân tạo là một hướng nghiên cứu thuộc lĩnh vực điều khiển robot thông minh. Trong bài báo này, chúng tôi giải quyết bài toán thông qua dự báo hành vi và kỹ thuật học sâu tăng cường QDN (Deep Q learning). Robot tự hành trong nghiên cứu là loại robot có 2 bánh xe chủ động điều khiển độc lập. Các kết quả thu được chứng tỏ tính hiệu quả của hướng tiếp cận, robot có thể dự đoán hành vi của vật cản dựa trên bộ nhớ hành vi trước đó mà không cần mô hình hóa robot. Từ khóa: Robot tự hành; Tránh va chạm chủ động; Thuật toán DQN; Turtlebot3. 1. GIỚI THIỆU Các phương pháp tránh chướng ngại vật cục bộ luôn hoạt động bằng cách tính toán hướng cho robot đi vào nhưng không tính đến động lực học của robot. Ví dụ: các cách tiếp cận Trường thế năng [1, 8] sử dụng tổng các vectơ đặc trưng của lực hút và lực đẩy để tính toán mục tiêu robot mong muốn. Việc kiểm soát tốc độ được thực hiện bằng cách chọn vận tốc tỷ lệ với độ lớn của vectơ thế năng. Phương pháp Biểu đồ trường Vector [2] cải thiện phương pháp này bằng cách tính toán biểu đồ cực một chiều, sau đó được xử lý để phát hiện các khu vực mở để robot di chuyển qua. Vận tốc của robot, được chọn sau khi đã chọn hướng, tỷ lệ thuận với khoảng cách đến chướng ngại vật phía trước. Mặc dù phương pháp này tạo ra sự di chuyển mượt mà hơn và có thể xử lý cả các khe hẹp và rộng nhưng giống như phương pháp Trường thế năng, không tính đến thực tế là khi robot quay chúng thường di chuyển dọc theo các cung, thay vì theo đường thẳng. Trong môi trường lộn xộn, động lực học robot có thể rất quan trọng. Trong khi các phương pháp tính đến động lực học của robot đã được nghiên cứu trong bối cảnh lập kế hoạch lộ trình ngoại tuyến [4, 9], các phương pháp này thường quá tốn kém về mặt tính toán để tránh chướng ngại vật cục bộ nhanh. Tuy nhiên, gần đây, một số phương pháp tránh chướng ngại vật cục bộ đã kết hợp động lực học của xe, chọn các lệnh lái thay vì hướng di chuyển. Phương pháp Trường góc lái [5] sử dụng các đường cong tiếp tuyến với các chướng ngại vật để hạn chế một không gian liên tục (trong trường hợp này đó là không gian một chiều của các góc lái). Độ cong và khoảng cách vòng cung liên quan được sử dụng để cấm di chuyển trên phạm vi góc lái. Phương pháp tính toán các ràng buộc cho một số ngưỡng khoảng cách và cố gắng di chuyển dọc theo chiều tự do nhất. Một phương pháp tương tự cho điều hướng trong nhà tốc độ cao hoạt động trong không gian vận tốc đã được phát triển sớm hơn một chút nhưng độc lập [3]. Phương pháp này xem xét một tập hợp các vòng cung riêng biệt, bị hạn chế bởi động lực học của xe và chọn một vòng quay gần nhất theo hướng mục tiêu, trong khi đảm bảo rằng robot không gặp chướng ngại vật trong vài giây di chuyển tiếp theo. Phương pháp này đầu tiên sử dụng cách tiếp cận hai bước để chọn độ cong và vận tốc; Sau đó, áp dụng phương pháp một bước để đồng thời chọn độ cong và vận tốc [6]. Một cách tiếp cận tương tự đã được phát triển cho điều hướng ngoài trời [7]. Ở đây, động lực học của xe được xem xét một cách đầy đủ, do đó, đường dẫn không nhất thiết phải là một vòng cung tròn, một phép đo khả năng di chuyển được tính cho mỗi đường và đường có giá trị tốt nhất được chọn. Cả hai phương pháp này đều có một vấn đề là khi chỉ phân tích một tập hợp các cung tròn rời rạc, các đường dẫn tốt có thể rơi vào các vết nứt và không được xem xét. 48 Đ. N. Thắng, P. T. Dũng, N. Q. Hùng, “Nghiên cứu bài toán … học sâu tăng cường DQN.” Nghiên cứu khoa học công nghệ Phương pháp vận tốc cong (CVM - Curvature-Velocity Method) để tránh chướng ngại vật cục bộ coi vấn đề trên như một bài toán tối ưu hóa bị hạn chế trong không gian vận tốc của robot [10]. Ưu điểm của phương pháp nghiên cứu này là khả năng kiểm soát đồng thời tốc độ và hướng mục tiêu của robot, dễ dàng kết hợp các ràng buộc từ cả môi trường và động lực học của robot và khả năng xử lý sự đánh đổi giữa tốc độ, an toàn và vô hướng. CVM đạt được hiệu suất thời gian thực bằng cách xấp xỉ khoảng cách robot có thể di chuyển dọc theo một độ cong nhất định trước khi gặp chướng ngại vật. Phép tính gần đúng là một hàm không đổi, được xác định bởi các đường cong tiếp tuyến với các chướng ngại vật. Các hạn chế vận tốc bổ sung được thêm vào dựa trên các giới hạn vật lý của robot và mong muốn tránh xa chướng ngại vật, hoặc ít nhất là di chuyển chậm khi vượt qua các chướng ngại vật gần đó. Trong những năm gần đây, thuật toán DQN (Deep Q Learning) đã được phát triển và áp dụng vào nhiều lĩnh vực khác nhau, trong đó có bài toán dẫn hướng cho robot. Trong nghiên cứu này, chúng tôi ứng dụng thuật toán DQN để điều khiển mô hình robot tự hành tránh vật cản dạng bánh xe, với hai bánh chủ động điều khiển độc lập. Bài báo được trình bày theo thứ tự sau: Phần 1 giới thiệu các nghiên cứu trước đó; Phần 2 trình bày thuật toán DQN trong bài toán tránh vật cản; Phần 3 trình bày mô phỏng và đánh giá hiệu quả thuật toán; Cuối cùng, kết luận được trình bày trong phần 4. 2. THUẬT TOÁN DQN TRONG BÀI TOÁN TRÁNH VẬT CẢN 2.1. Q – Learning Để robot biết chọn hành động nào để đạt phần thưởng lớn nhất, người ta sử dụng một giá trị Q được tính như sau: Q(s, a) = r (s, a) + γmax Q(s ’, a), trong đó: Q(s, a) là Q khi thực hiện hành động a ở trạng thái s; r(s, a) là phần thưởng nhận được; s’ là trạng thái kế tiếp; γ là hệ số khấu hao, đảm bảo càng xa đích Q càng nhỏ. Với công thức này, chúng ta có thể tạo ra mộ ...