Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo
Số trang: 9
Loại file: pdf
Dung lượng: 1.07 MB
Lượt xem: 16
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất một mô hình học tăng cường sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot.
Nội dung trích xuất từ tài liệu:
Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo Nghiên cứu khoa học công nghệ NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TÌM KIẾM CỨU NẠN TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3, Phạm Quang Chiến3, Lại Phú Minh3 Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp giữa dữ liệu ảnh và tín hiệu sensor cho phép robot có khả năng di chuyển thông minh hơn so với một số hướng tiếp cận khác khi mà chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor. Bên cạnh đó, chúng tôi cũng đưa ra một hàm giá trị trong mô hình được đề xuất giúp cho việc học của robot nhanh và đồng thời chính xác hơn. Môi trường thực nghiệm được xây dựng trên nền môi trường mô phỏng thế giới thực 3-D Gazebo mã nguồn mở. Các kết quả thu được chỉ ra rằng mô hình DRL được đề xuất trong bài báo là có tính khả thi khi robot vượt qua được những môi trường kiểm thử khác nhau. Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm và cứu nạn; Thiết bị tự hành. 1. MỞ ĐẦU Học tăng cường (Reinforcement Learning hay RL) [1] là một lĩnh vực đã được thế giới nghiên cứu và phát triển từ lâu. Lịch sử phát triển của RL ban đầu được đi theo hai hướng độc lập. Trong đó, hướng thứ nhất phát triển theo phương pháp học dựa trên quá trình thử-sai “trial and error”; hướng thứ hai phát triển dựa trên cơ sở giải quyết các bài toán điều khiển tối ưu thông qua quy hoạch động và hàm giá trị (value function). Đến cuối những năm 1980, các hướng này được kết hợp lại với nhau và hình thành một ngành học mới mà hiện nay chúng ta gọi là RL. Trong những năm gần đây, chịu ảnh hưởng từ sự phát triển vượt bậc của AI nói chung và Deep learning (DL) [2] nói riêng, RL đã có những thành tựu mang tính chất bước ngoặt, có thể kể đến là sự ra đời của một hướng đi mới: Học tăng cường sâu (Deep Reinforcement Learning -DRL) [3]. DRL có thể nói là hoàn toàn tương tự như RL, điểm khác biệt duy nhất nằm ở việc ứng dụng DL trong RL. Trước đây, để tiến hành huấn luyện các mô hình của RL, các đại lượng biểu diễn trạng thái của môi trường (đóng vai trò mô tả môi trường, hoàn cảnh mà tác tử đang gặp phải) thường được xây dựng dựa vào kinh nghiệm của người phát triển. Rõ ràng, đối với môi trường có tính chất phức tạp, đa dạng, việc xây dựng các đại lượng này trở nên vô cùng khó khăn và khả năng xuất hiện thiếu sót là cao. Ngày nay, tận dụng khả năng tự học đặc trưng của DL, quá trình “mô tả” trạng thái của môi trường diễn ra hoàn toàn tự động và có độ tin cậy cao. Chính ưu điểm này đã đẩy RL nói chung lên một nấc thang mới, đồng thời tạo ra nhiều thành tựu, sản phẩm có tính đột phá, Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33 Công nghệ thông tin như: chương trình chơi cờ vây AlphaGo [4][5], các thiết bị bay hay dưới mặt đất không người lái (UAV) tự hành [6][7]. Bài toán tự hành tìm kiếm và cứu nạn đối tượng từ lâu đã là một trong các nhu cầu cần thiết đối với các hoạt động trong quân đội cũng như dân sự [8]. Đa phần công việc tìm kiếm phải diễn ra trong điều kiện môi trường phức tạp, gây nguy hiểm đến tính mạng con người. Do đó, việc nghiên cứu xây dựng các robot có khả năng hoạt động độc lập trong các điều kiện môi trường không biết trước là một yêu cầu cấp thiết hiện nay. Trong nội dung của bài báo, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) cho bài toán tự hành tìm kiếm và cứu nạn trong một môi trường có các chướng ngại vật. Môi trường thực nghiệm được xây dựng trên nền tảng mô phỏng 3- D Gazebo [9]. Các kết quả thu được chỉ ra rằng mô hình đề xuất của chúng tôi cho phép thiết bị tự hành có khả năng đi đến được đích trong các môi trường khác nhau. Bài báo được cấu trúc như sau: Mục 2 trình bày về cơ sở lý thuyết, mục 3 đề xuất mô hình thuật toán học tăng cường sâu, mục 4 thực nghiệm và kết quả đạt được, mục 5 là kết luận và hướng phát triển tiếp theo. 2. CƠ SỞ LÝ THUYẾT 2.1. Học tăng cường (Reinforcement learning - RL) Học tăng cường được sử dụng để tính toán các chiến lược hành v ...
Nội dung trích xuất từ tài liệu:
Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3-D Gazebo Nghiên cứu khoa học công nghệ NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TÌM KIẾM CỨU NẠN TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3, Phạm Quang Chiến3, Lại Phú Minh3 Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) là một yêu cầu rất cấp thiết ở trong và ngoài Quân đội. Trong những môi trường đặc thù, như trong trận chiến hay trong địa hình rừng núi phức tạp và nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới người cứu hộ, việc sử dụng các robot đang là một xu thế tất yếu trong các hoạt động TK-CN. Trong bài báo này, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển trên mặt đất trong bài toán TK-CN. Trong mô hình học tăng cường sâu chúng tôi đề xuất sử dụng dữ liệu ảnh từ camera và tín hiệu từ các sensors gắn trên robot. Việc kết hợp giữa dữ liệu ảnh và tín hiệu sensor cho phép robot có khả năng di chuyển thông minh hơn so với một số hướng tiếp cận khác khi mà chỉ dùng dữ liệu ảnh hoặc tín hiệu sensor. Bên cạnh đó, chúng tôi cũng đưa ra một hàm giá trị trong mô hình được đề xuất giúp cho việc học của robot nhanh và đồng thời chính xác hơn. Môi trường thực nghiệm được xây dựng trên nền môi trường mô phỏng thế giới thực 3-D Gazebo mã nguồn mở. Các kết quả thu được chỉ ra rằng mô hình DRL được đề xuất trong bài báo là có tính khả thi khi robot vượt qua được những môi trường kiểm thử khác nhau. Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm và cứu nạn; Thiết bị tự hành. 1. MỞ ĐẦU Học tăng cường (Reinforcement Learning hay RL) [1] là một lĩnh vực đã được thế giới nghiên cứu và phát triển từ lâu. Lịch sử phát triển của RL ban đầu được đi theo hai hướng độc lập. Trong đó, hướng thứ nhất phát triển theo phương pháp học dựa trên quá trình thử-sai “trial and error”; hướng thứ hai phát triển dựa trên cơ sở giải quyết các bài toán điều khiển tối ưu thông qua quy hoạch động và hàm giá trị (value function). Đến cuối những năm 1980, các hướng này được kết hợp lại với nhau và hình thành một ngành học mới mà hiện nay chúng ta gọi là RL. Trong những năm gần đây, chịu ảnh hưởng từ sự phát triển vượt bậc của AI nói chung và Deep learning (DL) [2] nói riêng, RL đã có những thành tựu mang tính chất bước ngoặt, có thể kể đến là sự ra đời của một hướng đi mới: Học tăng cường sâu (Deep Reinforcement Learning -DRL) [3]. DRL có thể nói là hoàn toàn tương tự như RL, điểm khác biệt duy nhất nằm ở việc ứng dụng DL trong RL. Trước đây, để tiến hành huấn luyện các mô hình của RL, các đại lượng biểu diễn trạng thái của môi trường (đóng vai trò mô tả môi trường, hoàn cảnh mà tác tử đang gặp phải) thường được xây dựng dựa vào kinh nghiệm của người phát triển. Rõ ràng, đối với môi trường có tính chất phức tạp, đa dạng, việc xây dựng các đại lượng này trở nên vô cùng khó khăn và khả năng xuất hiện thiếu sót là cao. Ngày nay, tận dụng khả năng tự học đặc trưng của DL, quá trình “mô tả” trạng thái của môi trường diễn ra hoàn toàn tự động và có độ tin cậy cao. Chính ưu điểm này đã đẩy RL nói chung lên một nấc thang mới, đồng thời tạo ra nhiều thành tựu, sản phẩm có tính đột phá, Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33 Công nghệ thông tin như: chương trình chơi cờ vây AlphaGo [4][5], các thiết bị bay hay dưới mặt đất không người lái (UAV) tự hành [6][7]. Bài toán tự hành tìm kiếm và cứu nạn đối tượng từ lâu đã là một trong các nhu cầu cần thiết đối với các hoạt động trong quân đội cũng như dân sự [8]. Đa phần công việc tìm kiếm phải diễn ra trong điều kiện môi trường phức tạp, gây nguy hiểm đến tính mạng con người. Do đó, việc nghiên cứu xây dựng các robot có khả năng hoạt động độc lập trong các điều kiện môi trường không biết trước là một yêu cầu cấp thiết hiện nay. Trong nội dung của bài báo, nhóm tác giả đề xuất một mô hình học tăng cường sâu (DRL) cho bài toán tự hành tìm kiếm và cứu nạn trong một môi trường có các chướng ngại vật. Môi trường thực nghiệm được xây dựng trên nền tảng mô phỏng 3- D Gazebo [9]. Các kết quả thu được chỉ ra rằng mô hình đề xuất của chúng tôi cho phép thiết bị tự hành có khả năng đi đến được đích trong các môi trường khác nhau. Bài báo được cấu trúc như sau: Mục 2 trình bày về cơ sở lý thuyết, mục 3 đề xuất mô hình thuật toán học tăng cường sâu, mục 4 thực nghiệm và kết quả đạt được, mục 5 là kết luận và hướng phát triển tiếp theo. 2. CƠ SỞ LÝ THUYẾT 2.1. Học tăng cường (Reinforcement learning - RL) Học tăng cường được sử dụng để tính toán các chiến lược hành v ...
Tìm kiếm theo từ khóa liên quan:
Học tăng cường sâu Tìm kiếm và cứu nạn Thiết bị tự hành Trí tuệ nhân tạo Mô hình DRLTài liệu liên quan:
-
Đề cương chi tiết học phần Trí tuệ nhân tạo
12 trang 448 0 0 -
7 trang 237 0 0
-
Kết quả bước đầu của ứng dụng trí tuệ nhân tạo trong phát hiện polyp đại tràng tại Việt Nam
10 trang 195 0 0 -
6 trang 179 0 0
-
Xu hướng và tác động của cách mạng công nghiệp lần thứ tư đến môi trường thông tin số
9 trang 168 0 0 -
9 trang 157 0 0
-
Tìm hiểu về Luật An ninh mạng (hiện hành): Phần 1
93 trang 152 0 0 -
Luận văn tốt nghiệp: Ứng dụng trí tuệ nhân tạo trong xây dựng GAME
0 trang 137 0 0 -
Xác lập tư cách pháp lý cho trí tuệ nhân tạo
6 trang 131 1 0 -
Chuyển đổi số: cơ sở và ứng dụng
18 trang 124 0 0