Danh mục

Một giải pháp cài đặt đơn giản cho thuật toán điều khiển tối ưu thích nghi

Số trang: 11      Loại file: pdf      Dung lượng: 1.01 MB      Lượt xem: 18      Lượt tải: 0    
Thư viện của tui

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện trong thuật toán.
Nội dung trích xuất từ tài liệu:
Một giải pháp cài đặt đơn giản cho thuật toán điều khiển tối ưu thích nghiNghiên cứu khoa học công nghệ MỘT GIẢI PHÁP CÀI ĐẶT ĐƠN GIẢN CHO THUẬT TOÁN ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI Nguyễn Doãn Phước*, Trịnh Hoàng Minh, Nguyễn Hoài Nam Tóm tắt: Bài báo giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện trong thuật toán. Giải pháp của bài báo được triển khai cho cả học thích nghi trực tuyến và học thích nghi ngoại tuyến. Các kết quả mô phỏng sau đó đã xác nhận tính áp dụng được của giải pháp này.Từ khóa: Điều khiển thông minh; Điều khiển học tăng cường; Phương pháp biến phân; Quy hoạch động. 1. ĐẶT VẤN ĐỀ Trong những năm gần đây, khái niệm “Điều khiển thông minh” được nói đến rất nhiềuvà gần như trở thành một xu thế, thành “mốt” của thời đại 4.0. Dưới tên gọi điều khiểnthông minh là một nhóm các phương pháp, như điều khiển mờ, điều khiển bằng mạngneural, điều khiển học lặp, điều khiển học tăng cường [1],... Điểm chung của các phươngpháp điều khiển thông minh này là ở đó, các thông tin động học cần thiết cho việc phântích và thiết kế bộ điều khiển, sẽ không cần phải lấy từ mô hình toán của đối tượng, thayvào đó là từ các dữ liệu quá khứ đo được của hệ thống. Chẳng hạn như ở bài toán thiết kế bộ điều khiển tối ưu phản hồi trạng thái cho hệ tuyếntính, mô tả bởi mô hình gồm hai ma trận ( A, B) : x  Ax  Bu (1)bị ràng buộc bởi hàm mục tiêu dạng toàn phương:   T T  J   x Qx  u Ru dt  min (2) 0có Q  QT bán xác định dương, R  RT xác định dương, còn gọi là bộ điều khiển LQR,thì việc thiết kế bộ điều khiển này sẽ không còn cần sử dụng đến cả hai ma trận ( A, B) củamô hình (1), thay vào đó là từ các dữ liệu vào u và trạng thái x đo được của hệ. Phươngpháp thiết kế “thông minh” đó có tên gọi là “xấp xỉ tối ưu” hay “tối ưu thích nghi” [2, 3]. “Tối ưu thích nghi” là công cụ chính của điều khiển học tăng cường. Vai trò “là côngcụ chính” của tối ưu thích nghi còn lấn át các công cụ khác trong điều khiển tăng cườngđến mức mà nhiều tài liệu đã gọi luôn nó là điều khiển học tăng cường, ví dụ như [3, 4].Do việc có được tính chất động học của hệ thống từ dữ liệu đo được trong quá khứ, thay vìtừ mô hình toán, nên phương pháp tối ưu thích nghi có hình thái giống như một thuật toán“học để điều khiển”. Vì vậy, nhiều tài liệu đã gọi nó là thuật toán học tối ưu thích nghi,hay quy hoạch động thích nghi [5-7]. Có khá nhiều dạng cài đặt khác nhau cho thuật toán học tối ưu thích nghi. Theo chúngtôi, nếu phân chia theo cách rời rạc hóa để thực thi trên thiết bị điều khiển số thì sẽ có badạng cơ bản gồm (i) rời rạc hóa ngay từ bài toán tối ưu ban đầu với tập các biến trạng tháiđược giả thiết là hữu hạn [5-7], (ii) rời rạc hóa bài toán tối ưu với tập trạng thái là vô hạn,đếm được [2, 5, 6] và (iii) rời rạc hóa kết quả liên tục cuối cùng thu được [2-6]. Tất nhiên,việc rời rạc hóa kết quả liên tục thu được cuối cùng của bài toán tối ưu sẽ sát với đối tượnghơn, nên chứa đựng sai lệch trong nó là ít nhất. Tuy nhiên, số các bước thực hiện lại nhiềuvà phức tạp hơn, kéo theo là nguy cơ tích lũy sai số trong tính toán cũng cao hơn.Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 19 Kỹ thuật Điều khiển – Tự động hóa Ở bài báo này, chúng tôi tập trung giới thiệu một giải pháp cài đặt thuật toán học tối ưuthích nghi đơn giản cho bài toán LQ (1)-(2), trên cơ sở rời rạc hóa kết quả liên tục cuốicùng thu được của bài toán tối ưu đó, với một “mẹo” nhỏ là xác định giá trị tích phân trongmột khoảng thời gian vô cùng bé thông qua xấp xỉ (loại một và loại hai) của nó, tức là xấpxỉ tích phân bằng tích của giá trị trung bình hàm dưới dấu tích phân tại thời điểm đầu, cuốivà khoảng thời gian lấy tích phân. Nó sẽ được gọi trong bài báo là “thuật toán cải biên”. Nhân đây, cũng cần có vài lời bàn thêm về tên gọi “quy hoạch động thích nghi” hay“học tối ưu thích nghi”. Trong hầu hết các tài liệu tham khảo [2-7], người ta đều gọi chung“học tối ưu thích nghi” là “quy hoạch động thích nghi”, ngay cả cho trường hợp bài toánđiều khiển tối ưu LQ (1)-(2) hệ tuyến tính. Điều này là không đúng, vì như phần nền tảngcơ sở trình bày sau đây trong mục 2 cho thấy, lời giải của bài toán LQ (1)-(2) hoàn toànkhông sử dụng đến nguyên lý tối ưu của Bellman ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: