Danh mục

Tóm tắt luận án Tiến sĩ Tự động hóa: Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

Số trang: 36      Loại file: pdf      Dung lượng: 3.62 MB      Lượt xem: 10      Lượt tải: 0    
tailieu_vip

Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Luận án với mục tiêu phân tích và thiết kế giải thuật mới về học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến. Giải thuật đáp ứng các yêu cầu chính: (
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Tự động hóa: Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾNChuyên ngành: Tự động hóaMã số chuyên ngành: 62.52.60.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2015Công trình được hoàn thành tại Trường Đại học Bách Khoa – ĐHQG-HCMNgười hướng dẫn khoa học 1: TS. Nguyễn Thiện ThànhNgười hướng dẫn khoa học 2: TS. Hoàng Minh TríPhản biện độc lập 1: GS.TS Phan Xuân MinhPhản biện độc lập 2: PGS.TS Nguyễn Chí NgônPhản biện 1: GS.TSKH Hồ Đắc LộcPhản biện 2: PGS.TS Nguyễn Ngọc LâmPhản biện 3: PGS.TS Lê Minh PhươngLuận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại..............................................................................................................................................................................................................................................................vào lúc giờ ngày tháng nămCó thể tìm hiểu luận án tại thư viện: - Thư viện Khoa học Tổng hợp Tp. HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCMCHƢƠNG 1 GIỚI THIỆU1.1 Tổng quan về đề tài1.1.1 Khái niệm về học củng cố Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp họcmáy (Machine Learning) dùng để giải bài toán tối ưu bằng cách liên tục điềuchỉnh hành động của tác tử (Agent). Lý thuyết RL hình thành dựa trên sự quansát và nghiên cứu thuộc tính và hành vi của động vật khi tương tác với môitrường để thích nghi và tồn tại. Các giải thuật điều khiển dựa vào RL mô phỏngbản năng của động vật. Đó là biết học hỏi từ sai lầm, biết tự dạy chính mình,biết sử dụng thông tin trực tiếp từ môi trường cũng như thông tin đã đánh giátrong quá khứ để củng cố, điều chỉnh hành vi nhằm liên tục cải thiện chất lượngtương tác, tối ưu hóa mục tiêu nào đó theo thời gian.1.1.2 Lịch sử phát triển của RL trong điều khiển Tham khảo tài liệu [9].1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển Lý thuyết RL là một trong những công cụ mạnh được sử dụng để nghiêncứu và phát triển thành các giải thuật điều khiển thích nghi, bền vững, tối ưu.1.2.2 Tính cấp thiết của đề tài Trong điều khiển thích nghi bền vững cho hệ phi tuyến bằng qui hoạchđộng, RL sử dụng giải thuật lặp PI (Policy Iteration) dựa vào cấu trúc qui hoạchđộng thích nghi (Adaptive Dynamic Programming (ADP)) chứa ba xấp xỉ hàm[12]-[13]. Tuy nhiên, với ba xấp xỉ hàm, ADP còn tồn tại một số trở ngại: Tínhtoán phức tạp, lãng phí tài nguyên, chậm hội tụ [20]. Từ đó, nghiên cứu và pháttriển các giải thuật học củng cố mới khắc phục các hạn chế nêu trên là cần thiết.1.2.3 Mục tiêu nghiên cứu Mục tiêu nghiên cứu trong luận án này là phân tích và thiết kế giải thuậtmới về học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến. Giảithuật đáp ứng các yêu cầu chính: (?) Điều khiển online, tránh thủ tục nhận dạng 1hệ thống (gián tiếp hoặc trực tiếp). (??) Bảo đảm hệ kín ổn định bền vững. (???)Tối thiểu hàm chỉ tiêu chất lượng. (??) Giảm chi phí tính toán và giảm tàinguyên hệ thống nhằm tăng tốc độ hội tụ. (?) Loại bỏ được yêu cầu về luật điềukhiển ổn định để khởi động giải thuật. (??) Giải thuật càng đơn giản càng tốt.1.2.4 Nhiệm vụ nghiên cứu Nhiệm vụ nghiên cứu trọng tâm trong luận án được đặt ra như sau: a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyếndựa trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm [9][10][12][13]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục đượcsự dư thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển. Thiết kếluật cập nhật tham số online, xây dựng giải thuật điều khiển không cần khởiđộng bởi luật điều khiển ổn định, chứng minh sự hội tụ và ổn định toàn hệ kín. b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệphi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng baxấp xỉ hàm [9][13]-[15]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm,khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại. Thiết kế luật cập nhậttham số online cho xấp xỉ hàm, xây dựng giải thuật điều khiển không cần khởiđộng bởi luật điều khiển ổn định, cập nhật tham số trong một bước lặp, chứngminh sự hội tụ và ổn định toàn hệ kín. c) Kiểm tra tính hiệu quả của giải thuật nghiên cứu: (?) Mô phỏng, so sánhvà đánh giá với các giải thuật học củng cố gần đây trên cùng hệ phi tuyến. (??)Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe. d) Mở rộng giải thuật học củng cố điều khi ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: