控制
鲁棒控制与自适应控制
论文
Website
Google Scholar
张言军
具有高阶时延的离散非仿射非线性系统的自适应跟踪控制
Adaptive tracking control of discrete-time non-affine nonlinear systems with high-order time delays
张言军
中国科学: 信息科学, 2023, 53(3): 535-549
摘要 本文研究了一类具有高阶输入–输出时延的非仿射非线性离散不确定系统的自适应输出跟踪控制问题,提出了一种基于隐函数的自适应输出反馈输出跟踪控制方案.该方案主要解决了两个技术问题:一是构造了基于未知参数估计和未来时刻信号估计的隐函数方程解的自适应控制律,解决了因系统高阶时延导致的控制律因果矛盾问题并实现了闭环稳定和渐近输出跟踪;二是针对非仿射非线性控制律难求解问题,提出了基于迭代解的解析自适应控制律,实现了闭环稳定和实用输出跟踪.最后仿真研究证实了所提出控制方案的有效性.
关键词 自适应控制; 非仿射非线性; 闭环稳定; 输出跟踪; adaptive control; non-affine nonlinearity; closed-loop stability; output tracking;
控制
鲁棒控制与自适应控制
论文
Website
Google Scholar
王珂, 穆朝絮, 蔡光斌, 汪韧, 孙长银
面向特殊应用场景的无人机智能决策与控制专刊
基于安全自适应强化学习的自主避障控制方法
Autonomous obstacle avoidance control method based on safe adaptive reinforcement learning
王珂, 穆朝絮, 蔡光斌, 汪韧, 孙长银
中国科学: 信息科学, 2022, 52(9): 1672-1686
摘要 障碍规避是无人机等自主无人系统运动规划的重要环节,其核心是设计有效的避障控制方法.为了进一步提高决策优化性和控制效果,本文在最优控制的设定下,提出一种基于强化学习的自主避障控制方法,以自适应方式在线生成安全运行轨迹.首先,利用障碍函数法在代价函数中设计了一个光滑的奖惩函数,从而将避障问题转换为一个无约束的最优控制问题.然后,利用行为–评价神经网络和策略迭代法实现了自适应强化学习,其中评价网络利用状态跟随核函数逼近代价函数,行为网络给出近似最优的控制策略;同时,通过状态外推法获得模拟经验,使得评价网络能利用经验回放实现可靠的局部探索.最后,在简化的无人机系统和非线性数值系统上进行了仿真实验与方法对比,结果表明,提出的避障控制方法能实时生成较优的安全运行轨迹.
关键词 自主无人系统; 避障控制; 强化学习; 神经网络; 经验回放; autonomous unmanned systems; obstacle avoidance control; reinforcement learning; neural networks; experience replay;
控制
鲁棒控制与自适应控制
论文
Website
Google Scholar
李曼, 秦家虎, 王龙
线性二次二人Stackelberg博弈均衡点求解: 一种Q学习方法
Seeking equilibrium for linear-quadratic two-player Stackelberg game: a Q-learning approach
李曼, 秦家虎, 王龙
中国科学: 信息科学, 2022, 52(6): 1083-1097
摘要 近年来, Stackelberg博弈被广泛用于解决信息物理系统安全控制、智能电网能源管理等问题.已有的Stackelberg均衡点求解方法大多需要已知系统模型信息,而在实际应用中模型信息通常难以精确获取,这在一定程度上限制了相关理论研究成果的应用.鉴于此,本文研究了不基于系统模型的Stackelberg博弈均衡点的求解方法.具体地,本文考虑线性二次二人Stackelberg博弈,其中博弈状态演化满足线性方程,且成本函数为二次形式.博弈的两个参与者为能够预测另一个体可能响应的个体(即领导者),和根据领导者策略作出最优响应的个体(即跟随者).因为本文考虑线性形式的状态演化和二次形式的成本函数,且领导者先于跟随者采取行动,故领导者和跟随者的决策问题可建模为两层的线性二次型最优控制问题.本文按照从跟随者到领导者的原则,基于动态规划原理推导出最优控制策略.该策略被证明恰好为Stackelberg均衡策略,但其计算需使用系统模型信息.基于此策略,本文提出一种基于执行器–评价器(actor-critic)结构的Q学习算法,解决了系统动力学模型未知情况下线性二次二人Stackelberg博弈均衡点求解问题.此外,本文理论证明了所提算法能够保证系统状态、执行网络和评价网络权重估计误差一致最终有界,并通过数值仿真实验说明基于Q学习算法所得控制策略能够使系统状态稳定,且估计控制策略下的成本函数偏离均衡策略下的成本函数的幅度较小.
关键词 线性二次二人Stackelberg博弈; 最优控制; 模型未知; 执行器–评价器结构; Q学习; linear-quadratic two-player Stackelberg game; optimal control; model-free; actor-critic structure; Q-learning;
控制
鲁棒控制与自适应控制
论文
Website
Google Scholar
吴立刚, 王思怡, 高亚斌, 刘健行, 孙光辉
多输入多输出非线性系统的受限滑模控制
Constrained sliding mode control of MIMO nonlinear systems
吴立刚, 王思怡, 高亚斌, 刘健行, 孙光辉
中国科学: 信息科学, 2021, 51(3): 430-448
摘要 本文针对一类具有执行器和状态约束的多输入多输出非线性系统,研究了基于高阶滑模观测器的滑模控制和稳定性分析问题.通过对该系统进行逆变换并考虑其控制输入系数矩阵的对合跨度分布,我们设计了一类高阶滑模观测器用于实现系统的状态估计,其中,采用鲁棒精确微分器分析了所得误差估计系统的收敛性.然后,利用原系统的部分状态变量设计了二阶滑模控制律,进而分别分析了在执行器/状态无约束和硬约束情形下的系统有限时间稳定性,同时,依据最大吸引域和几何分析法分析了系统状态在滑模阶段的运动轨迹.最后,通过两个仿真算例验证了本文所提出的控制方法的有效性.
关键词 滑模控制; 约束系统; 多输入多输出系统; 吸引域; 几何分析; sliding mode control; constrained system; MIMO system; attraction domain; geometric analysis;