基于行为的多差速机器人强化学习任务监管器设计

张祯毅, 黄捷

张祯毅, 黄捷. 基于行为的多差速机器人强化学习任务监管器设计[J]. 机器人, 2024, 46(4): 397-413, 424. DOI: 10.13973/j.cnki.robot.230148
引用本文: 张祯毅, 黄捷. 基于行为的多差速机器人强化学习任务监管器设计[J]. 机器人, 2024, 46(4): 397-413, 424. DOI: 10.13973/j.cnki.robot.230148
ZHANG Zhenyi, HUANG Jie. Reinforcement Learning Mission Supervisor Design for Behavior-based Differential Drive Robots[J]. ROBOT, 2024, 46(4): 397-413, 424. DOI: 10.13973/j.cnki.robot.230148
Citation: ZHANG Zhenyi, HUANG Jie. Reinforcement Learning Mission Supervisor Design for Behavior-based Differential Drive Robots[J]. ROBOT, 2024, 46(4): 397-413, 424. DOI: 10.13973/j.cnki.robot.230148
张祯毅, 黄捷. 基于行为的多差速机器人强化学习任务监管器设计[J]. 机器人, 2024, 46(4): 397-413, 424. CSTR: 32165.14.robot.230148
引用本文: 张祯毅, 黄捷. 基于行为的多差速机器人强化学习任务监管器设计[J]. 机器人, 2024, 46(4): 397-413, 424. CSTR: 32165.14.robot.230148
ZHANG Zhenyi, HUANG Jie. Reinforcement Learning Mission Supervisor Design for Behavior-based Differential Drive Robots[J]. ROBOT, 2024, 46(4): 397-413, 424. CSTR: 32165.14.robot.230148
Citation: ZHANG Zhenyi, HUANG Jie. Reinforcement Learning Mission Supervisor Design for Behavior-based Differential Drive Robots[J]. ROBOT, 2024, 46(4): 397-413, 424. CSTR: 32165.14.robot.230148

基于行为的多差速机器人强化学习任务监管器设计

基金项目: 

国家自然科学基金 92367109

详细信息
    作者简介:

    张祯毅(1994-),男,博士生。研究领域:强化学习,机器行为学,多机器人系统

    黄捷(1983-),男,博士,教授。研究领域:复杂系统控制与决策,集群机器人系统,5G+工业互联网理论与技术

    通信作者:

    黄捷,jie.huang@fzu.edu.cn

Reinforcement Learning Mission Supervisor Design for Behavior-based Differential Drive Robots

  • 摘要: 针对多差速机器人系统提出了一种基于试错学习的多智能体强化学习任务监管器。此方法解决了基于行为的多智能体系统总是依赖人的智能设计切换规则以决策行为优先级的问题。首先,在零空间行为控制框架下引入了差速模型代替质点模型,首次推导了具有非完整约束的零空间行为控制范式,从而提升了系统对最小极值状态的鲁棒性。然后,首次将行为优先级切换问题建模为协作式马尔可夫博弈问题,学习了一个最优的联合策略以动态且智能地决策行为优先级,不仅避免了人工设计切换规则,而且降低了在线计算和存储负担。仿真结果显示,所提出多智能体强化学习任务监管器具有优越的行为优先级切换性能。在AgileX Limo系列多差速机器人系统上的成功应用,验证了该任务监管器的实用性。
    Abstract: A multi-agent reinforcement learning mission supervisor (MARLMS) is designed for differential drive robots using trial-and-error learning. The proposed MARLMS addresses the challenge inherent in behavior-based multi-agent systems, wherein the design of switching rules to determine behavior priorities relies heavily on human intelligence. Building upon the null-space-based behavioral control (NSBC) framework, a differential model is introduced to replace the particle model. Consequently, a paradigm of NSBC with nonholonomic constraints is presented for the first time, enhancing the system robustness to the minimum extremum state. Subsequently, a joint policy is developed to dynamically and intelligently determine behavior priorities by modeling the behavior priority switching problem as a cooperative Markov game. The proposed MARLMS not only eliminates the need for manual design of switching rules but also reduces the computational and storage burdens during online operations. Simulation results demonstrate the superior behavior priority switching performance of the proposed MARLMS. Furthermore, successful implementation on AgileX Limo robots validates the practicality of the proposed MARLMS.
  • 多差速机器人系统通过协同能够完成个体无法独立执行的任务,因此已广泛应用于物流、交通和巡检等场景[1-4]。随着工作环境的动态化和任务需求的高性能化,任务目标变得更为复杂,且多差速机器人系统不得不同时完成多个相互冲突的任务,包括局部任务和全局任务[5-6]。局部任务是指个体独立完成的任务,而全局任务是指群体协同完成的任务[7]。这种多任务冲突问题是多智能体领域的热点问题之一[8-9]

    行为控制方法是Brooks首次提出的[10],通过建模和融合多个行为来解决多任务冲突问题。文[11]总结了几类典型的行为选择机制,包括分层、加权、模糊和零空间等。文[12]提出了一种分层行为控制方法,采用竞争式架构,完整执行最高层次行为,但任务执行效率低。文[13]和文[14]分别提出了加权和模糊行为控制方法,均采用协作式架构,充分利用系统冗余度执行各种行为,但每个行为都未得到完整执行。结合竞争式与协作式架构的优点,Antonelli等[15]提出了一种新颖的基于零空间的行为控制(NSBC)框架,不仅能完整执行最高优先级的行为,而且可以通过零空间执行部分低优先级行为。为了完成零空间的投影,NSBC基于任务监管器(mission supervisor)分配行为的优先级。然而,行为优先级最初是人工提前设定的且固定不变,因而该方法执行任务时的动态性能不佳。

    为克服固定行为优先级的缺陷,学者们相继提出了有限状态自动机任务监管器(FSAMS)[16-21]、模糊任务监管器(FMS)[22]和模型预测控制任务监管器(MPCMS)[23-24]。FSAMS将每个行为优先级隐含在一个有限状态机的状态中,通过人工设计数值化的状态转移条件,以状态转移的方式切换行为优先级,但数值条件依赖人工设计且缺乏理论依据。FMS使用模糊逻辑表代替数值逻辑规则,大幅度降低了人工设计规则的难度,但需要人工设计模糊集合和模糊规则等。MPCMS将行为优先级切换问题建模为一个最优模式切换问题,通过实时求解最优行为优先级来避免人工设计切换规则,但在线的计算量和存储负担非常大,且实时性不佳。

    文[25-26]将行为优先级切换问题建模为一个序贯决策问题,提出了一种新颖的强化学习任务监管器(RLMS)。RLMS学习一个最优的行为优先级策略,不仅避免了人工设计规则,而且降低了硬件负担。然而,RLMS通常无法在多差速机器人系统中取得理想的任务性能,具体原因如下:1) RLMS使用质点模型建模智能体的运动学,但差速机器人系统受到非完整约束的限制,其运动学不满足质点模型。若使用质点模型表征差速机器人系统,则参考指令难以跟踪,且多差速机器人系统易陷入极值状态。2) RLMS只在单个学习者的环境下可保证收敛,扩展至多差速机器人系统中时,存在学习环境非平稳问题,从而强化学习算法将失去收敛保证。3) RLMS只能实施局部行为,无法发挥多差速机器人系统的群体智能,因而降低了任务执行能力。

    针对上述问题,本文提出了一种新颖的多智能体强化学习任务监管器(MARLMS),解决了多差速机器人系统的行为优先级决策问题。具体而言,MARLMS设计的难点在于如何构建多差速机器人行为控制方法与多智能体强化学习算法之间的“桥梁”。此外,MARLMS的行为集合将包含局部行为和全局行为,且必须克服学习环境的非平稳问题,达到群体效益最大化而非个体效益最大化。由于NSBC框架在任务层通常是集中式的,因此本文考虑将多差速机器人的行为优先级切换问题建模为协作式马尔可夫博弈问题,联合差速机器人的状态和行为,以最大化团队奖励为目标,学习一个最优的联合行为优先级策略。一方面,MARLMS减少了对人工设计行为优先级切换规则的依赖,且降低了硬件平台实时计算和存储行为优先级的负担;另一方面,MARLMS弥补了RLMS不能实施全局行为的致命缺陷,且解决了多差速机器人学习环境的非平稳问题,从而极大地提升了RLMS的可扩展性。

    在由$ N $($ N>2 $)个差速机器人组成的多差速机器人系统中,每个差速机器人均具有2个辅助轮和2个驱动轮,且第$ i $个差速机器人的结构示意图如图 1所示,$ i=1, 2, \cdots, N $。

    图  1  第$ i $个差速机器人的结构示意图
    Figure  1.  The schematic diagram of the $ i{\text{-th}}$ differential drive robot

    第$ i $个差速机器人的线速度$ v_{i} \in \mathbb{R} $和角速度$ \omega_{i} \in \mathbb{R} $分别可表示为[27]

    $$ \begin{align} v_{i} & =(v_{{\rm L}, i} +v_{{\rm R}, i})/2 \end{align} $$ (1)
    $$ \begin{align} \omega_{i} & =(v_{{\rm L}, i} -v_{{\rm R}, i})/L_{i} \end{align} $$ (2)

    其中,$ v_{{\rm L}, i} \in \mathbb{R} $和$ v_{{\rm R}, i} \in \mathbb{R} $分别是左右驱动轮的速度,$ L_{i} \in \mathbb{R} $是左右驱动轮间的距离,$ \mathbb{R} $为实数集合。

    定义第$ i $个差速机器人的位置和偏航角分别为$ {\mathit{\boldsymbol{p}}}_{i} = [x_{i}, y_{i}]\in \mathbb{R}^{2} $和$ \theta_{i} \in \mathbb{R} $,则第$ i $个差速机器人的运动学方程可以建模为[28]

    $$ \begin{align} \dot{\mathit{\boldsymbol{X}}}_{i} =\begin{bmatrix} {\dot{\mathit{\boldsymbol{p}}}_{i}} \\ {\dot{\theta}_{i}} \end{bmatrix} =\begin{bmatrix} {v_{i} \cos \theta_{i}} \\ {v_{i} \sin \theta_{i}} \\ {\omega_{i}} \end{bmatrix} =\begin{bmatrix} {\cos \theta_{i}} & 0 \\ {\sin \theta_{i}} & 0 \\ 0 & 1 \end{bmatrix}{\mathit{\boldsymbol{V}}}_{i} ={\mathit{\boldsymbol{\varTheta}}}_{i} {\mathit{\boldsymbol{V}}}_{i} \end{align} $$ (3)

    其中,$ \mathit{\boldsymbol{X}}_{i} =[{\mathit{\boldsymbol{p}}}_{i}, \theta_{i}]^{\rm T}\in \mathbb{R}^{3} $和$ \mathit{\boldsymbol{V}}_{i} =[v_{i}, \omega_{i}]^{\rm T}\in \mathbb{R}^{2} $分别是第$ i $个差速机器人的广义位置和速度,$ {\mathit{\boldsymbol{\varTheta}}}_{i} \in \mathbb{R}^{3\times 2} $是非完整约束矩阵。

    假设1:多差速机器人系统工作在一个静态的场景中,其中所有障碍物都是静态且固定的。

    多差速机器人系统的运动学方程如式(3)所示,其任务目标是学习一个联合的行为优先级策略,以在满足假设1的工作环境中动态且智能地决策它们的行为优先级,从而使得多差速机器人系统在避开障碍物的同时形成或重构队形。

    假设每个差速机器人均有$ M $个基本行为,其中第$ i $个差速机器人的第$ j $个基本行为可采用一个任务变量$ {\mathit{\boldsymbol{\sigma}}}_{i, j} \in \mathbb{R}^{m_{j}} $($ m_{j} \leqslant 3 $,$ j=1, \cdots, M $)来表示:

    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{i, j} ={{\mathit{\boldsymbol{g}}}}_{i, j} ( {\mathit{\boldsymbol{X}}}_{i} ) \end{align} $$ (4)

    其中,$ {{\mathit{\boldsymbol{g}}}}_{i, j} (\cdot):\mathbb{R}^{3}\to \mathbb{R}^{m_{j}} $为任务函数。

    然后,任务变量$ {\mathit{\boldsymbol{\sigma}}}_{i, j} $的微分形式推导为

    $$ \begin{align} \dot{\mathit{\boldsymbol{\sigma}}}_{i, j} =\frac{\partial {{\mathit{\boldsymbol{g}}}}_{i, j} ({{\mathit{\boldsymbol{X}}}_{i}})}{\partial {\mathit{\boldsymbol{X}}}_{i}} \dot{\mathit{\boldsymbol{X}}}_{i} ={\mathit{\boldsymbol{J}}}_{i, j} \dot{\mathit{\boldsymbol{X}}}_{i} ={\mathit{\boldsymbol{J}}}_{i, j} {\mathit{\boldsymbol{\varTheta}}}_{i} {\mathit{\boldsymbol{V}}}_{i} \end{align} $$ (5)

    其中,$ {\mathit{\boldsymbol{J}}}_{i, j} \in \mathbb{R}^{m_{j} \times 3} $表示任务的雅可比矩阵。

    最后,基于闭环逆运动学方法[11],第$ i $个差速机器人的第$ j $个基本行为的参考速度指令推导为

    $$ \begin{align} {\mathit{\boldsymbol{V}}}_{i, j} ={\mathit{\boldsymbol{\varTheta}}}_{i, j}^{‡} {\mathit{\boldsymbol{J}}}_{i, j}^{†} ({\dot{\mathit{\boldsymbol{\sigma}}}_{{\rm d}, i, j} +{\mathit{\boldsymbol{\varLambda}}}_{i, j} \tilde{\mathit{\boldsymbol{\sigma}}}_{i, j}}) \end{align} $$ (6)

    其中,$ {\mathit{\boldsymbol{\varTheta}}}_{i, j}^{‡} ={\mathit{\boldsymbol{\varTheta}}}_{i, j}^{\rm T} ({{\mathit{\boldsymbol{\varTheta}}}_{i, j} {\mathit{\boldsymbol{\varTheta}}}_{i, j}^{\rm T}})^{-1}\in \mathbb{R}^{2\times 3} $表示$ {\mathit{\boldsymbol{\varTheta}}}_{i, j} $的左伪逆矩阵,$ {\mathit{\boldsymbol{J}}}_{i, j}^{†} ={\mathit{\boldsymbol{J}}}_{i, j}^{\rm T} ({{\mathit{\boldsymbol{J}}}_{i, j} {\mathit{\boldsymbol{J}}}_{i, j}^{\rm T}})^{-1}\in \mathbb{R}^{3\times m_{j}} $表示$ {\mathit{\boldsymbol{J}}}_{i, j} $的右伪逆矩阵,$ {\mathit{\boldsymbol{\sigma}}}_{{\rm d}, i, j} \in \mathbb{R}^{m_{j}} $是期望的任务函数,$ \dot{\mathit{\boldsymbol{\sigma}}}_{{\rm d}, i, j} \in \mathbb{R}^{m_{j}} $是$ {\mathit{\boldsymbol{\sigma}}}_{{\rm d}, i, j} $的微分形式,$ {\mathit{\boldsymbol{\varLambda}}}_{i, j} \in \mathbb{R}^{m_{j}\times m_{j}} $是任务的增益矩阵,$ \tilde{\mathit{\boldsymbol{\sigma}}}_{i, j} ={\mathit{\boldsymbol{\sigma}}}_{{\rm d}, i, j} -{\mathit{\boldsymbol{\sigma}}}_{i, j} \in \mathbb{R}^{m_{j}} $是任务的误差。

    在不失一般性的前提下,编队保持、重构和避障行为设计如下:

    编队保持行为(FM):是一个全局行为,旨在驱使多差速机器人系统形成一个期望的队形,相应的任务函数、期望任务和任务雅可比矩阵可分别表示为

    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{{\rm FM}, i} & =\left[ ( {{\mathit{\boldsymbol{p}}}_{i} -{\mathit{\boldsymbol{p}}}_{\rm c} -{\mathit{\boldsymbol{p}}}_{i}^{\rm c}})^{\rm T} \; \; {\theta_{i}} \right]^{\rm T}\in \mathbb{R}^{3} \end{align} $$ (7)
    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{{\rm FM}, {\rm d}, i} & =\left[ {({{\mathit{\boldsymbol{p}}}_{\rm c, d} -{\mathit{\boldsymbol{p}}}_{\rm c}})^{\rm T}} \; \; {\theta_{\rm d}} \right]^{\rm T}\in \mathbb{R}^{3} \end{align} $$ (8)
    $$ \begin{align} {\mathit{\boldsymbol{J}}}_{{\rm FM}, i} & =\begin{bmatrix} {\dfrac{N-1}{N}{\mathit{\boldsymbol{I}}}_{2}} & {{\mathit{\boldsymbol{0}}}_{2\times 1}} \\ {{\mathit{\boldsymbol{0}}}_{1\times 2}} & 1 \end{bmatrix}\in \mathbb{R}^{3\times 3} \end{align} $$ (9)

    其中,$ {\mathit{\boldsymbol{p}}}_{\rm c} =\sum _{i=1}^N {{\mathit{\boldsymbol{p}}}_{i}} \in \mathbb{R}^{2} $是编队质心的位置,$ {\mathit{\boldsymbol{p}}}_{i}^{\rm c} \in \mathbb{R}^{2} $是编队质心与第$ i $个差速机器人的相对位置,$ {\mathit{\boldsymbol{p}}}_{\rm c, d} \in \mathbb{R}^{2} $是编队质心的期望位置,$ \theta_{\rm d} =\arctan \|{{\mathit{\boldsymbol{p}}}_{\rm c, d} -{\mathit{\boldsymbol{p}}}_{\rm c}}\|\in \mathbb{R} $是编队的期望方向,$ {\mathit{\boldsymbol{I}}} $表示单位矩阵,$ {\mathit{\boldsymbol{0}}} $表示零矩阵。

    编队重构行为(FR):类似于编队保持行为,亦是全局行为,旨在驱使多差速机器人系统重构一个期望的队形,相应的任务函数、期望任务和任务雅可比矩阵分别表示为

    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{{\rm FR}, i} & =[{({{\mathit{\boldsymbol{p}}}_{i} -{\mathit{\boldsymbol{p}}}_{\rm c} -{\mathit{\boldsymbol{\varGamma}}}_{{\rm FR}, i} {\mathit{\boldsymbol{p}}}_{i}^{\rm c}})^{\rm T}} \; \; {\theta_{i}} ]^{\rm T}\in \mathbb{R}^{3} \end{align} $$ (10)
    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{{\rm FR}, {\rm d}, i} & = [{({{\mathit{\boldsymbol{p}}}_{\rm c, d} -{\mathit{\boldsymbol{p}}}_{\rm c}})^{\rm T}} \; \; {\theta_{\rm d}} ]^{\rm T}\in \mathbb{R}^{3} \end{align} $$ (11)
    $$ \begin{align} {\mathit{\boldsymbol{J}}}_{{\rm FR}, i} & = \begin{bmatrix} {\dfrac{N-1}{N}{\mathit{\boldsymbol{I}}}_{2}} & {{\mathit{\boldsymbol{0}}}_{2\times 1}} \\ {{\mathit{\boldsymbol{0}}}_{1\times 2}} & 1 \end{bmatrix}\in \mathbb{R}^{3\times 3} \end{align} $$ (12)

    其中,$ {\mathit{\boldsymbol{\varGamma}}}_{{\rm FR}, i} \in \mathbb{R}^{2\times 2} $是第$ i $个差速机器人的编队重构矩阵。

    避障行为(OA):避障行为是一个局部行为,旨在驱使多差速机器人系统避开路径附近的障碍物,相应的任务函数、期望任务和任务雅可比矩阵分别表示为

    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{{\rm OA}, i} & =[ \min \{{d_{i}^{\rm o}} \} \; \; \theta_{i}]^{\rm T}\in \mathbb{R}^{2} \end{align} $$ (13)
    $$ \begin{align} {\mathit{\boldsymbol{\sigma}}}_{{\rm OA}, {\rm d}, i} & =[{d_{{\rm OA}}} \; \; {\theta_{{\rm OA}, i}} ]^{\rm T}\in \mathbb{R}^{2} \end{align} $$ (14)
    $$ \begin{align} {\mathit{\boldsymbol{J}}}_{{\rm OA}, i} & =\begin{bmatrix} {{\mathit{\boldsymbol{\varGamma}}}_{{\rm OA}, i}^{\rm T}} & 0 \\ {{\mathit{\boldsymbol{0}}}_{1\times 2}} & 1 \end{bmatrix}\in \mathbb{R}^{2\times 3} \end{align} $$ (15)

    其中,$ \min \{{d_{i}^{\rm o}}\}\in \mathbb{R} $是第$ i $个差速机器人与障碍物的最小距离,$ d_{{\rm OA}} \in \mathbb{R} $是避障的安全距离,$ \theta_{{\rm OA}, i} = \arctan \|{\mathit{\boldsymbol{p}}}_{i, \min}^{\rm o}\|\pm \dfrac{{\mathsf{π}}} {2}\in \mathbb{R} $是避障的期望方向,$ + $和$ - $分别表示障碍物在第$ i $个差速机器人的左侧和右侧,$ {\mathit{\boldsymbol{\varGamma}}}_{{\rm OA}, i} =\dfrac{{\mathit{\boldsymbol{p}}}_{i, \min}^{\rm o}} {\min \{{d_{i}^{\rm o}} \}}\in \mathbb{R}^{1\times 2} $,$ {\mathit{\boldsymbol{p}}}_{i, \min}^{\rm o} \in \mathbb{R}^{2} $是第$ i $个差速机器人与障碍物之间最小距离对应的位置向量差。

    复合行为是多个基本行为按照一定行为优先级顺序零空间投影的组合。定义$ \hat{j}\in N_{M} $表示行为优先级顺序,$ N_{M} =\{{1, \cdots, M} \} $。定义一个与时间相关的行为优先级顺序函数$ h_{i} (\hat{j}, t):N_{M} \times [{0, \infty}]\to N_{M} $。此外,基本行为满足行为分层规则如下:

    1) 一个具有$ h_{i} (\hat{j}_{\alpha}, t) $行为优先级的基本行为不能干扰一个具有$ h_{i} (\hat{j}_{\beta}, t) $行为优先级的基本行为,如果$ h_{i} (\hat{j}_{\alpha}, t)\geqslant h_{i} (\hat{j}_{\beta}, t) $,对于$ \forall \hat{j}_{\alpha}, \hat{j}_{\beta} \in N_{M} $,$ \hat{j}_{\alpha} \ne \hat{j}_{\beta} $。

    2) 系统速度到任务速度的映射关系可由任务雅可比矩阵$ \mathit{\boldsymbol{J}}_{h_{i} (\hat{j}, t)} \in \mathbb{R}^{m_{j} \times n} $表示。

    3) 具有最低行为优先级的基本行为维度$ m_{M} $可能大于$ m_{\text{total}} -\sum _{j=1}^{M-1} {m_{j}} $,因此期望维度$ m_{\text{total}} $大于所有基本行为的总维度。

    4) $ h_{i} (\hat{j}, t) $的数值由任务监管器根据任务需求和传感器信息进行决策与分配。

    在每个采样周期,一旦基本行为的行为优先级确定和分配完成,复合行为的参考速度指令可通过一个递归方案计算:

    $$ \begin{gather} {\mathit{\boldsymbol{V}}}_{{\rm r}, i} ={\mathit{\boldsymbol{\varTheta}}}_{i}^{‡} \bigg({\mathit{\boldsymbol{X}}}_{i, 1} +\sum _{\hat{j}=2}^M {\mathit{\boldsymbol{\bar{J}}}_{i, 1, \hat{j}-1}} {\mathit{\boldsymbol{X}}}_{i, \hat{j}}\bigg) \end{gather} $$ (16)
    $$ \begin{gather} \mathit{\boldsymbol{\bar{J}}}_{i, 1, \hat{j}-1} =\mathit{\boldsymbol{I}}_{3} -\mathit{\boldsymbol{J}}_{i, 1, \hat{j}}^{†} \mathit{\boldsymbol{J}}_{i, 1, \hat{j}} \end{gather} $$ (17)
    $$ \begin{gather} {\mathit{\boldsymbol{J}}}_{i, 1, \hat{j}} =[{\mathit{\boldsymbol{J}}}_{i, 1}^{\rm T}, {\mathit{\boldsymbol{J}}}_{i, 2}^{\rm T}, \cdot \cdot \cdot, {\mathit{\boldsymbol{J}}}_{i, \hat{j}}^{\rm T}]^{\rm T} \end{gather} $$ (18)

    其中,下标$ \hat{j} $是行为优先级顺序,$ \mathit{\boldsymbol{\bar{J}}}_{i, 1, \hat{j}-1} \in \mathbb{R}^{3\times 3} $是增广雅可比矩阵的零空间投影算子,$ {\mathit{\boldsymbol{J}}}_{i, 1, \hat{j}} \in \mathbb{R}^{\big(\sum _{\iota =1}^{\hat{k}} {m_{\iota}}\big)\times 3} $表示增广雅可比矩阵。

    经典NSBC方法使用质点模型,形如$ \dot{\mathit{\boldsymbol{X}}}_{i} =\mathit{\boldsymbol{V}}_{i} $,其中$ \mathit{\boldsymbol{X}}_{i} =[p_{x, i}, p_{y, i}, \theta_{i}]^{\rm T}\in \mathbb{R}^{3} $表示广义位置,$ \mathit{\boldsymbol{V}}_{i} =[v_{x, i}, v_{y, i}, \dot{\theta}_{i}]^{\rm T}\in \mathbb{R}^{3} $表示广义速度,且它们的维度是相同的[11]。基于质点模型,经典NSBC方法的基本行为和复合行为分别计算如下:

    $$ \begin{align} \mathit{\boldsymbol{V}}_{i , j} & ={\mathit{\boldsymbol{J}}}_{i, j}^{†} ({\dot{\mathit{\boldsymbol{\sigma}}}_{{\rm d}, i, j} +{\mathit{\boldsymbol{\varLambda}}}_{i, j} \tilde{\mathit{\boldsymbol{\sigma}}}_{i, j}}) \end{align} $$ (19)
    $$ \begin{align} \mathit{\boldsymbol{V}}_{{\rm r}, i} & =\mathit{\boldsymbol{X}}_{i, 1} +\sum _{\hat{j}=2}^M {\mathit{\boldsymbol{\bar{J}}}_{i, 1, \hat{j}-1}} \mathit{\boldsymbol{X}}_{i, \hat{j}} \end{align} $$ (20)

    其中,式(19)(20)均不包含非完整约束矩阵,因此经典NSBC方法的基本行为和复合行为指令均不满足非完整约束,且不符合多差速机器人的运动学方程。为此,本文首次将欠驱动模型式(4)引入NSBC框架中,代替质点模型以改进任务设计,并推导了具有非完整约束的NSBC范式,其中基本行为和复合行为的参考速度指令分别如式(6)(16)所示。由于所提出的非完整约束的NSBC框架考虑了非完整约束矩阵,因此基本行为和复合行为的参考指令均满足非完整约束,且符合多差速机器人的运动学方程。首次体现在改进了NSBC的任务设计范式,从而使得基本行为和复合行为指令均满足非完整约束,且适用于多差速机器人。

    由于NSBC方法通常在任务层是集中式的,因此可将行为优先级切换问题建模为一个协作式的马尔可夫博弈问题,其中所有差速机器人共享一个团队奖励。MARLMS是基于宽松Q学习(Leinent DQN)算法进行设计的[29],其整体框图如图 2所示,且伪代码如算法1所示,其中$ \lambda $表示先前学习Q值的个数。

    图  2  多智能体强化学习监管器的整体框图
    Figure  2.  Overall diagram of MARLMS

    定义联合状态集合和联合行为集合分别为$ {S}=\{\mathit{\boldsymbol{s}}_{t} \} $和$ {B}=\{\mathit{\boldsymbol{b}}_{t}\} $,其中$ {{\mathit{\boldsymbol{s}}}}_{t} =[\mathit{\boldsymbol{\bar{X}}}_{t}^{\rm T}, \mathit{\boldsymbol{\bar{P}}}_{t}^{\rm T}, \mathcal{G}_{t}]\in \mathbb{R}^{4 N+1} $,$ \mathit{\boldsymbol{\bar{X}}}_{t} = [\mathit{\boldsymbol{\bar{X}}}_{1}^{\rm T}, \mathit{\boldsymbol{\bar{X}}}_{2}^{\rm T}, \cdots , \mathit{\boldsymbol{\bar{X}}}_{N}^{\rm T} ]^{\rm T}\in \mathbb{R}^{3 N} $表示多差速机器人系统的联合广义位置,$ \mathit{\boldsymbol{\bar{P}}}_{t} =[\bar{P}_{1}, \bar{P}_{2}, \cdots , \bar{P}_{N}]^{\rm T}\in \mathbb{R}^{N} $表示联合行为优先级标识,$ \bar{P}_{i} \in \mathbb{R} $表示第$ i $个差速机器人的行为优先级标识,每一个行为优先级标识对应一个行为优先级的顺序,$ \mathcal{G}_{t} \in \mathbb{R} $表示编队标识,$ \mathcal{G}_{t} =0 $表示当前多差速机器人系统未形成编队,$ \mathcal{G}_{t} =1 $表示当前多差速机器人系统正在重构队形,$ \mathcal{G}_{t} =2 $表示当前多差速机器人系统正在形成编队,$ \mathcal{G}_{t} $的数值可根据多差速机器人系统与质心的相对位置判断,$ \mathit{\boldsymbol{b}}_{t} =[{\mathit{\boldsymbol{V}}}_{{\rm r}, 1}^{\rm T}, {\mathit{\boldsymbol{V}}}_{{\rm r}, 2}^{\rm T}, \cdots, {\mathit{\boldsymbol{V}}}_{{\rm r}, N}^{\rm T}]\in \mathbb{R}^{2 N} $。然后,MARLMS的奖励函数设计如下:

    算法1    多智能体强化学习任务监管器
    输入: 训练的总回合数$ T_{\rm e} $,一个回合的总时间步长$ T_{\rm s} $
    1: 初始化$ Q( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t};{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V} , {{\mathit{\boldsymbol{W}}}_{\rm B}})=V( \mathit{\boldsymbol{s}}_{t}; {\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V} )+ B( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t};{}{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm B} ) $,并给予初始化的网络权重$ {\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V}, {\mathit{\boldsymbol{W}}}_{\rm B} $
    2: 初始化经验池$ {\mathcal D} $
    3: 初始化贪婪探索策略$ \bar{T}({\phi ({\mathit{\boldsymbol{s}}_{t}})}) $和宽松值$ {\mathcal L}_{t} $
    4: for回合$ = 1, 2, \cdots, T_{\rm e} $ do
    5:        重置联合状态$ \mathit{\boldsymbol{s}}_{t} $至初始状态$ \mathit{\boldsymbol{s}}_{0} $
    6:        for $ t = 1, 2, \cdots, T_{\rm s} $ do
    7:                $ Q_{t-1}^{\rm B} ( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t} ) =\dfrac{1}{\lambda} \sum\limits_{\iota =1}^{\lambda} Q ( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}; {\mathit{\boldsymbol{W}}}_{{\rm Q}_{t-\iota}}, {\mathit{\boldsymbol{W}}}_{{\rm V}_{t-\iota}}, {\mathit{\boldsymbol{W}}}_{{\rm B}_{t-\iota}} ) $
    8:                $ y_{\mathit{\boldsymbol{s}}_{{t}}, \mathit{\boldsymbol{b}}_{t}} =E_{\rm D} \Big[r+\gamma \max_{\mathit{\boldsymbol{b}}_{t+1}} Q_{t-1}^{\rm B} (\mathit{\boldsymbol{s}}_{t+1}, \mathit{\boldsymbol{b}}_{t+1})\mid \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}\Big] $
    9:                $ {\mathit{\boldsymbol{W}}}_{{\rm Q}_{t}}, {\mathit{\boldsymbol{W}}}_{{\rm V}_{t}}, {\mathit{\boldsymbol{W}}}_{{\rm B}_{t}} \mathop {{\rm{arg min}}}\limits_{{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V}, {\mathit{\boldsymbol{W}}}_{\rm B}} {E}_{\rm D}\Big[ ( y_{\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}} - \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; {{Q({\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t};{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V}, {\mathit{\boldsymbol{W}}}_{\rm B}})} )^{2}}\Big] $
    10:        end for
    11: end for
    输出: $ Q_{(T_{\rm e} \cdot T_{\rm s})}^{\rm B} (\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}) \!=\!\dfrac{1}{\lambda} \sum\limits_{\bar{\iota} =0}^{\lambda -1} Q (\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}; {\mathit{\boldsymbol{W}}}_{{\rm Q}_{T_{\rm e} \cdot T_{\rm s} -\bar{\iota}}}, {\mathit{\boldsymbol{W}}}_{{\rm V}_{T_{\rm e} \cdot T_{\rm s} -\bar{\tau}}}, {\mathit{\boldsymbol{W}}}_{{\rm B}_{T_{\rm e} \cdot T_{\rm s} -\bar{\tau}}}) $

    $$ \begin{align} r_{t} & =r_{1} +r_{2} \end{align} $$ (21)
    $$ \begin{align} r_{1} & =\begin{cases} {-10}, & {\mathcal{G}_{t} =0, \; \min\{d_{i}^{\rm o}\}\leq d_{\rm OA}, \; \exists i=1, \cdots, N} \\ 0, & {\mathcal{G}_{t} =0, \; \min\{d_{i}^{\rm o}\}>d_{\rm OA}, \; \forall i=1, \cdots, N} \\ {-10}, & {\mathcal{G}_{t} =1, \; \min\{d_{i}^{\rm o}\}\leq d_{\rm OA}, \; \exists i=1, \cdots, N} \\ {+5}, & {\mathcal{G}_{t} =1, \; \min\{d_{i}^{\rm o}\}>d_{\rm OA}, \; \forall i=1, \cdots, N} \\ {-10}, & {\mathcal{G}_{t} =2, \; \min\{d_{i}^{\rm o}\}\leq d_{\rm OA}, \; \exists i=1, \cdots, N} \\ {+10}, & {\mathcal{G}_{t} =2, \; \min\{d_{i}^{\rm o}\}>d_{\rm OA}, \; \forall i=1, \cdots, N} \end{cases} \end{align} $$ (22)
    $$ \begin{align} r_{2} & =\begin{cases} 0, & {\mathit{\boldsymbol{\bar{P}}}_{t+1} =\mathit{\boldsymbol{\bar{P}}}_{t}} \\ {-3}, & {\mathit{\boldsymbol{\bar{P}}}_{t+1} \ne \mathit{\boldsymbol{\bar{P}}}_{t}} \end{cases} \end{align} $$ (23)

    其中,奖励函数$ r_{t} $由$ r_{1} $和$ r_{2} $两部分组成,$ r_{1} $的设计是以实现任务为目标,$ r_{2} $的设计是为了减少行为优先级切换次数。具体而言,由于任务目标包含形成期望的编队和避开路径上的障碍物,因此$ r_{1} $的设计与是否形成期望的队形、是否避开障碍物和是否形成临时的重构队形相关。因为智能体的安全性在任务执行过程中是最重要的,所以只要有智能体违反安全约束,无论它们是否形成编队,团队就会得到一个$ - $10的奖励。$ - $10的奖励旨在驱使多差速机器人优先选择避障。当多差速机器人未违反安全约束时,奖励应该聚焦于驱使多差速机器人形成编队:若多差速机器人形成了期望的队形,那么团队将接收到$ + $10的奖励;若多差速机器人形成了临时的重构队形,那么团队将接收到$ + $5的奖励;否则,团队将接收零奖励。$ + $10的奖励旨在鼓励多差速机器人形成期望队形以实现任务目标,而$ + $5的奖励旨在鼓励多差速机器人在无法同时形成期望队形和避开障碍物的情况下,探索形成其他可能的队形以完成避障。$ r_{2} $的设计比较简单,其旨在减少行为优先级切换次数,若当前行为优先级与先前采样的一致,那么团队将收到$ - $3的奖励;否则,团队将接收零奖励。下文将分析奖励参数的选取对任务需求的影响。首先,避障奖励范数值应该要求是最大的,否则多差速机器人可能为了实现编队而违反安全约束;其次,形成期望队形的奖励范数值应该大于重构队形,否则多差速机器人总是偏向于实现重构队形;最后,切换优先级的奖励范数值应该最小,减少行为优先级切换次数是理想情况,但不是任务目标之一。无论是暂态性能还是动态性能,都与行为优先级切换相关。若不设置$ r_{2} $,那么行为优先级切换的次数将增加显著,将导致任务误差的超调量、峰值时间、上升时间和稳态误差均增大。

    多差速机器人系统与环境在$ t $时间步交互,它们观测到联合状态$ \mathit{\boldsymbol{s}}_{t} $,基于一个$ \bar{T}({\phi ({\mathit{\boldsymbol{s}}_{t}})}) $贪婪策略选取联合行为$ \mathit{\boldsymbol{b}}_{t} $,接收一个团队奖励$ r_{t} $,且转移至下一个联合状态$ \mathit{\boldsymbol{s}}_{t+1} $。$ \bar{T}({\phi ({\mathit{\boldsymbol{s}}_{t}})}) $贪婪策略是指多差速机器人系统以一个$ \bar{T}^{\zeta} ({\phi ({\mathit{\boldsymbol{s}}_{t}})}) $的概率选取一个随机的联合行为$ \mathit{\boldsymbol{b}}_{t} $,并以一个$ 1-\bar{T}^{\zeta} ({\phi ({\mathit{\boldsymbol{s}}_{t}})}) $的概率选取$ Q $值最大的联合行为$ \mathit{\boldsymbol{b}}_{t} =\arg \max_{{\mathit{\boldsymbol{b}}}} Q_{t-1}^{\rm B} ({\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}}) $,$ \zeta $是一个指数。然后,该经历会存储到经验池$ \mathcal{D} $中,并使用一个宽松值$ \mathcal{L}(\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t})\in \mathbb{R} $标记如下

    $$ \begin{align} \mathcal{L}(\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}) & =1-{\rm e}^{-\kappa_{\mathcal L} T_{t} (\phi (\mathit{\boldsymbol{s}}_{t}), \mathit{\boldsymbol{b}}_{t})} \end{align} $$ (24)
    $$ \begin{align} T_{t+1} (\phi (\mathit{\boldsymbol{s}}_{t}), \mathit{\boldsymbol{b}}_{t}) & =\gamma_{\mathcal L} T_{t} (\phi (\mathit{\boldsymbol{s}}_{t}), \mathit{\boldsymbol{b}}_{t}) \end{align} $$ (25)
    $$ \begin{align} \gamma_{\mathcal L} & ={\rm e}^{\rho_{\gamma} d_{\gamma}^{\rm t}} \end{align} $$ (26)

    其中,$ \kappa_{\mathcal L} $是宽松值的适度因子,$ T_{t} (\phi (\mathit{\boldsymbol{s}}_{t}), \mathit{\boldsymbol{b}}_{t} $)是衰减温度,$ \phi (\cdot) $是哈希自动编码函数,$ \gamma_{\mathcal L} $是折扣系数,$ \rho_{\gamma} $是温度指数,$ d_{\gamma}^{\rm t} $是衰减率。

    由于$ Q $值的估计过高会破坏正确的学习,因此引入Dueling网络结构和平均$ Q $值思想提升$ Q $值的估计精度和学习的稳定性,根据宽松值$ {\mathcal L}_{t} $计算$ Q $值:

    $$ \begin{align} Q({\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}})& = \begin{cases} Q({\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}})+\alpha_{t} \delta_{t}, & {\delta_{t} >0 \text{或}\; \vartheta >\mathit{\boldsymbol{\mathcal L}}_{t}} \\ Q({\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}}), & {\delta_{t} \leq 0 \text{且}\; \vartheta \leq \mathit{\boldsymbol{\mathcal L}}_{t}} \end{cases} \end{align} $$ (27)

    其中,$ \alpha_{t} \in (0, 1) $是学习率,$ \vartheta \sim U(0, 1) $表示一个随机变量,$ \delta_{t} =y_{\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}} -Q_{t-1}^{\rm B} (\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t} $)是时序差分误差,$ y_{\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}} =E_{\rm D} [{r+\gamma \max_{\mathit{\boldsymbol{b}}_{t+1}} Q_{t-1}^{\rm B} ({{\mathit{\boldsymbol{s}}}_{t+1}, \mathit{\boldsymbol{b}}_{t+1}})\mid \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}}] $。

    MARLMS的离线训练会在所有回合结束后停止。最后,所学习的联合策略指导多差速机器人系统在实际场景中选择最优的联合行为优先级。在每个采样周期,当联合行为优先级确定后,多差速机器人系统的参考速度指令可根据式(16)~式(18)计算。

    在NSBC框架中,FSAMS[16]、MPCMS[23]和RLMS[25]是主流的任务监管器。FSAMS将复合行为隐藏于有限状态机的状态中,通过设计状态转移规则实现行为优先级切换,其易于实施,但依赖人类智能。MPCMS将行为优先级的切换问题描述为模式切换最优控制问题,且通过混合整数优化控制算法求解该问题,其降低了对人类智能的依赖,但对高性能硬件计算平台依赖强。文[25-26]提出的RLMS将行为优先级切换问题建模为马尔可夫决策过程,降低了对人类智能和计算平台的依赖,但是最大化了个体性能,且无法实施局部行为,具有很强的局限性。本文在RLMS的基础上,首次将优先级切换问题建模为马尔可夫博弈问题,不仅能学习最优的联合行为优先级策略,而且能最大化团队性能,克服了RLMS无法实施全局行为的致命缺陷。首次体现在行为优先级切换问题的建模上,以及联合策略学习的思想,从而最大化团体性能而非个体性能,且允许实施全局行为,达到群体协作。

    本节设置了一个数值仿真案例,其中控制对象为3个多差速机器人系统,其运动学方程如式(2)所示,控制目标为3个机器人以编队的形式移动至目标位置同时避开路径上的障碍物。所有差速机器人均假设具有探测工作环境的能力。环境和MARLMS所使用的仿真参数分别如表 1表 2所示。为了验证所提出方法的有效性和优越性,进行了3组对比仿真测试,包括MARLMS学习前后对比、所提出具有非完整约束的NSBC与经典NSBC方法对比,以及MARLMS与现有主流任务监管器的对比分析。MARLMS的网络结构如图 3所示,其中网络的输入为联合状态$ \mathit{\boldsymbol{s}}_{t} $,输出为所有联合行为的$ Q $值。为了提升$ Q $值的估计精度,MARLMS的网络结构内嵌了Dueling网络结构,即$ Q $值网络分解为一个状态值函数网络和一个行为优势网络。

    表  1  环境的仿真参数值
    Table  1.  Simulation parameter values of the environment
    参数名称 参数符号 参数数值
    障碍物1位置 $ {\boldsymbol{p}}_{{\rm O}1} $ $ (x-25)^{2}+y^{2}=1^{2} $
    障碍物2位置 $ {\boldsymbol{p}}_{{\rm O}2} $ $ (x-65)^{2}+(y-8)^{2}=5^{2} $
    障碍物3位置 $ {\boldsymbol{p}}_{{\rm O}3} $ $ (x-75)^{2}+(y-8)^{2}=5^{2} $
    障碍物4位置 $ {\boldsymbol{p}}_{{\rm O}4} $ $ (x-65)^{2}+(y+8)^{2}=5^{2} $
    障碍物5位置 $ {\boldsymbol{p}}_{{\rm O}5} $ $ (x-75)^{2}+(y+8)^{2}=5^{2} $
    编队质心期望轨迹 $ {\boldsymbol{p}}_{\rm c, d} $ $ [-4+t, 0] $ m
    编队相对位置 $ {\boldsymbol{p}}_{1}^{\rm c}, {\boldsymbol{p}}_{2}^{\rm c}, {\boldsymbol{p}}_{3}^{\rm c} $ $ [-4, 0], [-2, 6], [-2, -6] $ m
    编队重构矩阵 $ {\boldsymbol{\varGamma}}_{\rm FR, 1}, {\boldsymbol{\varGamma}}_{\rm FR, 2}, {\boldsymbol{\varGamma}}_{\rm FR, 3} $ $\begin{bmatrix} {-\dfrac{1}{2}} & 0 \\ 0 & 0 \end{bmatrix}, {\boldsymbol{0}}_{2}, \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}$
    安全距离 $ d_{\rm OA} $ $ 1 $ m
    任务增益 $ {\boldsymbol{\varLambda}}_{\rm FM}, {\boldsymbol{\varLambda}}_{\rm FR}, {\boldsymbol{\varLambda}}_{\rm OA} $ $ 9{\boldsymbol{I}}_{3}, 9{\boldsymbol{I}}_{3}, 20{\boldsymbol{I}}_{2} $
    起始位置 $ {\boldsymbol{p}}_{1, {\rm o}}, {\boldsymbol{p}}_{2, {\rm o}}, {\boldsymbol{p}}_{3, {\rm o}} $ $ [0, 0], [-7, 7], [-7, -7] $ m
    目标位置 $ {\boldsymbol{p}}_{1, {\rm g}}, {\boldsymbol{p}}_{2, {\rm g}}, {\boldsymbol{p}}_{3, {\rm g}} $ $ [100, 0], [94, 6], [94, -6] $ m
    下载: 导出CSV 
    | 显示表格
    表  2  MARLMS的仿真参数值
    Table  2.  Simulation parameter values of the MARLMS
    参数名称 参数符号 参数数值
    训练的总回合数 $ T_{\rm e} $ 100 000
    一个回合的总时间步长 $ T_{\rm s} $ 1 000
    宽松值的适度因子 $ \kappa_{\mathcal L} $ 2
    温度指数 $ \rho_{\gamma} $ $ - $0.01
    衰减率 $ d_{\gamma} $ 0.95
    学习率 $ \alpha_{t} $ 0.000 1
    探索指数 $ \zeta $ 0.999
    经验池数量 $ \mathcal{D} $ 50 000
    采样时间 $ \Delta t $ 0.01 s
    下载: 导出CSV 
    | 显示表格
    图  3  MARLMS的网络结构图
    Figure  3.  Network structure diagram of MARLMS

    本节对比了所提出的具有非完整约束的NSBC方法与经典NSBC方法的仿真结果,如图 4所示。由于经典NSBC方法以质点模型建模智能体的运动学,因此忽略了位置和方向间的耦合,智能体可以在不改变角度的情况下到达任意位置。将经典NSBC方法直接应用于多差速机器人系统时,智能体容易陷入最小极值状态。图 4显示了当障碍物处于智能体的正前方时,经典NSBC方法不会改变智能体的方向,从而导致智能体进入最小极值状态且无法摆脱,进而造成任务目标的失败。所提出的具有非完整约束的NSBC方法采用差速模型建模智能体的运动学,该模型考虑了智能体位置和方向间的耦合,能远比质点模型更为精确地描述多差速机器人系统。图 4显示了当智能体遭遇障碍物时,本文提出的具有非完整约束的NSBC方法会给出改变智能体方向的参考指令,从而从最小极值状态中快速离开,进而完成预定的任务目标。该仿真对比证明了本文方法比经典NSBC方法更适用于多差速机器人系统,且对最小极值状态的鲁棒性更强。

    图  4  本文NSBC方法与经典NSBC方法的仿真对比结果图
    Figure  4.  Simulation comparison results of the proposed NSBC method and the traditional NSBC method

    本节对比了本文MARLMS与现有主流任务监管器的仿真结果,包括FSAMS[16]、MPCMS[23]和RLMS[25]。对于FSAMS,第$ i $个差速机器人的切换规则设计如下:如果满足$ d_{\rm OA} <\min \{d_{i}^{\rm o}\}\leqslant 3d_{\rm OA} $,那么切换FR行为为最高行为优先级;如果满足$ \min \{d_{i}^{\rm o}\}\leqslant d_{\rm OA} $,那么切换OA行为为最高优先级;否则,切换FM行为为最高行为优先级。对于MPCMS,代价函数为编队误差和重构误差的加权和,约束为智能体与障碍物的距离大于安全距离。对于RLMS,因为全局行为无法实施,FM行为和FR行为均视为运动行为。MARLMS、FSAMS、MPCMS和RLMS的仿真对比结果如图 5~图 9所示。由图 5可知,因为MPCMS在每个采样周期内均需要在线求解最优行为优先级,所以MPCMS的平均迭代时间远高于其他任务监管器。由于FSAMS只使用多差速机器人系统的当前状态信息且在状态转移阈值附近存在开关效应,因此图 7(a)(d) 中多差速机器人系统的轨迹存在抖振且行为优先级存在不理想的切换,这将导致多差速机器人系统有时会违反安全约束。相较于FSAMS,MARLMS学习一个联合的行为优先级策略,在任务执行过程中能智能且动态地切换行为优先级,因而轨迹是光滑的,且行为优先级切换结果是理想的。由图 8可知,MPCMS和MARLMS均实现了预定的任务目标,且二者的行为优先级切换性能十分接近。根本原因是MPCMS和MARLMS均使用了多差速机器人系统的未来状态,其中MPCMS在每一个采样周期计算预测时域内的状态信息时,考虑了未来的折扣奖励以保证累积奖励的最大化。由图 9可知,RLMS只适用于单智能体系统,虽然能够避开路径附近的障碍物,但是无法形成编队和实现任务目标。为了更好地体现MARLMS任务性能的优越性,表 3统计了不同任务监管器的平均行为优先级切换次数、平均安全约束违反次数、平均在线迭代时间和任务目标完成情况。由表 3可知,相较于FSAMS,MARLMS的平均行为优先级切换次数和平均安全约束违反次数更少,即行为优先级切换的性能更佳。相较于MPCMS,MARLMS的平均在线迭代时间更短,即实时性更佳。相较于RLMS,MARLMS成功完成了任务目标,但是RLMS失败了,因此MARLMS的群体性能更佳。该仿真对比结果证明了本文MARLMS的优越性,其不仅避免了人工设计优先级切换规则,而且大幅度降低了在线计算量和保证了实时性。

    图  5  MARLMS、FSAMS、MPCMS和RLMS的平均迭代时间对比结果
    Figure  5.  Comparison results of the average iteration time among the MARLMS, FSAMS, MPCMS and RLMS
    图  6  MARLMS的仿真结果
    Figure  6.  Simulation results of the MARLMS
    图  7  FSAMS的仿真结果
    Figure  7.  Simulation results of the FSAMS
    图  8  MPCMS的仿真结果
    Figure  8.  Simulation results of the MPCMS
    图  9  RLMS的仿真结果
    Figure  9.  Simulation results of the RLMS
    表  3  不同任务监管器的任务性能对比
    Table  3.  Comparison of mission performance among different mission supervisors
    性能指标 MARLMS FSAMS MPCMS RLMS
    平均行为优先级切换次数 2 101 2 2
    平均安全约束违反次数 0 3 0 10
    平均在线迭代时间 0.55 ms 0.54 ms 200 ms 0.51 ms
    任务目标完成情况 成功 成功 成功 失败
    下载: 导出CSV 
    | 显示表格

    MARLMS的运行时间可分为离线训练阶段和在线执行阶段。在离线训练阶段,MARLMS需要完成100 000回合的训练。本文使用core-i7的惠普笔记本电脑,一回合的训练用时大约在1 s左右,且总训练时长大约在27 h左右。离线训练阶段可以使用高性能电脑或云端计算来加快训练速度,也可以使用并行计算框架协同计算来减少每台电脑的训练总回合数。在线执行阶段,MARLMS只需要调用离线学习到的策略完成行为优先级切换,每次采用的平均迭代时间为0.55 ms,足够保证行为优先级决策的实时性。实验结果表明了多差速机器人未遭遇决策时延的问题,从而验证了MARLMS的实时性能够满足需求。

    因为未知障碍物在强化学习的离线训练阶段是无法获取的,所以任务性能完全依赖于行为优先级策略的泛化性。针对未知障碍物的案例,需要在MARLMS的状态集合中补充第$ i $个差速机器人与障碍物的最小距离,即避障行为中的$ \min \{{d_{i}^{\rm o}} \} $。由于原状态集合只包含多差速机器人和编队的状态,因此对环境的表征并不充分,而扩充状态集合并未改变算法1的整体框架,且若使用视觉或者图像等更高维度信息作为状态集合的元素,那么在实际多差速机器人应用时其任务性能会更佳。在该案例中,障碍物1、2和4设置为未知障碍物,因此在离线训练时,它们对于多差速机器人是未知的。此时,离线训练完成时的多差机器人轨迹图如图 10所示。然后,将学习所得的最优行为优先级策略作用于原仿真场景,此时多差速机器人的轨迹如图 11所示。即使部分障碍物对于离线训练阶段是未知的,只要环境状态表征得足够充分,那么所学习的策略也能够凭借算法的泛化性保证多差速机器人完成预定的任务目标。

    图  10  在部分障碍物未知环境的离线训练轨迹图
    Figure  10.  Trajectories of off-line training in the environment with some unknown obstacles
    图  11  在部分障碍物未知环境的多差速机器人任务执行轨迹图
    Figure  11.  Mission execution trajectories of differential drive robots in the environment with some unknown obstacles

    在离线训练和在线执行环境不一致时的仿真测试中离线训练环境使用先前的仿真配置,而在线执行环境不包含障碍物2~5,且增加了2个新的障碍物,分别为$ (x-50)^{2}+(y-5)^{2}=2^{2} $和$ (x-75)^{2}+(y+5)^{2}=2^{2} $。MARLMS先在离线环境中学习至收敛,再将学习的策略应用于在线执行环境,其仿真结果如图 12所示。仿真结果验证了多差速机器人系统仍能避开障碍物且实现任务目标。因为避开路径附近的障碍物是通过OA行为实现的,所以无论离线训练和在线执行环境是否一致,多差速机器人系统在遭遇障碍物时都会执行OA行为以避开障碍物。然而,从图 12(d)中不难发现行为优先级存在不理想的切换。由于离线环境和在线执行环境是不一致的,因此MARLMS的联合行为优先级策略对于在线执行环境不是最优的,所以必然会存在不合理的行为优先级切换。为此,需要MARLMS在在线任务环境中利用所得到的经历进行学习,从而获取在线环境下的最优策略。

    图  12  离线训练和在线执行环境不一致时MARLMS的仿真结果
    Figure  12.  Simulation results of MARLMS when offline training and online execution environments are inconsistent

    5个差速机器人系统的编队质心期望轨迹为$ [-6+t, 0] $ m。编队相对位置分别为$ {\mathit{\boldsymbol{p}}}_{1}^{\rm c} =[6, 0] $ m、$ {\mathit{\boldsymbol{p}}}_{2}^{\rm c} =[0, 6] $ m、$ {\mathit{\boldsymbol{p}}}_{3}^{\rm c} =[0, -6] $ m、$ {\mathit{\boldsymbol{p}}}_{4}^{\rm c} =[-3, 9] $ m和$ {\mathit{\boldsymbol{p}}}_{5}^{\rm c} =[-3, -9] $ m。编队重构矩阵分别为$ {\mathit{\boldsymbol{\varGamma}}}_{\rm FR, 1} =\mathit{\boldsymbol{0}}_{2} $、$ {\mathit{\boldsymbol{\varGamma}}}_{\rm FR, 2} = \begin{bmatrix} 0 & 1/6 \\ 0 & 0 \end{bmatrix} $、$ {\mathit{\boldsymbol{\varGamma}}}_{\rm FR, 3} =\begin{bmatrix} 0 & 1/3 \\ 0 & 0 \end{bmatrix} $、$ {\mathit{\boldsymbol{\varGamma}}}_{\rm FR, 4} =\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} $和$ {\mathit{\boldsymbol{\varGamma}}}_{\rm FR, 5} =\begin{bmatrix} 4/3 & 0 \\ 0 & 0 \end{bmatrix} $。MARLMS完成离线训练后的仿真结果如图 13所示。图 13(a)显示了5个差速机器人系统可以通过执行FM、FR和OA行为,形成期望队形且避开路径附近的障碍物。图 13(c)显示了5个差速机器人系统均不会违反安全约束,在任务过程中始终与障碍物保持安全距离。图 13(d)显示了行为优先级切换是理想的,不存在不合理的行为优先级切换。上述仿真结果验证了所提出的MARLMS具有一定的可扩展性。此外,MARLMS可以通过云平台或并行训练加快学习。由于状态空间和行为空间随智能体数量呈指数增长,因此MARLMS不适用于大规模系统。

    图  13  5个差速机器人系统的MARLMS仿真结果
    Figure  13.  Simulation results of MARLMS of five differential drive robots

    实验配置示意图如图 14所示,其中图 14(a)显示的每个AgileX Limo机器人均设置为差速模式。在任务执行过程中,多AgileX Limo机器人系统使用激光雷达探测障碍物。具体来说,中央计算机分别使用WiFi和动作捕捉相机通过运行一个Python编码的MARLMS程序来获取传感器信息和AgileX Limo机器人位置信息。然后,中央计算机基于接收到的传感器和位置信息计算多AgileX Limo机器人系统的联合行为优先级。之后,中央计算机将位置信息和联合行为优先级发送给每个AgileX Limo机器人。根据接收到的位置信息和联合行为优先级,每个AgileX Limo机器人使用工控机(NVIDIA Jetson Nano)计算参考速度命令。最后,多AgileX Limo机器人系统执行参考速度命令,且中央计算机接收新的传感器和位置信息。整个过程一直持续至多AgileX Limo机器人系统移动到预定的目标位置。在整个实验环节中,MARLMS需要先在离线环境中训练,直至网络收敛且学习到一个联合行为优先级策略。在训练完成后,再将MARLMS导入实际的多差速机器人中,以在线指导智能体智能地切换行为优先级。MARLMS的实验参数值如表 4所示。在实验环节的离线训练阶段,MARLMS学习后的训练结果分别如图 15所示。在整个实验环节的离线训练过程中,MARLMS的损失函数和回报如图 16所示。

    图  14  实验配置示意
    Figure  14.  Experimental configuration schematics
    表  4  MARLMS的实验参数值
    Table  4.  Experimental parameter values of the MARLMS
    参数名称 参数符号 参数数值
    训练的总回合数 $ T_{\rm e} $ 50 000
    一个回合的总时间步长 $ T_{\rm s} $ 600
    宽松值的适度因子 $ \kappa_{\mathcal L} $ 2
    温度指数 $ \rho_{\gamma} $ −0.01
    衰减率 $ d_{\gamma} $ 0.9
    学习率 $ \alpha_{t} $ 0.000 1
    探索指数 $ \zeta $ 0.995
    经验池数量 $ \mathcal{D} $ 20 000
    采样时间 $ \Delta t $ 0.15 s
    下载: 导出CSV 
    | 显示表格
    图  15  实验环节中MARLMS学习后的训练结果
    Figure  15.  Training results of the MARLMS after learning in the experiment
    图  16  实验环节中MARLMS的训练曲线
    Figure  16.  Training curves of the MARLMS in the experiment

    本文MARLMS在多AgileX Limo机器人系统上的实验验证结果如图 17~图 20所示,其中图 17是整个实验过程的快照,图 18是MARLMS的实验结果图。图 17(a)显示了多AgileX Limo机器人系统在起始阶段未形成编队,因此FM行为是最高优先级,旨在驱使系统形成期望的队形。图 17(b)显示了多AgileX Limo机器人系统在执行任务32 s时,已经形成了期望的队形,且以编队形式向预定的目标位置移动。图 17(c)显示了当多AgileX Limo机器人系统遭遇障碍物群时,重构了新的队形,以协同的方式避开路径上的障碍物。图 17(d)显示了当多AgileX Limo机器人系统遭遇单个障碍物时,1号AgileX Limo机器人会切换OA行为作为最高优先级以避障,而其他AgileX Limo机器人会维持编队。FSAMS和MPCMS的实验结果分别如图 19图 20所示。FSAMS的行为优先级切换最为频繁,导致多差速机器人在队形切换时轨迹不光滑,以及在避障时违反安全规则。MPCMS的实时性最差,导致多差速机器人无法在90 s的任务时间内移动至目标位置。相较于FSAMS和MPCMS,本文MARLMS兼顾了行为优先级的切换性能和算法的实时性。实验结果验证了本文MARLMS的有效性、优越性和实用性。

    图  17  多AgileX Limo机器人的实验快照
    Figure  17.  The snapshots of AgileX Limo robots
    图  18  MARLMS的实验结果
    Figure  18.  Experimental results of the MARLMS
    图  19  FSAMS的实验结果
    Figure  19.  Experimental results of the FSAMS
    图  20  MPCMS的实验结果
    Figure  20.  Experimental results of the MPCMS

    图 15是离线训练的结果图,是轨迹完美跟踪时的理想结果图。图 18是实际AgileX Limo机器人系统的结果图,其中为了实验验证方便,本文使用了不依赖模型的PID控制器作为行为控制器以跟踪图 15的结果。由于地面摩擦力和AgileX Limo机器人系统内部扰动的存在,跟踪性能不可能是完美的,因此图 18的结果会比图 15差。然而,图 18(d)图 15(d)的行为优先级切换性能是一致的,因此MARLMS的最优行为优先级策略是有效的。

    针对基于行为的多差速机器人系统提出了一个新颖的MARLMS,通过学习一个联合的行为优先级策略,在任务执行过程中智能且动态地决策行为优先级。通过引入差速模型代替质点模型,提升了NSBC方法对于最小极值状态的鲁棒性,且更适用于多差速机器人系统。通过学习一个最优的联合行为优先级策略,不仅打破了单机器人系统只能进行独立学习的限制,允许更多学习者加入并通过合作完成全局行为,而且降低了人工设计行为优先级切换规则的负担和对高性能硬件平台在线计算和存储能力的依赖。未来的工作是将NSBC方法的任务层改进为分布式,且在拓扑结构限制下学习一组分布式的最优行为优先级策略,弱化NSBC方法的集中式,且提升可扩展性。

    本文沿用经典NSBC法的框架,因此MARLMS的任务层采用集中模式、控制层采用分散模式,存在隐含集中模式的致命缺陷,极大地限制了方法的可扩展性。为了解决可扩展问题,分布式系统是最为常用的手段之一。然而,行为控制系统的分布式化,不是简单地使用分布式多智能体强化学习算法就可以解决的,因为其在任务层和控制层均是分布式的。分布式行为控制框架设计的难点包括协作式任务的分布式化、分布式行为优先级策略学习的强化学习问题建模、拓扑结构的切换问题和奖励函数的设计问题等。分布式任务监管器的设计问题存在诸多难点,这是未来的重点研究内容。

  • 图  1   第$ i $个差速机器人的结构示意图

    Figure  1.   The schematic diagram of the $ i{\text{-th}}$ differential drive robot

    图  2   多智能体强化学习监管器的整体框图

    Figure  2.   Overall diagram of MARLMS

    图  3   MARLMS的网络结构图

    Figure  3.   Network structure diagram of MARLMS

    图  4   本文NSBC方法与经典NSBC方法的仿真对比结果图

    Figure  4.   Simulation comparison results of the proposed NSBC method and the traditional NSBC method

    图  5   MARLMS、FSAMS、MPCMS和RLMS的平均迭代时间对比结果

    Figure  5.   Comparison results of the average iteration time among the MARLMS, FSAMS, MPCMS and RLMS

    图  6   MARLMS的仿真结果

    Figure  6.   Simulation results of the MARLMS

    图  7   FSAMS的仿真结果

    Figure  7.   Simulation results of the FSAMS

    图  8   MPCMS的仿真结果

    Figure  8.   Simulation results of the MPCMS

    图  9   RLMS的仿真结果

    Figure  9.   Simulation results of the RLMS

    图  10   在部分障碍物未知环境的离线训练轨迹图

    Figure  10.   Trajectories of off-line training in the environment with some unknown obstacles

    图  11   在部分障碍物未知环境的多差速机器人任务执行轨迹图

    Figure  11.   Mission execution trajectories of differential drive robots in the environment with some unknown obstacles

    图  12   离线训练和在线执行环境不一致时MARLMS的仿真结果

    Figure  12.   Simulation results of MARLMS when offline training and online execution environments are inconsistent

    图  13   5个差速机器人系统的MARLMS仿真结果

    Figure  13.   Simulation results of MARLMS of five differential drive robots

    图  14   实验配置示意

    Figure  14.   Experimental configuration schematics

    图  15   实验环节中MARLMS学习后的训练结果

    Figure  15.   Training results of the MARLMS after learning in the experiment

    图  16   实验环节中MARLMS的训练曲线

    Figure  16.   Training curves of the MARLMS in the experiment

    图  17   多AgileX Limo机器人的实验快照

    Figure  17.   The snapshots of AgileX Limo robots

    图  18   MARLMS的实验结果

    Figure  18.   Experimental results of the MARLMS

    图  19   FSAMS的实验结果

    Figure  19.   Experimental results of the FSAMS

    图  20   MPCMS的实验结果

    Figure  20.   Experimental results of the MPCMS

    算法1    多智能体强化学习任务监管器
    输入: 训练的总回合数$ T_{\rm e} $,一个回合的总时间步长$ T_{\rm s} $
    1: 初始化$ Q( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t};{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V} , {{\mathit{\boldsymbol{W}}}_{\rm B}})=V( \mathit{\boldsymbol{s}}_{t}; {\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V} )+ B( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t};{}{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm B} ) $,并给予初始化的网络权重$ {\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V}, {\mathit{\boldsymbol{W}}}_{\rm B} $
    2: 初始化经验池$ {\mathcal D} $
    3: 初始化贪婪探索策略$ \bar{T}({\phi ({\mathit{\boldsymbol{s}}_{t}})}) $和宽松值$ {\mathcal L}_{t} $
    4: for回合$ = 1, 2, \cdots, T_{\rm e} $ do
    5:        重置联合状态$ \mathit{\boldsymbol{s}}_{t} $至初始状态$ \mathit{\boldsymbol{s}}_{0} $
    6:        for $ t = 1, 2, \cdots, T_{\rm s} $ do
    7:                $ Q_{t-1}^{\rm B} ( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t} ) =\dfrac{1}{\lambda} \sum\limits_{\iota =1}^{\lambda} Q ( \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}; {\mathit{\boldsymbol{W}}}_{{\rm Q}_{t-\iota}}, {\mathit{\boldsymbol{W}}}_{{\rm V}_{t-\iota}}, {\mathit{\boldsymbol{W}}}_{{\rm B}_{t-\iota}} ) $
    8:                $ y_{\mathit{\boldsymbol{s}}_{{t}}, \mathit{\boldsymbol{b}}_{t}} =E_{\rm D} \Big[r+\gamma \max_{\mathit{\boldsymbol{b}}_{t+1}} Q_{t-1}^{\rm B} (\mathit{\boldsymbol{s}}_{t+1}, \mathit{\boldsymbol{b}}_{t+1})\mid \mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}\Big] $
    9:                $ {\mathit{\boldsymbol{W}}}_{{\rm Q}_{t}}, {\mathit{\boldsymbol{W}}}_{{\rm V}_{t}}, {\mathit{\boldsymbol{W}}}_{{\rm B}_{t}} \mathop {{\rm{arg min}}}\limits_{{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V}, {\mathit{\boldsymbol{W}}}_{\rm B}} {E}_{\rm D}\Big[ ( y_{\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}} - \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; {{Q({\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t};{\mathit{\boldsymbol{W}}}_{\rm Q}, {\mathit{\boldsymbol{W}}}_{\rm V}, {\mathit{\boldsymbol{W}}}_{\rm B}})} )^{2}}\Big] $
    10:        end for
    11: end for
    输出: $ Q_{(T_{\rm e} \cdot T_{\rm s})}^{\rm B} (\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}) \!=\!\dfrac{1}{\lambda} \sum\limits_{\bar{\iota} =0}^{\lambda -1} Q (\mathit{\boldsymbol{s}}_{t}, \mathit{\boldsymbol{b}}_{t}; {\mathit{\boldsymbol{W}}}_{{\rm Q}_{T_{\rm e} \cdot T_{\rm s} -\bar{\iota}}}, {\mathit{\boldsymbol{W}}}_{{\rm V}_{T_{\rm e} \cdot T_{\rm s} -\bar{\tau}}}, {\mathit{\boldsymbol{W}}}_{{\rm B}_{T_{\rm e} \cdot T_{\rm s} -\bar{\tau}}}) $
    下载: 导出CSV

    表  1   环境的仿真参数值

    Table  1   Simulation parameter values of the environment

    参数名称 参数符号 参数数值
    障碍物1位置 $ {\boldsymbol{p}}_{{\rm O}1} $ $ (x-25)^{2}+y^{2}=1^{2} $
    障碍物2位置 $ {\boldsymbol{p}}_{{\rm O}2} $ $ (x-65)^{2}+(y-8)^{2}=5^{2} $
    障碍物3位置 $ {\boldsymbol{p}}_{{\rm O}3} $ $ (x-75)^{2}+(y-8)^{2}=5^{2} $
    障碍物4位置 $ {\boldsymbol{p}}_{{\rm O}4} $ $ (x-65)^{2}+(y+8)^{2}=5^{2} $
    障碍物5位置 $ {\boldsymbol{p}}_{{\rm O}5} $ $ (x-75)^{2}+(y+8)^{2}=5^{2} $
    编队质心期望轨迹 $ {\boldsymbol{p}}_{\rm c, d} $ $ [-4+t, 0] $ m
    编队相对位置 $ {\boldsymbol{p}}_{1}^{\rm c}, {\boldsymbol{p}}_{2}^{\rm c}, {\boldsymbol{p}}_{3}^{\rm c} $ $ [-4, 0], [-2, 6], [-2, -6] $ m
    编队重构矩阵 $ {\boldsymbol{\varGamma}}_{\rm FR, 1}, {\boldsymbol{\varGamma}}_{\rm FR, 2}, {\boldsymbol{\varGamma}}_{\rm FR, 3} $ $\begin{bmatrix} {-\dfrac{1}{2}} & 0 \\ 0 & 0 \end{bmatrix}, {\boldsymbol{0}}_{2}, \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix}$
    安全距离 $ d_{\rm OA} $ $ 1 $ m
    任务增益 $ {\boldsymbol{\varLambda}}_{\rm FM}, {\boldsymbol{\varLambda}}_{\rm FR}, {\boldsymbol{\varLambda}}_{\rm OA} $ $ 9{\boldsymbol{I}}_{3}, 9{\boldsymbol{I}}_{3}, 20{\boldsymbol{I}}_{2} $
    起始位置 $ {\boldsymbol{p}}_{1, {\rm o}}, {\boldsymbol{p}}_{2, {\rm o}}, {\boldsymbol{p}}_{3, {\rm o}} $ $ [0, 0], [-7, 7], [-7, -7] $ m
    目标位置 $ {\boldsymbol{p}}_{1, {\rm g}}, {\boldsymbol{p}}_{2, {\rm g}}, {\boldsymbol{p}}_{3, {\rm g}} $ $ [100, 0], [94, 6], [94, -6] $ m
    下载: 导出CSV

    表  2   MARLMS的仿真参数值

    Table  2   Simulation parameter values of the MARLMS

    参数名称 参数符号 参数数值
    训练的总回合数 $ T_{\rm e} $ 100 000
    一个回合的总时间步长 $ T_{\rm s} $ 1 000
    宽松值的适度因子 $ \kappa_{\mathcal L} $ 2
    温度指数 $ \rho_{\gamma} $ $ - $0.01
    衰减率 $ d_{\gamma} $ 0.95
    学习率 $ \alpha_{t} $ 0.000 1
    探索指数 $ \zeta $ 0.999
    经验池数量 $ \mathcal{D} $ 50 000
    采样时间 $ \Delta t $ 0.01 s
    下载: 导出CSV

    表  3   不同任务监管器的任务性能对比

    Table  3   Comparison of mission performance among different mission supervisors

    性能指标 MARLMS FSAMS MPCMS RLMS
    平均行为优先级切换次数 2 101 2 2
    平均安全约束违反次数 0 3 0 10
    平均在线迭代时间 0.55 ms 0.54 ms 200 ms 0.51 ms
    任务目标完成情况 成功 成功 成功 失败
    下载: 导出CSV

    表  4   MARLMS的实验参数值

    Table  4   Experimental parameter values of the MARLMS

    参数名称 参数符号 参数数值
    训练的总回合数 $ T_{\rm e} $ 50 000
    一个回合的总时间步长 $ T_{\rm s} $ 600
    宽松值的适度因子 $ \kappa_{\mathcal L} $ 2
    温度指数 $ \rho_{\gamma} $ −0.01
    衰减率 $ d_{\gamma} $ 0.9
    学习率 $ \alpha_{t} $ 0.000 1
    探索指数 $ \zeta $ 0.995
    经验池数量 $ \mathcal{D} $ 20 000
    采样时间 $ \Delta t $ 0.15 s
    下载: 导出CSV
  • [1]

    HU J Q, ZHANG Y M, RAKHEJA S. Adaptive trajectory tracking for car-like vehicles with input constraints[J]. IEEE Transactions on Industrial Electronics, 2022, 69(3): 2801-2810. doi: 10.1109/TIE.2021.3068672

    [2]

    QIN B, YAN H C, ZHANG H, et al. Enhanced reduced-order extended state observer for motion control of differential driven mobile robot[J]. IEEE Transactions on Cybernetics, 2023, 53(2): 1299-1310. doi: 10.1109/TCYB.2021.3123563

    [3]

    YU X, SU R. Decentralized circular formation control of nonholonomic mobile robots under a directed sensor graph[J]. IEEE Transactions on Automatic Control, 2023, 68(6): 3656-3663. doi: 10.1109/TAC.2022.3194096

    [4] 王伟嘉, 郑雅婷, 林国政, 等. 集群机器人研究综述[J]. 机器人, 2020, 42(2): 232-256. doi: 10.13973/j.cnki.robot.190009

    WANG W J, ZHENG Y T, LIN G Z, et al. Swarm robotics: A review[J]. Robot, 2020, 42(2): 232-256. doi: 10.13973/j.cnki.robot.190009

    [5]

    GARATTONI L, BIRATTARI M. Autonomous task sequencing in a robot swarm[J]. Science Robotics, 2018, 3(20). doi: 10.1126/scirobotics.aat0430

    [6] 李勇, 李坤成, 孙柏青, 等. 智能体Petri网融合的多机器人-多任务协调框架[J]. 自动化学报, 2021, 47(8): 2029-2049. doi: 10.16383/j.aas.c190400

    LI Y, LI K C, SUN B Q, et al. Multi-robot-multi-task coordination framework based on the integration of intelligent agent and Petri net[J]. Acta Automatica Sinica, 2021, 47(8): 2029-2049. doi: 10.16383/j.aas.c190400

    [7]

    MUSIĆ S, HIRCHE S. Control sharing in human-robot team interaction[J]. Annual Reviews in Control, 2017, 44: 342-354. doi: 10.1016/j.arcontrol.2017.09.017

    [8]

    XU L, XU Q M, CHEN C L, et al. Efficient task-network scheduling with task conflict metric in time-sensitive networking[J]. IEEE Transactions on Industrial Informatics, 2024, 20(2): 1528-1538. doi: 10.1109/TII.2023.3278883

    [9] 王峰, 张衡, 韩孟臣, 等. 基于协同进化的混合变量多目标粒子群优化算法求解无人机协同多任务分配问题[J]. 计算机学报, 2021, 44(10): 1967-1983. doi: 10.11897/SP.J.1016.2021.01967

    WANG F, ZHANG H, HAN M C, et al. Co-evolution based mixed-variable multi-objective particle swarm optimization for UAV cooperative multi-task allocation problem[J]. Chinese Journal of Computers, 2021, 44(10): 1967-1983. doi: 10.11897/SP.J.1016.2021.01967

    [10]

    BROOKS R A. New approaches to robotics[J]. Science, 1991, 253(5025): 1227-1232. doi: 10.1126/science.253.5025.1227

    [11] 王义萍, 陈庆伟, 胡维礼. 机器人行为选择机制综述[J]. 机器人, 2009, 31(5): 472-480. https://robot.sia.cn/cn/article/id/550

    WANG Y P, CHEN Q W, HU W L. A survey on robot behavior selection mechanism[J]. Robot, 2009, 31(5): 472-480. https://robot.sia.cn/cn/article/id/550

    [12] 居鹤华, 崔平远, 刘红云. 基于自主行为智能体的月球车运动规划与控制[J]. 自动化学报, 2006, 32(5): 704-712. http://www.aas.net.cn/article/id/15604

    JU H H, CUI P Y, LIU H Y. Autonomous behavior agent-based lunar rover motion planning and control[J]. Acta Automatica Sinica, 2006, 32(5): 704-712. http://www.aas.net.cn/article/id/15604

    [13]

    REZAEE H, ABDOLLAHI F. A decentralized cooperative control scheme with obstacle avoidance for a team of mobile robots[J]. IEEE Transactions on Industrial Electronics, 2014, 61(1): 347-354. doi: 10.1109/TIE.2013.2245612

    [14]

    MAC T T, COPOT C, DE KEYSER R, et al. MIMO fuzzy control for autonomous mobile robot[J]. Journal of Automation and Control Engineering, 2016, 4(1): 65-70. doi: 10.12720/joace.4.1.65-70

    [15]

    ANTONELLI G, CHIAVERINI S. Kinematic control of platoons of autonomous vehicles[J]. IEEE Transactions on Robotics, 2006, 22(6): 1285-1292. doi: 10.1109/TRO.2006.886272

    [16]

    MUSCIO G, PIERRI F, TRUJILLO M A, et al. Coordinated control of aerial robotic manipulators: Theory and experiments[J]. IEEE Transactions on Control Systems Technology, 2018, 26(4): 1406-1413. doi: 10.1109/TCST.2017.2716905

    [17]

    HUANG J, ZHOU N, CAO M. Adaptive fuzzy behavioral control of second-order autonomous agents with prioritized missions: Theory and experiments[J]. IEEE Transactions on Industrial Electronics, 2019, 66(12): 9612-9622. doi: 10.1109/TIE.2019.2892669

    [18]

    WANG W J, LI C J, GUO Y N. Relative position coordinated control for spacecraft formation flying with obstacle/collision avoidance[J]. Nonlinear Dynamics, 2021, 104: 1329-1342. doi: 10.1007/s11071-021-06348-9

    [19]

    ZHOU N, CHENG X D, SUN Z Q, et al. Fixed-time cooperative behavioral control for networked autonomous agents with second-order nonlinear dynamics[J]. IEEE Transactions on Cybernetics, 2022, 52(9): 9504-9518. doi: 10.1109/TCYB.2021.3057219

    [20]

    YAO P, WEI Y X, ZHAO Z Y. Null-space-based modulated reference trajectory generator for multi-robots formation in obstacle environment[J]. ISA Transactions, 2022, 123: 168-178. doi: 10.1016/j.isatra.2021.05.033

    [21]

    ZHENG C B, PANG Z H, WANG J X, et al. Null-space-based time-varying formation control of uncertain nonlinear second-order multi-agent systems with collision avoidance[J]. IEEE Transactions on Industrial Electronics, 2023, 70(10): 10476-10485. doi: 10.1109/TIE.2022.3217585

    [22]

    MARINO A, CACCAVALE F, PARKER L E, et al. Fuzzy behavioral control for multi-robot border patrol[C]//17th Mediterranean Conference on Control and Automation. Piscataway, USA: IEEE, 2009: 246-251. doi: 10.1109/med.2009.5164547

    [23]

    CHEN Y T, ZHANG Z Y, HUANG J. Dynamic task priority planning for null-space behavioral control of multi-agent systems[J]. IEEE Access, 2020, 8: 149643-149651. doi: 10.1109/ACCESS.2020.3016347

    [24]

    WANG W, GUO J Y, TIAN G Q, et al. Event-triggered intervention framework for UAV-UGV coordination systems[J]. Machines, 2021, 9(12). doi: 10.3390/machines9120371

    [25]

    ZHANG Z Y, MO Z B, CHEN Y T, et al. Reinforcement learning behavioral control for nonlinear autonomous system[J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(9): 1561-1573. doi: 10.1109/JAS.2022.105797

    [26]

    HUANG J, MO Z B, ZHANG Z Y, et al. Behavioral control task supervisor with memory based on reinforcement learning for human-multi-robot coordination systems[J]. Frontiers of Information Technology & Electronic Engineering, 2022, 23: 1174-1188. doi: 10.1631/FITEE.2100280

    [27]

    VAN DANG C, AHN H, KIM J W, et al. Collision-free navigation in human-following task using a cognitive robotic system on differential drive vehicles[J]. IEEE Transactions on Cognitive and Developmental Systems, 2023, 15(1): 78-87. doi: 10.1109/TCDS.2022.3145915

    [28]

    CHEN Y, LI Z J, KONG H Y, et al. Model predictive tracking control of nonholonomic mobile robots with coupled input constraints and unknown dynamics[J]. IEEE Transactions on Industrial Informatics, 2019, 15(6): 3196-3205. doi: 10.1109/TII.2018.2874182

    [29]

    WEI E M, LUKE S. Lenient learning in independent-learner stochastic cooperative games[J]. The Journal of Machine Learning Research, 2016, 17(1): 2914-2955. doi: 10.5555/2946645.3007037

  • 期刊类型引用(1)

    1. 吴永林,李晓然. 基于主动容错控制策略的物流机器人故障检测研究. 西昌学院学报(自然科学版). 2024(04): 68-72+80 . 百度学术

    其他类型引用(0)

图(20)  /  表(5)
计量
  • 文章访问数:  171
  • HTML全文浏览量:  52
  • PDF下载量:  101
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-06-02
  • 录用日期:  2024-02-06
  • 刊出日期:  2024-07-14

目录

/

返回文章
返回
x 关闭 永久关闭