(通讯员 付之翰)近日,《兵工学报》刊发了北京航空航天大学BBIN宝盈集团刘正华、王卫红老师团队的题为《基于迭代式师生训练的协同区域覆盖算法》的论文,该研究团队围绕未知环境下无人机协同区域覆盖路径规划中训练效率低、收敛不稳定及泛化能力不足等问题,提出了一种融合课程训练与迭代式师生学习机制的深度强化学习方法,为复杂环境下多无人机高效协同覆盖提供了新思路。

图1 策略迭代整体框架
一、研究背景
无人机在农田检测、环境监测、物流配送和搜索救援等领域具有广泛应用前景,区域覆盖路径规划是无人机执行相关任务的重要环节,目标是在尽可能短的时间内、以尽可能低的代价完成指定区域覆盖。传统方法多基于粒子群、蚁群、遗传算法等经典优化算法,虽然具有一定工程适用性,但在复杂环境或大规模栅格地图中,常面临搜索空间膨胀、计算复杂度高、对多智能体协同适应性有限等问题,难以兼顾求解效率与覆盖效果。
二、研究方法与创新点
针对未知环境下无人机协同区域覆盖路径规划中训练效率低、收敛不稳定及泛化能力不足等问题,研究团队提出了一种融合课程训练与迭代式师生学习机制的深度强化学习方法。该方法在异构智能体近端策略优化算法基础上,通过设计多阶段课程训练,将复杂覆盖任务拆解为由简到繁的子任务序列,引导智能体逐步完成从简单环境到复杂环境的过渡学习。同时,将前期课程中已收敛的模型作为教师网络,通过知识蒸馏指导学生网络继续训练,从而提升复杂任务中的初始探索效率,减缓策略退化问题,增强模型对不同环境的适应能力。

图2 神经网络架构
三、主要结果与数据分析
仿真实验结果表明,所提出的CC-HAPPO方法在训练过程中表现出更快的收敛速度,在测试阶段实现了更短的区域覆盖时间和更低的单元重复访问率。在不同规模栅格环境和随机障碍配置下,该方法在覆盖完成时间、重复访问率等关键指标上均优于对比方法,显示出较好的鲁棒性与泛化能力。图1展示了策略迭代的整体框架,图2给出了神经网络架构设计,图3对比了CC-HAPPO方法与现有方法的性能差异。

图3 CC-HAPPO方法性能比较
四、研究意义与应用前景
该研究面向复杂未知环境下的多无人机协同区域覆盖需求,提出了一种可扩展的深度强化学习训练范式,为多智能体协同覆盖问题提供了新的解决路径。该方法不依赖环境先验信息,具有良好的通用性和可迁移性,可为无人机在环境监测、灾害搜救、农田巡检等场景中的自主协同应用提供方法支撑。
原文链接:http://www.co-journal.com/thesisDetails#10.12382/bgxb.2025.0274&lang=zh