博士论文

发布时间:2025年09月27日  作者:aiycxz.cn

基于多智能体深度强化学习的多机器人协同控制研究作者姓名: 刘 佳指导教师: 吴成东 教授学科专业: 机器人科学与工程东北大学机器人科学与工程学院2022年6月A Dissertation in Robotics Science and EngineeringResearch on Multi-Robot Cooperative Control Based on Multi-Agent Deep Reinforcement Learningby LIU JiaSupervisor: Professor WU ChengdongNortheastern UniversityJune 2022# 独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名: 日期:2022年6月1日## 学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:| 半年 | □ | 一年 | □ | 一年半 | □ | 两年 | □ ||---|---|---|---|---|---|---|---|| 学位论文作者签名: | | | | | | | || 签字日期:2022年6月1日 | | | | | | | |导师签名: 签字日期:2022年6月1日---东北大学博士学位论文摘要多机器人系统在工业、农业、军事、服务业等领域具有广阔的应用前景,其协同控制是机器人领域的重要研究方向。多机器人系统协同控制面临的主要挑战包括:系统模型难以精确建立、环境存在不确定性、机器人之间难以实现高效协同等。多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)将深度学习的感知能力与强化学习的决策能力相结合,并利用多智能体技术实现自主学习和协同决策,为解决多机器人协同控制问题提供了新的思路。然而,在多机器人系统中应用 MADRL 方法仍面临诸多挑战,包括:多机器人系统的高维状态空间导致算法收敛困难;多机器人系统的动作空间通常是连续的,难以直接应用离散动作空间的 MADRL 算法;多机器人系统存在通信约束,难以实现去中心化协同控制;多机器人系统存在异构性,难以实现高效协同。针对上述问题,本文围绕基于 MADRL 的多机器人协同控制方法展开研究,主要研究内容如下:(1)针对多机器人系统的高维状态空间导致算法收敛困难的问题,提出了一种基于注意力机制的多智能体深度强化学习(Attention-based Multi-Agent Deep Reinforcement Learning, AMADRL)算法。该算法利用注意力机制从高维状态信息中提取关键特征,从而降低状态空间的维度,提高算法的收敛速度。在多机器人协同导航任务上的实验结果表明,所提算法能够有效降低状态空间的维度,提高算法的收敛速度和性能。(2)针对多机器人系统的动作空间通常是连续的,难以直接应用离散动作空间的 MADRL 算法的问题,提出了一种基于最大熵的多智能体深度强化学习(Maximum Entropy Multi-Agent Deep Reinforcement Learning, MEMADRL)算法。该算法将最大熵强化学习框架扩展到多智能体系统中,通过最大化期望回报和策略的熵来鼓励智能体探索环境,从而在连续动作空间中实现高效学习。在多机器人协同导航任务上的实验结果表明,所提算法能够有效处理连续动作空间,提高算法的探索效率和性能。(3)针对多机器人系统存在通信约束,难以实现去中心化协同控制的问题,提出了一种基于图卷积网络的多智能体深度强化学习(Graph Convolutional Network-based Multi-Agent Deep Reinforcement Learning, GCNMADRL)算法。该算法利用图卷积网络对多机器人系统的拓扑结构进行建模,从而在通信受限的情况下实现去中心化协同控制。在多机器人协同围捕任务上的实验结果表明,所提算法能够有效处理通信约束,实现去中心化协同控制。(4)针对多机器人系统存在异构性,难以实现高效协同的问题,提出了一种基于元- III -东北大学博士学位论文摘要强化学习的多智能体深度强化学习(Meta-Reinforcement Learning-based Multi-Agent Deep Reinforcement Learning, MetaMADRL)算法。该算法利用元强化学习框架学习跨任务的共享知识,从而快速适应新的任务和环境。在多机器人协同围捕任务上的实验结果表明,所提算法能够有效处理异构性,实现高效协同。关键词:多机器人系统;协同控制;多智能体深度强化学习;注意力机制;最大熵;图