未知环境下的无人机导航系统导读
-
摘要
Name:基于数据融合的多传感器自动导航系统(MDFAN)
Step: -
1.减少先验知识:将导航问题化为决策路径规划问题
-
2.提取当前有效的环境信息并挖掘当前环境信息与UAV的当前状态的固有内在关系
-
3.提出一个强化学习的方法:这个方法能够解决未知环境的不确定情形所产生的问题
-
介绍
-
1.传统方法非常起来对环境的先验知识,且对于噪声高的数据精度低…etc
-
2.面临的挑战:
-
在建模过程中,模型的建立依赖于特定的环境
-
无人机可能被派遣到不可预见的情形下执行任务
-
3.MDFAN功能:碰撞避免、路径规划、数据融合
做法: -
通过强化学习来实现模型对飞行环境的依赖(不是利用特定环境的信息, 而是利用无人机的飞行状态)
-
从复杂多样的数据中提取有效信息(卷积神经网络) 并 在当前环境与 无人机当前状态(用灰度图表示)之间建立关联
-
从无人机状态提取特征 并 将这些特征从可见状态泛化到不可见状态
-
系统架构
-组件 -
1.核心组件在训练过程中将传感器数据发送到服务器
-
2.机载计算机实时地从传感器接受数据并整合数据评估无人机状态
-
3.将无人机状态作为参数进行深度强化学习,进而做出行为决策
-系统架构 -
交互层:
硬件:包括定位传感器、雷达传感器、图像传感器、动作传感器
软件:感知算法探测障碍物,定位算法计算无人机与目标物的距离 -
训练层:
目的:在仿真环境中训练路径规划模型 -
1.处理奖励数据是从无人机和仿真环境之间的交互中获得,
然后将这些数据喂进神经网络,进而找起点到终点的最佳路径 -
2.飞行决策模型是在仿真环境中建立的
-
应用层:
-
1.无人机起初只知道未知环境里的起点和终点
-
2.机载传感器收集位置信息、超声波信息、深度图像、无人机运动信息
-
规划层:
-
1.与应用层紧密相连
-
2.机载计算机将多个传感器收集的数据融合成一个可以表示无人机状态的数据
此后,在应用层和规划层的交互处理中,无人机会到达目的地
-
方法
-飞行决策制定 -
1.飞行决策制定:将路径规划问题转化为决策问题
-
2.在未知环境下,MDFAN的目标不是利用特定环境的信息,而是利用无人机的飞行
状态 -
3.在不同环境的飞行处理能够方程化为MDP,MDP可在飞行路径和无人机状态建立
联系 -
4.飞行路径决策问题可描述为智能体(agent)—环境交互问题,智能体(agent)通过从与 环境交互中积累经验进而学习规则
-
5.奖励函数:奖励函数在加强学习中非常重要,它反映了我们需要智能体(agent)完
成的事情。包括:
- 运动方向奖励: -
为了能够到达目的地,我们需要获取目的地方向的角度
-
在每一个时间步之后,如果智能体(agent)前进方向与目的地方向相一致, 那么智能体就会得到一个持续的奖励或惩罚lamda
-
距离奖励:
-
与无人机的位置及目的地密切相关
-
在每一个时间步之后,如果智能体(agent)离目的地越近,智能体(agent)
会得到越多的减少距离的奖励,如果二者的距离是不断地增大,智能体
(agent)会在达到奖励最低值 -
障碍物感知奖励:
-
如果智能体(agent)碰到障碍物,飞行结束且智能体(agent)会受到重重
的惩罚 -
时间奖励:
-
我们希望智能体(agent)能够尽快地到达目的地,所以每个时间步智能
体(agent)都会受到持续的惩罚- 多传感器数据融合
无人机的两个状态:本地状态、全球状态
- 多传感器数据融合
-
本地状态:考虑碰撞避免,用深度图像表示
-
全球状态:需要关注于无人机目标的位置,用方向角度表示,再将其编码成图片, 然后我们融合碰撞信息和目的地信息成一张图片。如此,无人机的状 态就与环境是独立的
-
卷积神经网络被应用来提取图片特征
广义(general)神经网络方法是用分类或者回归的,而我们的方法是根据各种传感器
数据来对每一步动作作决策
-
未知环境的路径规划
使用传统的强化学习方法进行数据处理,并用Q-table存储Q-value,Q-value通过近
似方程来表示。这样的好处是既消除了Q-table太大而不能存储的限制,又能让我们通
过特征提取将可见状态推广到不可见状态 -
实验
-
1.实验描述:柱子障碍物是随机分配的,目的是使得模拟更具有现实性
-
2.训练:
-
无人机状态用灰度图表示,灰度图包括图像深度和目的地位置
-
无人机以固定的速度在固定的高度飞行。所以动作域是比较小的,它包括直飞、
右转、左转 -
训练结果:累积奖励的整体趋势是上升的
-
3.评估:
仿真环境: -
训练之后,我们通过100个数据(episodes)来评估学习策略
-
在评估过程中,无人机仍然在飞行,而它的飞行起点跟终点都是随机的
-
为了方便比较奖励,不同场景下的起点和终点的距离是固定的
-
评估结果:
-
30%的episodes是失败的;就成功的episodes而言,红线代表它们的平均
奖励 -
比较两种方式:红线代表我们方法的平均奖励,绿线代表ACO方法。我们
的方法比ACO方法稍高,我们认为有两个原因。一是是因为无人机遭遇更
多不可见的情形,而在这些情形中无人机寻找更好的路径去到达目的地,所
以在测试集中我们方法的奖励比ACO方法的奖励要高;二是ACO方法是
基于网格的,所以路径的光滑度依赖于网格的大小,而我们的方法是与飞行
决策相关,这是更为合理的 -
总的来说,在仿真环境下,我们的方法效果还是不错的
现实环境:无人机最开始仅仅知道自己的位置及目的地位置,其余都不知道
-
1.现实环境的挑战是复杂多样且不稳定的,包括:转弯、改变光亮度及玻璃墙
-
2.我们实验的主要目的是评估我们系统在现实环境下的泛化性能
-
评估结果:
-
通过100个数据来评估下学习策略,其中30%的数据是失败的,而成功的 数据的奖励大概为140,而失败数据的奖励少于-50
-
结果显示,我们的方法的飞行轨迹较ACO方法更光滑,因为ACO方法依
赖于网格地图,网格越小,飞行轨迹越光滑,但是这样会使得计算负载倍
速增加