万软资讯-好资源汇集平台

华人博士用强化学习接纳了SpaceX火箭

实习小编 热议 200
扫码手机访问手机访问:华人博士用强化学习接纳了SpaceX火箭
0

【摘要】 马斯克旗下的 SpaceX 可以说带火了 " 火箭回收 " 这一话题。 这不,连粉丝们都已经开始摩拳擦掌,用自己的方式挑战起了这个技术难题。 例如一位来自密歇根大学的华人博士,......

马斯克旗下的 SpaceX 可以说带火了 " 火箭回收 " 这一话题。

这不,连粉丝们都已经开始摩拳擦掌,用自己的方式挑战起了这个技术难题。

例如一位来自密歇根大学的华人博士,就用强化学习试了一把回收火箭!

他根据现实中的星舰 10 号一通进行模拟,还真在虚拟环境中稳稳地完成了悬停和着陆!

这个项目迅速在 Reddit 上引发了大批网友们的关注:

那么,他是如何实现的呢?

给火箭回收设立 " 奖励机制 "

要在模拟环境中回收火箭,那么大一只构造复杂的火箭肯定是不能直接抱来用的。

于是,这位 SpaceX 的铁杆粉丝首先基于气缸动力学,将火箭简化为一个二维平面上的刚体:

这个火箭的底部安装有推力矢量发动机,能够提供不同方向的可调的推力值(0.2g,1.0g 和 2.0g);同时,火箭喷嘴上还增加了一个角速度约束,最大转速为 30 ° / 秒。

火箭模型所受到的空气阻力则设定为与速度成正比。

现在,这个模型的一些基本属性就能够以下面两个集合来表示:

动作空间:发动机离散控制信号的集合,包括推力加速度和喷嘴角速度

状态空间:由火箭位置、速度、角度、角速度、喷管角度和仿真时间组成的集合

而 " 火箭回收 " 这一流程,则被分为了悬停着陆两个任务。

在悬停任务中,火箭模型需要遵循这样一种奖励机制:

火箭与预定目标点的距离:距离越近,奖励越大;

火箭体的角度:火箭应该尽可能保持竖直

着陆任务则基于星舰 10 号的基本参数,将火箭模型的初始速度设置为 -50 米 / 秒,方向设置为 90 °(水平方向),着陆燃烧高度设置为离地面 500 米。

星舰 10 号发射和着陆的合成图像

火箭模型在着陆时同样需要遵循这样一种 " 奖励机制 ":

当着陆速度小于安全阈值,并且角度接近竖直 0 ° 时,就会受到最大的 " 奖励 ",也会被认为是一次成功的着陆。

总体而言,这是一个基于策略的参与者 - 评判者的模型。

接下来就是进行训练:

最终,在经历了20000次的训练后,火箭模型在悬停和着陆两个任务上都实现了较好的效果:

最终,模型得到了很好的收敛效果:

而这枚模拟环境中的伪 · 星舰 10 号,也就像开头展示的那张动图一样,学会了腹部着陆,稳稳地落地了。

下一步:增加燃料变量

这一项目一经发出,就引来了红迪众多网友的围观和称赞。

有人觉得用强化学习来解决传统任务非常有趣,因为它具有更好的鲁棒性。

作者也在下方回复表示:现实中恶劣的环境条件可以成为环境制约因素,而强化学习则能在一个统一的框架内解决这些问题。

不过在称赞之余,也有网友提出了最直接的这样一个问题:

既然我们已经可以使用经典控制方法找到这些任务的最优解,那为啥 SpaceX 之前没人做?

下方有人解答到:这或许是因为之前的数字控制系统、传感器等技术并不成熟,采用新方法就意味着要重新设计火箭的关键部分。

这也就是控制系统层面之外的 " 工程类的问题 ",而 SpaceX 正是在这些相关领域中做了改进。

而那些较为传统保守的航天航空工业则会使用使用凸优化(Convexification)来解决火箭着陆问题。

也就是评论区有人贴出的这篇论文中提到的方法:

不少评论也为开发者提供了下一步开发的新思路,比如这条评论建议将 " 剩余燃料 " 也作为一个变量,模型燃料的减少或耗尽也是现实中的一个重要影响因素。

作者欣然接受了这一建议:是很容易添加的有趣设置,安排!

密歇根大学华人博士

开发者已经为这一项目建立了一个网站,在主页他这样介绍到:

这是我的第一个强化学习项目,所以,我希望通过这些 " 低水平代码 " 尽可能地从头实现包括环境、火箭动力学和强化学习 agent 在内的所有内容。

作者叫 Zhengxia Zou,是一位来自密歇根大学博士,主要研究计算机视觉、遥感、自动驾驶等领域。

他的论文曾被 ICCV 2021、CVPR 2021 等多个顶会收录:

以上内容是万软资讯小编为大家搜集整理的关于“华人博士用强化学习回收了SpaceX火箭”的热点资讯。希望能帮忙到大家!

“复活”的QQ宠物,回不来的情怀

QQ 音乐迎来了改版,不过这一次的主角不在音乐播放列表里,而是回归的 QQ 宠物。网友们兴冲冲地更新 app,用一首歌的时间孵化了它,又给身边朋友们安利了一圈。不过体验了一周之后,大家的普遍感受还是:——万软资讯wruan

推荐阅读:

脉脉回应异常扣费:整改会员续费系统

韩国新能源汽车挂号数目首破百万,今年增幅达 22.3%

9月RTX 30供货量进一步缩减,想买卡势必加倍难题

孕妇泰国坠崖案从无期改十年 这符合法理吗?

天下铁路10强省份:内蒙独占鳌头,河北领先新疆,南方仅1省入围

GAN靠「伪造头脑」登上Nature子刊:首次合成神经流动数据,脑机接口训练速率提升20倍

上一篇:下载《光环:无限》的玩家太多导致 Steam 平台该游戏下载龟速 下一篇:藏在微信、支付宝的 10+ 个「隐藏操作」,你都知道哪些?

免责声明:

网站所有内容来源于网络,如有侵权联系我们删除!侵删请致信E-mail:wruannet#gmail.com

本文地址:https://www.wruan.net/61849.html

同类推荐
评论列表
未分类 华人博士用强化学习接纳了SpaceX火箭
马斯克旗下的 SpaceX 可以说带火了 " 火箭回收 " 这一话题。 这不,连粉丝们都已经开始摩拳擦掌,用自己的方式挑战起了这个技术难题。 例如一位来自密...
扫描二维码阅读原文
万软网 January, 01
生成社交图 ×