△转换前,翻车是日常
但被炼制成优雅的身体后,侧翻事件几乎消失,策略的训练时间减少到30%。
身体科学,策略易学。
在过去,代理人大多固定在形状和结构上,只专注于策略培训。但是系统的预设图通常不是最理想的结构。
所以如上所述,策略要学,身体优化要一起学。
这样用策略网络的权重参数训练是不够的,环境要参数化。
身体结构特征,如大腿或小腿的长度、宽度、质量和方向,都是这个环境的一部分。
这里的权重参数w结合了策略网络参数和环境参数向量,可以同时训练身材和技能。
随着权重w的不断更新,智能会越来越强。
改造身体有用吗?只要和一个只学习策略,不改变结构的代理相比,如果奖励点提高了,说明AI找到了更适合这个环境的身体。
注意,为了培养AI的冒险精神,研究者扩大了高难度动作的奖励,引导代理挑战自我。
身体改造,疗效很好
比赛场地分为两部分:Roboschool,基于Bullet物理引擎的机器人仿真库,基于Box2D物理引擎的OpenAI健身房。
两个环境都参数化了,AI可以学习调整里面的参数。
解锁高分手势
首先我们来看足球场,代理蚂蚁是一个三足四足的怪物,由两个关节控制。腿留给AI调节,球身不可调。
经过训练后,代理人最明显的变化是腿更修长,四条腿长短不一,破坏了对称性。身体换了以后,步伐频率也加快了不少,龙骑士怪兽更早穿越了褐色跑道。
看一下奖励分数:100次测试,原结构分数3447 251,新结构分数5789 479,显示疗效显著。
△左为原创,右为形体训练后
然后,进入绿色场景。这里的代理是两足动物,在“激光雷达”的指引下向前移动。
任务是在规定的时间内穿越一个和平的地形。就分数而言,如果100次首次展示的次数超过300,任务就成功了。
原图347分,优化图359分。
两边的任务都成功了,但是修改后的代理除了瘦腿,四条腿的长度都变了,给了AI一个新的向前弹跳的姿势。动作看起来比较轻松,分数也比以前高。
上面的绿地硬核版在这里:道路崎岖,千山万水谷,一不小心就会坠入深渊。
大卫哈在这里想证明一个强壮的身体能给代理人的策略学习带来加成,而不仅仅是“两课同步”的粗略组合。
这样在穿越缺口时,后腿可以架起一座桥梁,保护代理人顺利通过而不倾覆。
关键是在这个新机构诞生的过程中,AI学会了通关策略,只用了12个小时。相比之下,原无体优化的训练方法最多需要40小时。
△加入形体优化,训练效率明显提高,约1000代达到目标
一、大卫哈如何预见改善代理人结构可以提高培训效率?
△误差演示
也就是说,生物的很多行为并不依赖于大脑。
有一种理论叫做“具身认知”,认为认知的许多特征不是由大脑单独决定的:生物体的各个方面,如运动系统、感知系统、生物体与环境的相互作用等。,会对认知产生影响。
比如运动员在长期训练过程中,不仅得到身体锻炼,还具备一定的心理素质。
大卫哈认为这种现象也可能发生在AI:训练身体,从而影响认知。
其次,通过培训改变代理人结构的想法也是来自于自然。
△火烈鸟不红。吃了小鱼小虾之类的食物后,它们的羽毛会变红
然后,各种虚拟场景会让代理结构更适合环境的情况脱颖而出。这样AI就可以通过环境的选择,提炼出更加精妙的技能。
边缘,精彩。
纸质门户:
https://designrl.github.io/
1.《bipedal 谷歌AI为达目的,把自己的身体改造成了这样……_创事记_新浪科技_新浪网》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《bipedal 谷歌AI为达目的,把自己的身体改造成了这样……_创事记_新浪科技_新浪网》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1693968.html