夏怡整理整理
AlphaGo的接连胜利向人们展示了强化学习的强大能力。但如果你想让这种方法在现实世界中发挥作用,指导机器人完成人类容易完成的任务,比如开门、拿东西、放东西等。,你还需要解决一个问题:
一个强化学习模型要经过多次试错过程才能收敛,但是让它在现实世界中一次次试错显然是不现实的。
为了弥合虚拟世界和现实世界之间的差距,一个名为AI2-托尔的新框架应运而生。
AI2-托尔由艾伦人工智能研究所(AI2)、斯坦福大学、卡耐基梅隆大学、华盛顿大学和南加州大学联合完成。为人工智能Agent提供了一个室内装修渲染风格的世界,高度模拟。代理可以和里面的各种家具电器进行交互,比如打开冰箱,推倒椅子,把电脑放在桌子上等等。
为了使Agent和场景的交互尽可能的接近真实,AI2-THOR不仅包含了高质量的可以在表面看到的3D场景,背后还有Unity 3D引擎,可以让其中的物体按照真实世界的物理规则移动,也就是让交互动作尽可能的真实。
此外,AI2-托尔还提供Python API。
与同类框架相比,Agent可以操作场景中的对象,这是AI2-THOR的一大亮点。它的真实性和物理规则的集成性在框架中很少可用。
同时,为了提高强化学习模型对新目标的泛化能力,这些研究者提出了一个具有当前状态策略和目标功能的行动者-批评者模型。
结合这两种方法,收敛速度比最先进的深度强化学习方法更快,可以推广到各种目标和场景。
经过少量的微调,仿真场景中训练的模型甚至可以推广到真实的机器人活动场景中。此外,它们的模型可以进行端到端的训练,无需特征工程、图像间的特征匹配和环境的三维重建。
项目主页:
http://ai2thor.allenai.org/
开源代码:
https://github.com/allenai/ai2thor
相关论文:
使用深层后继表示的视觉语义规划
朱、、埃里克·科尔夫、迪特·福克斯、、阿比纳夫·古普塔、鲁兹贝·莫塔吉、阿里·2017
https://arxiv.org/pdf/1705.08080.pdf
基于深度强化学习的室内场景目标驱动视觉导航
朱、莫塔吉、科洛夫、林、古普塔、李非和ICRA 2017
http://ai2-网站. S3 . Amazon AWS . com/publications/target _ driven _ visual . pdf
-结束-
1.《thor 这个高仿真框架AI2-THOR,想让让强化学习快速走进现实世界》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《thor 这个高仿真框架AI2-THOR,想让让强化学习快速走进现实世界》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/1150370.html