王小信编译整理

量子比特报告|公众号QbitAI

最近,来自加州大学伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等撰写了一篇题为《基于自我监督预测的好奇心驱动探索》的论文

论文收录在8月11日在悉尼举行的ICML 2017中。以下是论文的主要内容。

摘要

在很多真实场景中,外部环境对运营商的补偿很少或很少。在这种情况下,好奇心可以作为内在的补偿信号,供运营商探索未知的新环境,学习未来生活中可能有用的技术。

在这篇文章中,我们根据自己的监督方法建立了逆动力学模型,通过训练获得了视觉特征的高维空间。在这个空间里,操作员认为自己的行为能产生结果的能力,即预测值和实际值之间的错误称为好奇心。

对于像图像序列这样的高维连续状态空间,公式非常合适,可以忽略直接预测像素的问题,有选择地忽略一些不影响操作员的环境因素。

我们评价了在两个游戏环境中提出的方法:毁灭战士(VizDoom)和超级马里奥兄弟(Super Mario Bros)。

有三个一般的研究背景:

1.外部补偿很少,与外部环境的互动远低于预期。

2.不输入外部补偿,好奇心使经营者的探索更加有效。

3.扩大到没有接触的场景(例如同一个游戏的新水平),从早期经验中获得知识的运营者比从一开始探索新地点的运营者学得快得多。

演示视频

核心创新点

内部好奇心单位:为了让运营者导航,提出了内部好奇心单位。在很少或完全没有外部补偿的情况下,好奇心有助于运营商理解新环境。

即使没有从外部环境得到任何补偿,我们提出的内心好奇心单位也可以结合运营商的战略进行共同学习。模型图如下图所示。

相关链接

纸张:

GitHub编码:

[结束]

招聘

杨子伟正在招聘编辑记者、运营、产品等职位,工作地点在北京中关村。详情请在公众号对话界面回答“招聘”。

One More Thing .……。

今天AI界还有什么值得注意的?在杨子伟(QbitAI)公众号对话界面回答“今天”,我们来看看整个互联网搜索的AI产业和研究动向。(威廉莎士比亚。)笔芯啊~

1.《【王小新】加强学习新路径:基于自我监督预测的好奇心驱动探索(论文代码)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【王小新】加强学习新路径:基于自我监督预测的好奇心驱动探索(论文代码)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/2504850.html