【王小新】加强学习新路径：基于自我监督预测的好奇心驱动探索(论文代码)

王小信编译整理

量子比特报告|公众号QbitAI

最近，来自加州大学伯克利分校的Deepak Pathak、Pulkit Agrawal、Alexei A. Efros等撰写了一篇题为《基于自我监督预测的好奇心驱动探索》的论文

论文收录在8月11日在悉尼举行的ICML 2017中。以下是论文的主要内容。

摘要

在很多真实场景中，外部环境对运营商的补偿很少或很少。在这种情况下，好奇心可以作为内在的补偿信号，供运营商探索未知的新环境，学习未来生活中可能有用的技术。

在这篇文章中，我们根据自己的监督方法建立了逆动力学模型，通过训练获得了视觉特征的高维空间。在这个空间里，操作员认为自己的行为能产生结果的能力，即预测值和实际值之间的错误称为好奇心。

对于像图像序列这样的高维连续状态空间，公式非常合适，可以忽略直接预测像素的问题，有选择地忽略一些不影响操作员的环境因素。

我们评价了在两个游戏环境中提出的方法：毁灭战士(VizDoom)和超级马里奥兄弟(Super Mario Bros)。

有三个一般的研究背景：

1.外部补偿很少，与外部环境的互动远低于预期。

2.不输入外部补偿，好奇心使经营者的探索更加有效。

3.扩大到没有接触的场景(例如同一个游戏的新水平)，从早期经验中获得知识的运营者比从一开始探索新地点的运营者学得快得多。

演示视频

核心创新点

内部好奇心单位：为了让运营者导航，提出了内部好奇心单位。在很少或完全没有外部补偿的情况下，好奇心有助于运营商理解新环境。

即使没有从外部环境得到任何补偿，我们提出的内心好奇心单位也可以结合运营商的战略进行共同学习。模型图如下图所示。