甘明来自奥菲寺
如果想深入研究人工智能领域,阅读经典论文是必须的。
但是,怎么读呢?读什么?论文的重点是什么?是需要人深思的地方。
最近有一个资源悄悄的扩散开来,收集了29篇经典机器学习论文的摘要,都是作者在过去半年里阅读的。
对于每篇论文,作者给出了论文的主要观点,与其他相关研究的区别,以及本文的亮点和创新点。而且基本上每篇论文都附有链接。
有哪些论文?
这些论文分为六个部分。
语言/序列模型(语言/序列模型)
本部分共6篇。它们是:
伯特:语言模型预处理
从Google AI出发,提出了一种强大的新的语言表示模型。
你可能不需要关注
来自艾伦人工智能研究所,提出了一种循环神经翻译模型,该模型不需要注意机制,也没有单独的编码器和解码器。
用于序列建模的网格网络
Trellis Networks是一种新的序列建模架构,是时域卷积网络和RNN之间的理论桥梁,但它的应用范围比前者小,比后者宽。来自CMU和英特尔。
自然语言处理中常识推理的评价
来自麦吉尔大学,目标是深入评估模型性能的测试集,并试图了解它在多大程度上严格测试模型的行为。本文主要讨论了图灵测试的变种——维诺格拉图式挑战(WSC),其目的是判断人工智能系统的常识推理能力。并提出了新的评价标准,以弥补WSC等基准测试的局限性。
SeqGAN:具有政策梯度的序列生成对抗网络
本文来源于上海交通大学。本文提出了一种序列生成框架SeqGAN,解决了SeqGAN在生成离散数据方面的局限性。
语言测试与神经文本生成
本文研究了为什么目前用于比较文本生成的度量标准不能完全描述模型的运行情况,并评估了用于生成文本的遗传神经网络与传统最大似然估计方法相比的性能。
元学习/多任务(元学习/多任务)
本部分共4篇。它们是:
一次性模仿学习
从OpenAI中,提出了一个元学习框架,可以从几个演示中学习,完成任何给定的任务。
重要性加权参与者学习者架构
从DeepMind出发,开发了一个新的分布式代理IMPALA,它不仅可以在单机训练中更有效地利用资源,而且可以扩展到数千台机器,而不牺牲数据效率和资源利用率。
使用流行艺术规范化的多任务RL
为了加强学习领域,大多数算法一次训练一个任务,每个新任务都需要重新训练代理。学习算法是通用的,但每个解都不是通用的。提出了一种在同时掌握多个顺序决策任务时优化资源分配和注意力分散的方法,在57个不同的雅达利游戏中表现优于中层人类,这也是单个智能体在这个多任务领域首次超越人类。
最近元策略搜索
来自加州大学伯克利分校等。提出了一种新的元学习算法,克服了信用分配不佳和元策略梯度难以评估的问题。
内在奖励/基于模型的学习(内在奖励/基于模型的学习)
本部分共9篇。它们是:
好奇心驱动的学习
本文作者来自OpenAI和加州大学伯克利分校。目标是发现在没有外部奖励信号的情况下,强化学习系统可以被好奇心驱动多远。这也是第一次由好奇心驱动的大规模强化学习研究。
通过可达性的偶发好奇心
本文提出了一种新的好奇心方法,利用情境记忆形成奖励。作者来自Google Brain,DeepMind等。
基于模型的主动探索
提出了一种主动探索环境的算法。通过计划观察新事件,而不仅仅是对偶然发生的新事物做出反应,完全模拟环境所需的数据被最小化。作者来自递归神经网络之父于尔根·施密德胡贝尔(Jürgen Schmidhuber)的创业公司NNAISENSE。
通过抽象表示的组合强化学习
本文从麦吉尔大学出发,比较了基于模型和无模型的强化学习,并讨论了他们提出的CRAR方法是如何将这两种结构结合起来的。
代理授权
这是赫特福德郡大学的一篇经典论文。本文讨论了“授权”的概念,提出了一个关于代理人的效用函数,适用于没有明确短期回报的情况。
循环世界模型促进政策演变
作者大卫·哈(Google AI)和于尔根·施密德胡贝尔(Jürgen Schmidhuber)以无监督的方式快速训练生成循环神经网络,并通过压缩时空表示法对常见的强化学习环境进行建模。作者曾经对本文做了一个总结:“世界模型”可以让人工智能在“梦中”预测外界环境的未来状态。
用因果信息学习可规划表征
来自加州大学伯克利分校等。,要解决的问题是:给定初始状态和期望目标,如何使系统得到一系列可以通过学习达到目标的动作。
反事实导向的策略搜索
无模型强化学习需要大量的数据训练。研究人员可以建立学习环境模型,生成合成轨迹,并在这些轨迹上进行训练。但是,这些模型简化了真实环境,可能不准确。本文提出了一个清晰的因果/反事实模型来生成具有更高保真度的轨迹。来自DeepMind。
熵对政策规范化的影响
本文的定性研究表明,在某些环境下,引入熵正则化可以使优化后的表面更加光滑,并连接局部最优,从而使用更大的学习率。并提出了理解底层优化场景的新工具。来自谷歌的大脑。
多智能体强化学习
本部分共3篇。它们是:
多主体网络学习中基础合成语言的出现
来自OpenAI和加州大学伯克利分校的这篇论文做了一个有趣的实验,看一群代理人在受到激励的情况下是否能有效地开发出类似语言的东西。基于这一实验,作者提出了一种多智能体学习方法。
通过因果影响的内在社会动机
本文通过Google等机构,在多智能体强化学习中给出了一种新的内部社会动机,试图解决目标更明确的多智能体协调问题。
多智能体学习的关系正向模型
本文介绍了一种多智能体学习模型,该模型能够准确预测学习环境中智能体的未来行为,来自DeepMind。
敌对的例子)
本部分共2篇。它们是:
神经网络的对抗性重编程
我们对六种ImageNet分类模型的拮抗作用重新编程,并调整这些模型的用途来执行相应的任务。来自谷歌的大脑。
规避和中毒攻击的正则化、输入梯度和可转移性的有趣联系
本文来源于卡利亚里大学等。作者对不同模型进行了实证分析,并研究了不同模型中拮抗样本迁移的差异。
其他的
本部分共5篇。它们是:
使用属性测试图像生成
微软研究院等机构的一篇论文提出了一种用于文本到图像生成的注意力生成对抗网络。
卷积神经网络的一个有趣的缺点及协调解决方案
本文从Uber出发,针对卷积神经网络在空之间坐标变换的缺陷,提出了一种坐标转换的解决方案。工作原理是使用一个额外的坐标通道,使卷积访问输入坐标。
神经网络损失景观可视化
提出了一种新的损失函数可视化方法,解决了理解损失函数的特性如何影响模型性能的问题。来自马里兰大学学院城市分校等。
嵌入语法
本文来自杨百翰大学。将单词嵌入的语义泛化能力与上下文无关的语法结构(如正则表达式)相结合,创建了混合语义语法。
基于功能磁共振成像数据的深度图像重建
日本ATR计算神经科学实验室提出了一种新的图像重建方法。借助功能磁共振成像技术和深度学习算法,根据人脑活动重建人类看到的图像。
这些总结是谁写的?
这个总结的作者是一个叫科迪·怀尔德的小姐姐,在一家叫Sophos的安全技术公司做数据科学家,喜欢猫。
每隔半年,她会花一个月的时间写一篇她读过的经典机器学习论文的总结。这是第三次了
你可以在推特上跟踪她。ID:@decodyng .
最后,本总结说明通过以下方式提供:
https://docs . Google . com/document/d/15o 6 m0i 8g 6 o 607 MK 5 ypth 33 Lu _ aqyo 7 sphnsblpqpwq/edit #
-结束-
1.《proximal 干货警告!国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《proximal 干货警告!国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/fangchan/1035778.html