sheya 2019年最“火”的科学论文：蒙娜丽莎动起来什么样？

无锡制药人工智能/报告

岁末将至。从各种库存清单来看，2019年也是硕果累累的一年。人工智能、疫苗、气候危机是今年的一些热门词汇。“100篇论文备选名单”日前发布。这个列表包含了今年讨论度高、讨论范围广的100个研究。本文旨在介绍Top 1，一个人工智能视频合成系统。

蒙娜丽莎，也许只有在拥挤的卢浮宫里，远远地看着她，相视而笑，或者在网上看着她“神秘”的笑容，转发几个恶搞表情包。你有没有想过神秘的蒙娜丽莎是从传世名作中“复活”而感动的？这一幕只在电影里见过，哈利波特里格兰芬多休息室的胖女人的画像就变成了现实。这项引起广泛关注的研究，应该从动人的蒙娜丽莎说起。

说话的蒙娜丽莎和焦虑的蒙娜丽莎，似乎都没有那么冷

这是几个样本对抗学习的真正的头部语音神经模型。没有3D建模，只有静止的画面才能训练出制作视频的技术，这很神奇。

今年5月，来自三星人工智能实验室和俄罗斯斯科尔科沃创新中心的研究人员发表了一篇题为“现实神经说话头模型的少量提前学习”的论文，概述了这项技术。该技术基于卷积神经网络，模型通过获取一幅输入图像来模拟输出视频中目标物体的运动状态，如上图所示。这项研究于5月份预印，并于6月份正式列入计算机视觉领域的顶级会议“CVPR 2019”。

其实这种思路和手法以前并不少见，也有不少研究者从事过这种研究。2018年，华盛顿大学的研究人员分享了他们创造的“真假奥巴马”——奥巴马网络，该网络使用神经网络分析数百万帧视频，以确定奥巴马的面部表情如何变化。而加州大学伯克利分校的研究团队利用YouTube视频训练AI，然后生成了一个可以做back 空 flip等杂技动作的模型。大大小小的研究不在少数，但这篇论文为什么能引起外界的关注？

本研究的特点是其AI系统不需要经过大量数据集的训练过程，只需要看一次目标对象动作的静态图片就可以运行。研究人员称这种学习方法为“废弹学习”。在废镜头学习的基础上，研究人员使用元学习对VoxCeleb2数据集进行元训练。通过元训练，AI学会了如何快速生成图像，而不是生成特定类别图像的能力。

图片来源:Pixabay

然后，研究人员使用对抗学习创建了一个对抗神经网络，它可以像“复制粘贴”的过程一样，将静态图片中的面部信息“复制”到运动图片或视频中。它们是:

嵌入式网络:可以将输入静态图像中人像的眼、耳、鼻、口的轮廓信息转换成相关向量，然后传输到生成神经网络；

生成神经网络:通过复制人像的面部标志，最终合成动态视频中人的面部表情；

判别神经网络:分别采集生成神经网络合成的人脸图像、地标和真实动态视频的面部表情信息，通过对抗提高生成神经网络的生成能力和自判别能力。

从图像上看，世代神经网络是“伪造者”，识别神经网络是“伪造者”，嵌入式网络就像“帮凶”。前两种能力一旦平衡，基于对抗学习的AI模型的能力就过去了。

三种神经网络“对抗”示意图

[1]2019年12月18日从https://arxiv.org/pdf/1905.08233v1.pdf检索到的真实神经说话头模型的少拍对抗学习

[2]电视上的蒙娜丽莎嘉宾？研究人员从照片中找出说话的头

[3]三星deepfake AI可以根据2019年12月18日从https://www . CNET . com/news/Samsung-AI-deep fake-can-编造-a-video-of-you-from-single-photo-Mona-Lisa-cheap fake-dumb fake/

[4]http://www.sohu.com/a/315959168_129720