钛媒注:本文来源于微信微信官方账号光黑科技(ID:千黑科技),作者为木子辛亚飞,由钛媒授权发布。
比“从真实事件改编”更震撼的是直接站在现实面前。
前段时间,一个叫大谷的90后北京男孩偶然看到了一段拍摄于1920年左右的珍贵视频。他灵光一闪,借助科技的力量,用人工智能修复了视频,让我们有幸目睹了100年前北京真正的烟火。
街上行人、车马交错,骆驼祥子里的人力车穿梭而过;骆驼,现在可以在沙漠中找到,背着货物在街上稳步行走;小院门口,有催促孩子搬东西的,也有默默提东西的。甚至在30秒内,上演了三个不同的问候;和现在不一样的是,当时在街上悠闲漫步的大部分都是男人;一个转头还能在街上抓到逗狗接力的兄弟。
三个问候,YouTube截图:人民日报
没想到时隔几个月,大谷的第二颗“老北京Vlog”炸弹又来了。
这次修复的视频拍摄于1928年左右,距离第一个视频只有10年的时间,但却能清晰的看到变化:十年前,人们在街上看到摄像头,要么是盯着看了几秒就匆匆逃离,要么是原地石化,要么是好奇回头看了三次,想看却不敢看。
所有人都惊呆了,截图来自YouTube:人民日报
十年后,任何一个在小院子里剃光头的路人,都可以带着淡然的表情面对镜头,潇洒地拍拍刚剃的光头,用地道的老北京话重复一遍:“好,好,好……”
“是的,刮胡子很好”,截图来自bilibili:大谷的游戏创作小屋
孩子们在街上赶着吃午饭,眼睛盯着镜头,等着上菜的手一点都没有受到影响:吃饭是最重要的,他们害怕吗?不存在的。
“我也要,我也要”,截图来自bilibili:大谷的游戏创作小屋
如果再看这个舔碗的帅哥,是不是和小时候一模一样?
“真香,还是要……”bilibili截图:大谷的游戏创作小屋
此外,视频中还有街上推挤集贸市场、民间乐队等场景,是一个熟悉又陌生的时代。
古人看不到现在的时间和月份,这个月份以前看古人。
你站在街上看着镜头。100年后我会透过屏幕看着你。他们在视频里见证了历史,我们在回顾。如果要说后悔,大概是一幅模糊的画面,充满了历史的划痕;黑白色调,失去了时代的本来面目。
所以大谷用人工智能从三个方面对视频进行修复。值得一提的是,第一个视频里的声音是后期和素材搭配的,而这一次,所有的修复都是时代的原声。有兴趣可以看完整版的视频(比如在b站搜索“大谷游戏创作小屋”)。
接下来我们来看看你在看还原视频的时候,视频被修复了什么。
(a)偶尔
如果你看过早期的影视作品,比如83版的《射雕》,86版的《西游记》,94版的《三国演义》,很大概率你会觉得画面明显在跳动,好像摄影师得了帕金森病。
为什么会这样?
我们需要先搞清楚一个问题:你看视频的时候在看什么?剧情,演技,还是中间的一个广告?都不是。
其实就是一系列图片。
我们现在看到的电影大多是24帧,也就是说每秒24张图片组成。一部电影在播放时,24帧既能保证你看到的画面流畅,又能适当继承优良传统:一开始,电影是电影拍摄不可缺少的。虽然帧数越多细节会越好,但是每一帧都是钱。对比真相(演绎)后,优秀的电影人发现24帧是最划算的选择,既不浪费胶片,也不浪费画面的流畅度。虽然现在是数字时代,但24帧的传统依然存在。
这样就有了老视频干扰问题的答案,因为帧不够。就像刚才说的,想要画面流畅,每秒不能少于24帧,老电影都低于这个数。比如大谷100年前修的老北京Vlog就不到10帧。用我们养尊处优的好莱坞大片的观感来看,只能咽口水,“每顿饭都吃”。
帧数不够,补帧保存。但要明确一点:既然补充的框架本来就不存在,那就需要想象力来补充框架。
有三种传统的方法来补充帧:帧采样、帧混合和光流。看到这里,恐怕有一句话要成真了:专有名词一出现,吃瓜的人就走了一半。其实鸭不一定要。我们一个一个来看。
第一,帧采样。指将前一帧复制到下一帧,简单来说就是112233。
第二,混帧。是指在前后帧中间合成一个新帧,同时调整新合成帧的透明度,做出画面过渡的感觉,即1、1.5、2、2.5、3。
第三,光流法。什么是光流?当一只蝴蝶在你眼前飞行时,蝴蝶的运动轨迹会在你的视网膜上形成一系列变化的图像,仿佛光线在流动,这样你就可以看到蝴蝶的飞行路线。换句话说,光流具有记录物体位置运动信息的能力。用光流法补帧时,可以简单理解为求一个物体在相邻两帧之间的位移,在位移中补中间帧。
我们以一个栗子为例。我们来看看下图。假设一个物体的位置在帧1中是1,在帧2中是3,在帧3中是5,根据光流,我们可以在1和3中组成2,在3和5中组成4。因此,原始的3帧视频由5帧组成。似乎物体的运动会顺畅很多。
运动物体的光流
以上三种填帧方法在物体处于平移状态时效果更好,但如果物体处于不停旋转跳跃的状态,效果会大打折扣。例如,一只小熊在跳旋转舞。上一帧只能看到臀部,下一帧会出现它的短尾巴。在这种情况下,传统的帧补方法不是很有用。
另外,帧填充还有一个很难但很常见的情况,就是其他对象随机进入,导致目标对象被遮挡。
举个例子,你想在海边给女朋友拍一个冲浪视频,但是海里全是人,而且人在你女朋友面前不停的挡着。这种情况下,如果要把视频从24帧编到30帧以后,难度会很大。你想,软件正在专注于你女朋友的冲浪动作,突然出现一个路人,打断了软件的预测,画面上会出现一种情况:重叠阴影。
双影大概就是这种情况。感受一下
针对这种复杂的场景,AI的优势就显现出来了。
100年前修复老北京Vlog时,大谷使用的AI工具是DAIN(Depth-Aware Video Frame Interpolation),中文名字叫“Depth-Aware Video Frame Interpolation”,是一款开源的人工智能帧填充软件。它的突出特点是兼顾了光流和深度,既能准确跟踪物体的运动,又能检测物体的遮挡。光流刚刚讲过,先说物体遮挡检测。
DAIN建筑图
你眼中的视频是平面的,但视频中的世界是立体的。使用该算法,DAIN可以猜测每个帧中不同对象的深度信息。根据深度不同,AI可以知道谁在躲谁。然后,根据“被遮挡物体远近”的原理,可以准确确定图片中物体的边缘轮廓,避免重叠阴影,从而产生更好的帧填充效果。
在深度图中,不同的颜色代表不同的深度值
(二)糊糊浆糊
对于视频来说,画面流畅是远远不够的,清晰度也很重要。
如果画面朦胧,连主角的表情都看不到,就抓不住Ta的演技,从而失去一个八卦的谈资,那么你就会质疑现在的视频制作水平,你的不信任就会阻碍视频行业的健康发展。为了不让这一切发生,画面必须清晰。
说到定义,你肯定会想到480P,720P,1080P,2K,4K。那么问题来了,怎么才能把视频从480P升级到720P?翻拍。
除了翻拍?那就是超分辨率重建。
超分辨率是指利用硬件或软件来提高原始图像的分辨率。这个过程叫做超分辨率重建。
超分辨率重建技术可以分为两种,一种是多重集成,将多个低分辨率图片合并成一个高分辨率图片,另一种是单次重建,用一个低分辨率图片恢复一个高分辨率图片。ESRGAN是大谷100年前用来修复老北京Vlog的放大分辨率工具,属于后者。
ESRGAN被称为“增强型超分辨率生成对抗网络”,是从SRGAN(超分辨率生成对抗网络)升级而来。都是基于发电对抗网络的超分辨率方案。
一代对抗网(甘)可以看作是两个反派之间的博弈,一个叫一代模式,一个叫歧视模式。生成模型反派的任务是用超分辨率技术创作出与原作媲美的照片,而辨别模型反派的任务是辨别真假,判断面前的照片是原作还是对手。两个反派在长期斗智斗勇中,基于这个模型训练出来的AI,越来越高。
ESRGAN既继承了前任SRGAN优秀的全局控制能力,又弥补了之前的缺点:通过调整算法容易丢失细节。重建的图片和原来的几乎一样。
从下图可以清楚的看到,ESRGAN重建的照片细节(胡须)呈现的更好。
SRGAN和ESRGAN的还原效果与实际图像的比较
但不得不说,有时候“画面清晰了,就有瑕疵”,画质太清晰,难免会把“瑕疵”推到观众眼前,这种情况经常发生在修复老电影的过程中。例如,在《梁健》的还原版本中,有一个非常醒目的镜头:
截图来自修复版的《梁健》
所以,这里友好提醒一下:沉浸是看电影的关键。可以重点看故事,看演员,看特效。其他的就不说了。如果能过,就不要当真。举个例子,我根本没有注意到一部电影中优秀的化妆技术。
截图来自一部忘记名字的电影
(3)黑白加色
1839年,法国画家达盖尔成功制造了世界上第一台照相机。人们惊讶地看着这个奇怪的木箱,兴奋而惶恐地看着这个独特的“新艺术”。然而,当照片呈现出来时,人们的兴奋变成了失望。
照片记录了每一个精致的细节,但是色彩在哪里?
基于“顾客就是上帝,上帝不能失望”的商业原则,一场大规模的色彩捕捉行动开始了。科学家、摄影师、艺术家都参与其中,拼命想办法让照片显色,但转了一圈,毫无进展。
无奈之下,一个替代方案诞生了:着色。
值得一提的是,在大多数情况下,摄影师和上色技师不是同一个人,最终的渲染效果很大程度上取决于技师的理解和审美。所以你看,给照片上色这件事从一开始就属于第二种主观创造。
照片着色经历了三个阶段。第一,彩膜出现之前,当时的照片上色是纯手工的,也就是绘画。鸦片战争打开了中国的大门,将摄影技术带入了人们的视野,也使国内的照片着色行业走向成熟。甚至在新中国成立后,还专门举办了上色技师大赛。如果大家都说好,那真的很好。
20世纪30年代明星周璇17岁时的手绘照片
手工上色分为水色和油色。水色是水彩颜料,有画面透明的优点,油色是油性颜料,有持久保存的优点。相比之下,油色更受欢迎。
着色不是用笔直接画在照片上。先要把照片淡化:先用铁氰化钾把照片上的黑色变成白色;然后用硫化钠把整张照片调成褐色;接下来,你可以填充这个棕色的画布。
1935年,柯达彩色胶卷问世,彩色摄影成为主旋律,照片上色也进入第二阶段:数码调色。工具是你熟悉的Photoshop (PS)。可以用“PS在手,万物皆可着色”来形容,仍然是次要主观创造的属性。
时光倒流,照片上色到了第三个阶段:AI上色。
人工智能不知道颜色。看多了就猜。在修复100年前的“老北京Vlog”时,大谷使用了一个叫做DeOldify的AI着色工具,这是一个美国兄弟在推特上推出的开源软件。我们先来看看它过去的一些作品。
DeOldify的工作步骤大致如下:进行图像分割,识别图像中的所有元素;然后,学习大量包含这些元素的数据集,并填充对象的常规颜色,如海洋蓝色和树绿色;最后,通过运用他们所学的知识,黑白照片中充满了合理的颜色。
如果给人工智能一个完美的数据集,可能会给灵魂上色。
一开始DeOldify只是用来给照片上色的。鉴于其出色的表现,它开始给老电影上色。从效果来看,还是很惊艳的。就像它在《老北京Vlog》中的表现一样,DeOldify带我们穿越历史,跳出被背诵无数遍的历史考点,感受百年后属于小人物的平凡与精彩。
杰森·安蒂克在1936年用DeOldify给老电影上色
第二个视频中,大谷使用了全新的AI技术DeepRemaster,在整体性能效果上优于DeOldify。这就是AI之后的波浪的力量。
不过从实际效果来看,惊艳中还是有遗憾的。比如视频中的着色并不是100%准确,因为人工智能学习中使用的数据集并不能覆盖这个历史时期的所有颜色样本,所以只能说这种着色效果是合理的,是人工智能基于现实带来的浪漫再现:它不能给你现实,只能给你真实的可能性。
突然想到,我们所谓的故乡,不过是我们祖先流浪的最后一站。
回过头来看视频里的这些人,我们不知道他们一生经历了什么,但是随着AI的恢复,时间突然崩塌,我们有幸瞥见了他们生命中的真相,这已经是科技最好的礼物了。
是路人,也应该好好路过。
更精彩的内容,关注钛媒微信号(ID: taimeiti),或者下载钛媒App
1.《射雕之我是小人物 你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕瞅你》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《射雕之我是小人物 你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕瞅你》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1114659.html