近年来,随着虚拟技术的发展,虚拟角色和人脸捕捉技术越来越受到技术厂商的关注,从Epic Games与Digital Kingdom合作开发的实时数字人脸捕捉技术,到Facebook宣布的Codec Avatars技术,再到腾讯和Epic开发虚拟数字角色。从技术角度来说,大厂商在虚拟人物上保持着高度的统一性。腾讯、Facebook、数字王国以及国内很多游戏厂商都在不同程度的尝试这项技术。
近日,在腾讯游戏大学专栏中,腾讯互动娱乐新体验与技术部总经理助理兼专家工程师古玉分享了他们与Epic Games合作研发虚拟数字人塞壬的开发过程。
魔女计划第一集
糟糕的开始
塞壬是一个虚拟数字人项目,以北欧神话女妖塞壬命名。传说她有一副优美的歌喉,经常诱惑过往的航海家,让船沉在礁石上。
李大爷(腾讯互动娱乐新体验技术部副总经理沈力)点名时,只注意了名字的调性,我们都为自己的英语好鼓掌。在古代,贞子突破了屏幕,但现在塞壬让宅男突破了屏幕。这个愿景激励我们努力工作。
没想到,在以后的宣传中,无数人跳出来说,什么代码不好,偏偏要给一个“死人”代码。所有的能力都会遮住你的眼睛。英语不错,但是是负担。我们都忽略了魔女可以被解读为死人。
幸好当时我们并不知道这一切。如果没有,我们在研发的过程中会多一点负担。对于这样一个艰巨复杂的工程,我们这些没有信心的人,如果不是无知无畏,如果不是轻装上阵,早就逃之夭夭了。
真正的开始
这个项目来自一个合作。Epic和腾讯希望找到技术合作的机会,所以我们和Epic CTO开会沟通。
会上各种讨论都不靠谱,或者太琐碎,或者太飘渺。最后他扔掉了一个想法,想合作做一个虚拟演唱会,就是一个超高质量的MV,大家都觉得还不错,于是他赶紧结束下午的会议,进入了人气正餐环节。
晚上一次商务聚餐,涮了一个潮汕火锅,CTO嘟囔着大家都不太喜欢这个想法,在闲聊中谈这个项目,没有眼里的光,心里的火。
不过,没关系。有很多牛肉要消化,明天总会来的。所谓的方向,哪怕一开始并不卑微,只要你忍着,去做,也有可能大白于天下。
但事实是残酷的。大多数想法没有完成时会变得很神奇。好的想法自然有打动人的力量。哪怕一开始是那么不显眼,当你听到的时候,就会觉得是它。虚拟演唱会的想法还是缺少一点意义。
第二天,Epic的CTO同学带来了新的想法。这次方向是虚拟人。所谓虚拟人,就是一个高质量的CG角色,可以逼真,可以互动。
这是一个有趣的想法。
不是每个有趣的想法都有价值。怎么才能判断它的价值?
决策
对于未知领域,什么想法可靠,什么想法不可靠,取决于人的直觉,但也有一些客观的判断方式。在我看来,有四个维度可以帮助决策。
你要先看可行性。失败不是好主意。我们可以承担适当的风险。风险越大,越看不到方向,越需要控制投资规模。虚拟人的想法有很好的可行性。电影行业的特效可以混为一谈,游戏行业的静态图片可以和照片对比。在这个飞速发展的时代,确实孕育了数字人类技术实时渲染的可能性。PC消费类硬件性能突飞猛进,奠定了基石。
可行性不仅要看大环境,还要看自己的团队是否适合做这个。我们团队有很好的游戏开发经验,也能胜任高级渲染技术的开发。更重要的是,Epic的CTO Kim Librari,来自电影界,从事电影特效多年,两次奥斯卡大奖,有足够的行业洞察力和网络资源,是最好的领跑者。
看了可行性,就看有没有技术壁垒了。如果你投资一个简单的技术,其他团队很容易复制,所以投资的价值没有那么大。既然是在探索一个新的领域,就希望随着时间“改变空”,投入更长的时间,获得不断的积累,也希望这种积累会造成一些障碍,让别人很难轻易复制。虚拟人符合技术壁垒的定义。这个项目需要在很多领域有所突破,在建模精度、RIG质量、渲染效果、实时表情捕捉等方面都有很大的挑战。这里有相当多的领域,横跨游戏和电影行业。而且所有的跨界技术都不好做。游戏讲渲染质量,电影开心;电影讲了实时互动,游戏笑了。不熟悉的行业之间的差距,跨越国界的不确定性,遇到困难的困惑,都是技术壁垒。
“砖墙在那里是有原因的。砖墙不是用来阻挡我们的。砖墙的存在是为了给我们一个机会来展示我们是多么渴望得到一些东西。因为砖墙是为了阻止那些不够想要它的人。他们是来阻止其他人的。”
兰迪·波许
网上广为流传的“最后一课”教授也说过,墙不是无缘无故来的,而是把我们挡在外面,只是为了给我们一个机会,一个证明自己的机会。它就在那里,只是想把那些不够坚定的人拒之门外。这道墙就是技术壁垒,这不仅是努力的目标,也是努力的信心。因为我们知道,当我们翻墙的时候,是我们的屏障,挡住了那些不够坚定的竞争对手。
那么就要看它有没有技术价值,这个技术能不能产生有价值的积累,能不能应用到其他产品上。实验室的大多数尖端技术都不能应用于实际产品。而且能用于产品的技术往往都不高端。我们正在寻找比目前技术水平稍高,2-3年后可以应用于产品开发的技术。
虚拟人技术跨越多个领域。其中,许多创意可以受益于电影行业的技术来提高渲染质量。在渲染领域,今天的电影行业就是明天的游戏行业。提前了解一些高端技术,也会对未来的游戏研发技术有实质性的提升。在R&D的过程中,也可以产生大量的副产品,这些副产品也可以在游戏《R&D》中用来提升R&D的工艺技术..比如AAA游戏和一些叙事类游戏,比如《底特律——改变人》《地狱之刃》,已经开始通过类似的制作管道进行制作。更基础的相机建模和动作捕捉在游戏开发中的应用越来越广泛。在国内行业,大量外包公司已经提供了类似的服务。如果他们拥有这样的设备,可以大大加快迭代速度,也可以进行深入的研究,开发出更有趣的功能。
最后看看能不能吸引眼球,被外界认可。技术再好,也没人能关注。一个团队的可持续发展需要吸引人们的注意力。而这个项目,位于鬼斧神工的山谷对面,如果能做到,肯定会引起关注。
为什么鬼斧神工谷是吸引人的价值点?要理解这一点,就必须说说恐怖谷的理论。恐怖谷理论是由日本机器人专家森正弘在1970年提出的:
“莫里·郑弘的假设指出,由于机器人和人类在外貌和动作上相似,人类也会对机器人产生积极的感情;直到到了一定程度,他们的反应会突然变得极其消极。即使机器人和人类只有一点点区别,也会非常显眼耀眼。整个机器人非常僵硬恐怖,让人感觉像面对丧尸。但是,当机器人与人类的相似度持续上升,相当于普通人之间的相似度时,人类对它们的情感反应就会再次回到正面,产生人与人之间的共情。”
在电影界,已经非常接近穿越鬼斧神工的阶段了。计算机视觉制作的大量虚拟人在场景中与真实演员一起表演,在粗糙的视野中没有任何瑕疵。毕竟电影资源巨大,计算资源接近无穷大。但是在实时渲染领域,没有类似的技术,在计算能力有限、成本低廉的消费者领域,也缺乏同等水平的技术。如果这个项目能够在实时内容领域产生足够高质量的技术,就不难达到吸引眼球的目的。
综上所述,虚拟人的思想是理想的,满足以上所有条件。我们立刻兴奋起来,和Epic一拍即合。
我们对项目目标的定义很简单:越界。跨越影视和实时渲染的界限,制作可以实时交互的数字角色。
魔女计划第二集
合作
于是,一个跨国合作项目开始迈出艰难的第一步。从来没人想过以后发展合作会有多难。
这种合作比以前的项目更难。我们想建立一支跨国团队。显然,我们已经跨越了文化和时区。不那么明显,但同样重要的是,我们跨越了行业,在陌生的领域一起工作。
这个项目的团队来自四家公司,分属四个国家。
美国的Epic是整个项目的发起者和协调者。是领队,带领全队跨越影视行业和游戏行业的差距。它也是整个项目的集成者,负责将所有的工作集成在一起。塞尔维亚的3Lateral是高精度模型和Rigs的开发者,负责制作高精度角色模型,制作高精度Rigs驱动模型。英国立方运动负责实时表情捕捉和恢复。NEXT Studios作为整个项目的所有者,负责虚幻引擎的渲染增强和性能优化,提供基于虚幻引擎的高质量角色渲染。我们也积极参与整个研发过程和学习过程。
因为四个国家跨越四个时区,每周都会变成痛苦的经历。来自一两个地区的人总是在尴尬的时候参加会议。但是由于一些说不出的原因,往往无法接入国内常用的视频会议服务。但这些都不是太大的困难,真正的困难总是在于人。
2017年2月,项目成立,NEXT首批研发团队启动。
我们尽最大努力把最好的内部渲染人才投入到这个项目中,但是这个方向还是走在前列。真实人像实时渲染自COD Paper以来已经连续多年取得进展,主流AAA游戏可以实现非常真实的人像渲染。但是对于这个项目来说,还不够。我们需要研究更好的渲染算法,开发更多的特征。
最初的方式是Epic找一流的技术专家,给我们指导和建议方向,我们来做研究。开发团队开始学习Paper,经常交流。在早期的每周例会中,讨论是从文件开始的。渲染领域的同学,利用公式和想象,做空的小把戏;非渲染领域的同学困了,恨不得跑了。
然而,我们很快就遇到了瓶颈。
远程高级专家,工作忙,只拿空做指导。但在前沿渲染领域,细节很多,除非对方直接参与深入研究和实施,否则很难仅凭印象进行讨论和引导。我们在实施代码的时候,如果结果有争议,有具体的问题需要解决,无论有多少专家一起做,如果投入足够的时间,都无法判断实施是错的,还是论文的方向是错的。但每周一到两次的信息密度和频率不足以弥合信息鸿沟。结果一些图像特征的开发就卡住了,谁也说服不了谁。我们各种尝试,不管是自发的还是遥不可及的,都是徒劳无功,却无法取得突破。
另外,尖端渲染很难从纯技术层面推广。具体来说,很多时候,一个特征的实现需要和技术艺术(TA)一起做出最终的效果才能令人信服。我们这里的团队也有一定的技术和艺术能力,但是还没有达到引领方向的水平。
随着合作的进一步发展,人们逐渐意识到单靠纯程序和低频通信很难推动功能的研发。
合作问题的最终解决方案是Epic换了界面人,技术和艺术专家带头和我们的渲染程序员沟通。大家很快发现,配合的更好,两个互补的工作促进了工作,一切都很顺利。程序的实现会更快的应用到美术端,技术美术会给出有针对性的意见,也会推荐其他实现方法,继续让程序员尝试。
有些工作,依靠不同工作的互补能力,会比相似能力的补充更好。
模型
看到时间一点点过去,两个多月了,其他几个队还没开始,时间安排也不一样。
我们应该很害怕。恐慌来自于缺乏自信,这是我们从来没有做过的生意,不知道怎么入手。然而,我们有着神秘的自信。自信来源于Epic的自信。他们做过很多次类似的事情,只要没有问题,就能做得更好。
2017年GDC之后,Epic的团队开始加大对塞壬项目的投入。Epic拥有一支精英团队,专门研究各种特殊技术,他们的项目节奏,围绕各种展览传递各种黑技术。魔女也是他们的下一个重要目标。
因为是远程项目,信息交流不畅,多方共同动手,所以发现很多问题。
比如我们要渲染人物,需要选择一个模型做3D建模扫描。之前得到的信息都是找一个漂亮的女生,参与2-3天的全程扫描,然后再一起工作2-3天完成目标。所以在NEXT的准备工作中,我们打算找公司内部的人来参与,找到了一些不错的人选。我们还和另一位领导进行了很好的交谈。我们需要支持一段时间,我们聊得很开心。
但是,我们很快发现,我们要做的事情似乎超过了2-3天的全职。一会儿模特要做牙齿数据采集,一会儿拍参考照,一会儿选合适的衣服。正式扫描开始前已经有那么多鸡毛蒜皮的事情了,正式开工后肯定还会有更多。
我们面临着一个艰难的决定,是继续使用选定的模式,还是改为专业全职模式。
那时候离LookDev的参考照拍出来还不到三个星期,换人的时候时间有点紧。但要求公司其他部门的同事请假支持我们,并不是长久之计。本来是线上业务,但是不小心处理了线下,让O2O(线上线下)项目活了。
无奈之下,不得不在最后一刻换型号。我们找到了一家外部公司和一个未来的合作伙伴:姜冰洁。
曲线-中间节点
从2017年的GDC到我们2017年底的节点还有很长的时间,因为整个数据生产的管道很长,从扫描到生产,有很多步骤和流程,很多公司合作。
作为一个团队,我们不能一直无所作为。于是Epic团队找到了一个中间节点。七月底的Siggraph是个不错的节点,时间合适,有机会出点成绩。
Epic团队定了个方向,做了个VR面对面秀。他们扫描了Fx指南的创始人迈克·塞穆。使用一套一模一样的Pipeline,把Mike模型导入到虚幻中,一路打了很多孔,清理了发动机流程中不合适的地方。NEXT做的一些渲染特性也集成到了版本中,已经验证了一轮。
做这些功能的时候,NEXT的小兄弟们还是有点抵触的。本来说好了要做美女的,突然又加了一个新的目标,要做老人……你可以看看照片,感受一下画风的突变。
新的目标造成了很大的创伤,但是我们的程序员很敬业。他们调整了心态,把不同代码分支的特点融合到了Mike的分支中。
迈克的演示是在VR中进行的。团队优化了性能,以确保尽可能多的帧。Epic团队重用了以往制作Hellblade的所有流程,添加了各种新功能制作了一个1.5版本,直奔Siggraph。
我们神秘的自信在这次展会上稍微受到了打击,知道这件事也不容易。
可能是艺术家比较大胆。在以后的合作中,版本在有重要展示节点之前总是一塌糊涂,但是合作方甚至可以很愉快的去会场。Siggraph展览前夕也是如此。各种优化效果需要调整,性能不达标。立方运动的表情捕捉不能稳定工作。即使在第二天显示Siggraph,新的修订版也会一个接一个地添加到实时版本中。
幸运的是,Siggraph展览非常成功。在Hellblade的整个流水线上,技术得到了进一步的升级,人物渲染的质量、捕捉和建模的准确性都得到了很大的提高。如果《地狱之刃》的人物身上还有一点数字痕迹的话,很难将《Siggraph》中的迈克识别为CG制作的人物。迈克说话的时候,嘴角微微有些异样,看起来有些僵硬,但是如果他把嘴一撇,不看的话,脸的上半部分就完全达到了原来的想法,真假难辨。
总的来说,这个中间节点是成功的。然而,我们也深刻反思了为什么我们在展览前会如此混乱,以及我们今后需要如何改进这一过程。改进的结果是完全无效。一模一样的忙乱,在以后的研发中还会多次重现。我们经历了腾讯几天忙乱的内部报道,GDC前夜通宵折腾,以及后续Siggraph展前的紧急突击。总是在展览现场战斗到最后一刻。
可能高科技太矫情了,不肯轻易展示自己的魅力。
魔女计划第三集
捣蛋
中间节点Siggraph的工作非常成功,验证了新的流程,Cubic Motion新的捕捉技术逐渐成熟。
另一方面,我们的主要版本也在缓慢推进。
我们首先在五月左右拍了一张姜冰洁的《寻找发展》的参考照片。所谓Look Dev,就是我们需要在各种光照方向对模型进行拍照,从多个角度进行捕捉。然后在后期的虚幻渲染开发中,我们会尝试用引擎还原当时的光照条件,然后在相同的位置渲染数字模型,逐帧比较渲染后的图片与实际照片的差异,使之尽可能的完全相同。
这就大开眼界了,因为游戏的渲染并不要求那么精确,只需要粗略的基于目测而不是精确的对比来渲染即可。换个角度看问题,会得到不同的做法。游戏的画面和真实的差别太大了,想不到渲染质量评价这么准确。但这部电影旨在用最准确的方法促进质量的提高。
据说电影界一直都是用这种方法来测试的,因为CG的制作过程很长,步骤很多,所以要不惜任何代价保证每一步的质量尽可能的好。如果不这样做,那么经过很多步骤,误差就会积累放大,没有办法看结果。
我手头没有标准Look Dev的对比照片,但是找到了两张类似的。最后两张照片,一张是真实照片,一张是虚幻中渲染的照片。注意头发部分,可以区分真实和虚幻渲染的照片。在实际的Look Dev工作中,会准确的找到两张光照相同、角度相同的照片,进行针对性的调整。当然,数字环境和现实毕竟还是不一样的,不可能100%还原。从上面的照片来看,我们确实尽力了。
用科学的方法,不代表能做出一流的成果。高端渲染,后期变化相当细微,我们没有能力分辨细微的画面差异。所以我们也需要一个CG主管。
CG主管是一个很神秘的职位。这个职位的称呼在影视行业应用广泛,在游戏开发行业常被称为艺术总监。他们对渲染差异非常敏感。很多时候,我们只能模糊地感知不同的画面,但它们却能准确地定位问题,给出修改方向的建议,并告诉如何调整。
“电脑绘图主管或电脑绘图主管是参与制作电脑生成图像的人员,无论是动画还是视觉效果。由于需要多种多样的制作和职责,大多数CG主管都专注于一个领域,如艺术、编程或管理。”
电影行业的CG Supervisor和电影制作的TA指导我们渲染功能的开发,指导整个项目的美术素材的制作,帮助我们逐步提高基础模型的质量,完善渲染功能。Look Dev的整个过程贯穿整个项目,一直到后期,都在不断的修改,试图达到最好的展示效果。
扫描
如果我们能够在力所能及的范围内参与到程序的开发中,那么模型的制作就超出了我们的控制范围。经过几个月的建设,我们还没有开始扫描模型,我们非常震惊,因为模型是所有后期制作的起点。
6月,联合小组一起去了塞尔维亚,拿着模型去3Lateral公司扫描高精度模型。
扫描过程是一个摄影建模过程。我们让女演员在会场站好,按下快门,上百个高清摄像头同时启动,从各个角度给模特拍照。此图为简单示意图。我们当时用的设备会更大更复杂。
整个使用过程并不复杂,但是整套设备比较复杂。十几平米的扫描间,各种架子搭好,几百个摄像头放进去,只是固定摄像头,完成连接,这是一个极其庞大的工程。电源线,摄像头控制线,USB HUB连接多台电脑,然后通过网络将电脑连接在一起,一台电脑为主控制。主控计算机发出操作指令后,几台与摄像机相连的计算机使用合适的拍摄参数,同时操作数百台摄像机进行拍摄。上百个单反相机的快门同时触发,发出巨大的咔哒声。然后在网络上传输几百兆的照片,采集到主控计算机做进一步处理。
捕捉人脸模型的设备几周前才组装好。整个系统结构并不复杂,但由于组件多,整个系统容易出现问题。比如有一段时间,按下快门后,有几组相机没有和其他相机拍照。
这类设备的调试过程类似于电脑安装,无非就是换部件,插拔线程,重启。外国人忙了很久,开始怀疑USB Hub。我们聚在一起看热闹,发现整套设备各种高度,但USB Hub设备用的是国内比较流行的低端品牌。连我家里不喜欢的牌子,居然都用在工业级设备上?
我们很快告诉他们这个品牌质量一般,建议完全更换。遗憾的是,塞尔维亚无法体验到早上下单晚上到的服务。他们必须从公司找到一些备用的USB集线器,并更换一些有问题的集线器。但这些枢纽的问题不是不能用,而是不稳定,有好有坏。大部分时间都是有空的。整个系统有上百个hub,出现问题的概率不低。如果一个枢纽出现问题,就要重新拍摄,大家都在恐惧中进行后续拍摄。
几天时间过得很快,我们一边帮忙,一边学习。这期间收集了大量数据,包括静态面部数据、身体数据、牙齿数据、眼睛特写数据和各种表情数据。姜冰洁呈人字形排列,呈“S”形,眼睛睁得大大的,腮鼓鼓的,做出各种动作来满足各种扫描需要。
数据收集后,Epic、Cubic Motion和我们自己回国,后续建模工作留给3Lateral。
几周后,静态模型逐渐交付。我们的团队开始了LookDev开发的过程。3横向团队继续忙于钻机系统,为面部表情做准备。
动作捕捉
有了模型和渲染,就少了一个重要的环节:如何让这个虚拟角色移动。
受技术和精度要求的限制,移动任务分为两部分。一部分是动作捕捉,一部分是表情捕捉。外面有一些动态和补充的技术,可以合二为一,但是对于这个项目来说,精度和效率都不能满足需求。
动作捕捉是一项相对成熟的技术。动作捕捉已经发展了很多年,主流技术表现也不错。在AAA游戏的开发中,我们在制作动画数据的时候,总是会有接触。只是这次需要实时响应,有点麻烦。我们使用Optitrack技术,动态和补充数据需要直接在计算机上收集,然后流式传输到虚幻中,然后在我们的Rig中显示。好在这一块技术不是太复杂,主要是需要做很多工程细节。
装上传感器后,我们开始捕捉各种动作,先在UE中走完Live流程,然后开始根据动作捕捉仔细研究如何改进body Rig。模型的关节处总是有各种各样的问题,需要一个一个的调整,但总的来说还是比较好修的。
最难的无疑是面部表情。
1.《数字人 腾讯虚拟数字人“Siren”的开发历程(上)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《数字人 腾讯虚拟数字人“Siren”的开发历程(上)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/1056123.html