数字人深度报告,元宇宙下的爆火概念,技术和应用一文看懂

虚拟数字人,元宇宙的基本单元。

 |  智东西

文|智东西

虚拟数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。

1982 年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制作过程亦得到有效简化,从最早的手工绘制到现在的 CG、人工智能合成。在虚拟数字人产业链中,基础层提供软硬件的支撑;平台层为制作及开发提供技术;应用层为应用领域提供解决方案,赋能各领域发展。虚拟数字人产业进入门槛高,差异化显著,受众群体不断拓展,因而虚拟数字人价值凸显,应用领域不断拓展,未来有望加速商业化进程。

来源 天风证券

原标题:《虚拟数字人:元宇宙的主角破圈而来》

作者:文浩

01.元宇宙主角,市场广阔

虚拟人、数字人、虚拟数字人的目标是通过计算机图形学技术(Computer Graphic,CG)创造出与人类形象接近的数字化形象,并赋予其特定的人物身份设定,在视觉上拉近和人的心理距离,为人类带来更加真实的情感互动。按照各定义特征的要求,数字人的范畴包含虚拟人,虚拟人的范畴包含虚拟数字人。

▲数字人、虚拟人和虚拟数字人的关系图

对于不要求必须具备交流互动能力时,数字人、虚拟人、虚拟数字人这三者概念可以认为是等同的。但在严格意义下它们又有细微的差别。虚拟人的身份是虚构的,现实世界中不存在的。数字人强调角色存在于数字世界。虚拟数字人强调虚拟身份和数字化制作特性。

虚拟数字人从最早的手工绘制到现在的 CG(Computer Graphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和成长四个阶段。

▲虚拟数字人发展沿革

当前虚拟数字人理论和技术日益成熟,应用范围不断扩大,产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。

▲虚拟数字人产业链视图

基础层为虚拟数字人提供基础软硬件支撑,硬件包括显示设备、光学器件、传感器、芯片 等,基础软件包括建模软件、渲染引擎。显示设备是数字人的载体,既包括手机、电视、投影、LED 显示等 2D 显示设备,也包括裸眼立体、AR、VR 等 3D 显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和数字人模型渲染、AI 计算。建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染,主流引擎包括 UnityTechnologies 公司的 Unity 3D、Epic Games 公司的 Unreal Engine 等。总体来看,处于基础层的厂商已经深耕行业多年,已经形成了较为深厚的技术壁垒。

▲虚拟数字人产业链基础层概览

平台层包括软硬件系统、生产技术服务平台、AI 能力平台,为虚拟数字人的制作及开发 提供技术能力。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息,利用软件算法实现对人物的建模、动作的重现;渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI 能力平台提供计算机视觉、智能语音、自然语言处理技术能力。平台层汇聚的企业较多,腾讯、百度、搜狗、魔珐科技、相芯科技均有提供相应数字人技术服务平台。

应用层是指虚拟数字人技术结合实际应用场景领域,切入各类,形成行业应用解决方案, 赋能行业领域。按照应用场景或行业的不同,已经出现了娱乐型数字人(如虚拟主播、虚拟偶像)、教育型数字人(如虚拟教师)、助手型数字人(如虚拟客服、虚拟导游、智能助手)、影视数字人(如替身演员或虚拟演员)等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域,根据需求为用户提供定制化服务。

▲虚拟数字人产业生虚拟数字人应用领域、场景及充当角色

虚拟数字人基础技术架构包括“五横两纵”。“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物生成,即人物建模方面 2D 数字人较为简单,3D 数字人需要额外使用三维建模技术。人物表达包括语音生成和动画生成。动画生成则包含驱动和渲染两大部分。“两纵”是指 2D、3D 数字人,2D 数字人和 3D 数字人在技术架构方面基本一致。3D 数字人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大。

建模技术分为静态扫描建模和动态光场重建,目前主流技术仍为静态扫描,相比静态重建技术,具有高视觉保真度的动态光场三维重建技术不仅可以重建人物的几何模型,还可一次性获取动态的人物模型数据,并高品质重现不同视角下观看人体的光影效果,成为数字人建模重点发展方向。

静态扫描建模技术可分为结构光扫描重建和相机阵列扫描重建,结构光扫描重建扫描时间长,对于人体这类运动目标在友好度和适应性方面都差强人意,更多的应用于工业生产、检测领域。相机阵列扫描重建替代结构光扫描重建克服了以上问题成为人物建模主流方式。随着拍照式相机阵列扫描重建得到飞速发展,目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级),并成功应用于游戏、电影、传媒等行业。

▲结构光扫描重建与相机阵列扫描重建分类

国际上 IR、Ten24 等公司将静态重建技术完全商业化,服务于好莱坞大型影视数字人制作。凌云光近年来大力发展立体视觉并研发了高精度人体3D建模系统——Human 3D+,其中核心的三维几何和彩色数据采集部分均使用了以佳能专业镜头,配合佳能 SDK 软件开发包及凌云光专用 3D 建模软件能快速、清晰成像并高速储存,自动完成高精度人体全身或局部重建,再利用三维动画制作软件对重建结果进行处理,得到高真实度数字人物。

动态光场重建是目前世界上最新的深度扫描技术,此技术可忽略材质,直接采集三维世界的光线,然后实时渲染出真实的动态表演者模型,为 3D 建模提供更加丰富的图像信息,它主要包含人体动态三维重建和光场成像两部分:

▲人体动态三维重建与光场成像的区别

驱动:智能合成,动作捕捉迁移成为主流动作生产方式。2D、3D 数字人嘴型动作智能合成的底层逻辑类似,均建立在输入文本到输出音频与输出视觉信息的关联映射。其中 3D 视频驱动方式为以下三个步骤:

1)视频算法训练:对已采集到的文本到语音和嘴型视频的数据进行模型训练,得到一个输入任意文本均可驱动嘴型的模型。

2)语音自动识别:对语音进行标注,绑定数据与动作,使得虚拟数字人对特定词语或语境做出相应动作。

3)动捕设备采集:需真人穿戴动捕设备,动捕设备与真人肢体动作相绑定,可实时传递到虚拟数字人身上。

通过将捕捉采集的动作迁移至数字人是目前 3D 数字人动作生成的主要方式,核心技术是动作捕捉。动作捕捉是指通过数字手段记录现实人们的运动过程。同时,动作捕捉系统根据实现原理的不同,可以分成光学动作捕捉、惯性动作捕捉、Track 设备+IK 算法的动作捕捉、以人工智能为主的动作捕捉方案。现阶段,光学式和惯性式动作捕捉占据主导地位,基于计算机视觉的动作捕捉成为聚焦热点。

渲染:主打 Unreal 和 Unity 渲染引擎,真实性和实时性均大幅提升。当通过不同的设备记录下动作方案之后,还需通过渲染引擎,对毛发、衣物等细节尽量还原。从引擎性能上来说,游戏领域的渲染引擎达到最好的渲染效果。PBR(PhysicallyBased Rendering,基于物理的渲染技术)渲染技术的进步以及重光照等新型渲染技术的出现使数字人皮肤纹理变得真实,突破了恐怖谷效应。

PBR 是基于真实物理世界的成像规律模拟的一类渲染技术的集合,它的关键在于微表面模型和能量守恒计算,通过更真实的反映模型表面反射光线和折射光线的强弱,使得渲染效果突破了塑料感。常见的几款 3D 引擎,如 Unreal Engine 4, CryEngine 3, Unity 3D5,均有了各自的 PBR 实现。

02.落地场景丰富,偶像营销或为先发赛道

虚拟人及数字人应用领域多元,主力文娱及服务行业。在画面呈现方式日渐成熟的的基础下,叠加 5G、算力、AI 等技术能力的提升,其落地场景日渐丰富。如今不再限于传统文娱如影视、动画在人物建模、CG 等方面在虚拟形象塑造的应用,还在社交、游戏、办公等场景实现了真实人类虚拟化身的身份职能,并逐渐于直播电商、偶像造星、陪伴服务等AI 虚拟数字人领域实现商业变现。

1、游戏

中国游戏产业处存量博弈阶段,角色扮演类游戏在市场收入方面居于首位。2021 年中国游戏市场实际销售收入 2965.13 亿元,yoy+6.4%。2021 年中国游戏用户规模 6.66 亿,yoy+0.22%,用户数量渐趋饱和。2021 年中国移动游戏收入排名前 100 位产品中,角色扮演、卡牌、策略三类游戏占据半壁江山,表明了玩家的偏好,以及企业相对集中的市场供给;此外,角色扮演、多人在线战术竞技和射击三类游戏占总收入 50%以上,反映这三类游戏用户基数较大的客观现实。

▲中国游戏整体市场规模(亿元)

▲2021 收入排名前 100 移动游戏产品类型收入分布

游戏引擎作为虚拟世界的卖水人,有望破圈助力多行业数字人打造。以 Unity,Unreal 两大游戏引擎为首,游戏引擎的强大性能使得数字人形象拟真度进一步提升。

Unity 的渲染技术 HDRP 是基于可编程渲染管线(SRP)构建的,具有完全统一基于物理的渲染以获得超高的画质表现, HDRP 的设计遵循三个原则:1)渲染基于真实物理。2)光照统一、连贯。3)功能独立于渲染路径。HDRP 的强大性能让数字人得以“逃离”恐怖谷,以更接近真人的状态呈现在大众面前。

2、偶像造星

虚拟偶像市场高速增长,带动衍生产业空间广阔。据艾媒咨询,2020 年中国虚拟偶像核心产业规模为 34.6 亿元,yoy+70.3%,预计 2021 年将达到 62.2 亿元;另一方面,随着商业价值被不断发掘,越来越多产业与虚拟偶像联系在一起,虚拟偶像带动产业规模 2020 年 达 645.6 亿元,预计 2021 年达 1074.9 亿元。同时八成以上网民有追星行为,其中喜欢虚拟偶像的网民占 63.6%,根据粉丝需求策划的偶像,能最大程度满足粉丝的想象,有利于积累更庞大的粉丝群体。

▲2017-2023 年中国虚拟偶像核心市场和带动市场规模及预测

用户对虚拟偶像付费意愿较强,周边产品丰富带动变现能力。据艾媒咨询,八成网民为虚拟偶像每月花费在 1000 元以内,且 37.6%的网民表示愿意花更多的钱支持虚拟偶像。随着虚拟偶像产业的延伸业态不断发展,手办、唱片等产品已经成为了虚拟偶像流量变现的重要渠道,粉丝愿意花费更多的金钱和精力去支持虚拟偶像。

虚拟偶像早期随二次元文化渗透,国产 VUP 直播崛起。早期具有代表性的虚拟偶像包括以初音未来、洛天依为代表的虚拟歌姬(VSinger),此外还有主要在 YouTube、B 站开展活动的虚拟主播(VTuber/VUP)。

20 年前,B 站虚拟直播区基本都被日系 VTuber 占领,而随着中国 VUP 的崛起,据 CEO 陈睿,截至 21 年 6 月,B 站拥有 3.2 万位 VUP,每月有约4000 多个虚拟主播开播。据 darkflame,20 年 B 站 VUP 总收入约 1.8 亿元,21 年至今(截至 11 月 21 日)已达 4.5 亿元,是去年全年的 2.5 倍。

分季度看,21Q3VUP 直播收入近 1.5亿元,月付费人数提升至约 30 万人。目前头部 VUP 每月的直播收入在 50-200 万元不等,20 年全球收入最高 VTuber 收入约 1.5 亿日元(约 840 万元),已被 VUP 全面赶上。从专业机构来看,VirtualReal 和 A-SOUL 两个专业化程度较高的机构一直占据收入榜首位。

互联网大厂青睐虚拟艺人领域,破圈走向主流文化已是大势所趋。大厂布局分为两类:1)推出技术平台。2)搭建虚拟艺人的商业场景。

▲互联网公司虚拟艺人行业布局

3、品牌营销

虚拟代言人市场空间充足,商业价值释放领域多元。虚拟代言人可划分为两种类型:1)品牌自主打造符合自身特性的虚拟代言人。2)品牌与外部团队商业合作,外部团队基于技术引擎开发具有高拟真人类形态的虚拟形象,并独立运营。

虚拟数字人商业价值集中于:1)社交账号潜力无限。大部分虚拟数字人的注册时间集中于 2020-2021 年,虽然时间较短,但是部分账号涨粉迅速。同时在微博上,百万粉丝量级的虚拟数字人 KOL 较少,仍有流量洼地可供挖掘。

2)活跃在社交平台累积用户粘性。虚拟数字人账号在社交平台上的活跃,通过抽奖、科普、安利等多种形式和用户进行高频互动,共创内容。

3)多种方式释放商业价值。虚拟数字人可以通过数字化、科技化、大数据为一体的诸多功能属性,进行与真人一样的品牌营销模式。视频大片、直播连线、联名产品、封面杂志、产品上身等。为粉丝带去更具想象并贴近完美的营销场景,释放更多商业价值。

虚拟代言人深度洞察 Z 世代消费新需求、助力品牌破圈。品牌打造符合自身文化和品牌调性的虚拟形象代言人,成为与年轻人建立沟通的突破口。从屈臣氏推出首位虚拟偶像代言人屈晨曦 Wilson 拉进与年轻人距离,王者荣耀借势时下最流行电竞虚拟男团“无限王者团”全面打开社交属性,到欧莱雅推出首位虚拟代言人“M 姐”迎合年轻人走进圈层,花西子推出首个品牌虚拟形象“花西子“引领国货新风尚,虚拟形象代言人正帮助品牌迅速吸引年轻人的注意力,助力品牌俘获更多的目标用户。

4、社交

数字人为次世代社交重要象征,用户对个性化社交虚拟化身需求提升。次世代社交指的是一个与现实平行、实时在线的虚拟世界,用户可以凭借自己的虚拟化身,并基于自己的兴趣图谱或推荐,体验多样的沉浸式社交场景,在接近真实的共同体验中一起交流、娱乐,最终找到志同道合的伙伴、建立社交连接。

▲数字人社交代表产品

5、影视

数字人于影视行业成熟运用,计算机化虚拟动捕已成为电影主流特效。技术发展并非一蹴而就, 而由大量技术突破和创作实践积累叠加而成。通过观察影史中虚拟形象的典型应用案例,我们将虚拟动捕技术概括为影史中的四个不同发展阶段:萌芽期(1990-1999)、起步期(2000-2006)、成熟期(2006-2015)、新时期(2016-至今)。

▲电影史上虚拟数字人动捕技术发展沿革

03.国内外巨头布局

国内厂商在产业链基础层、平台层和应用层发展较为均衡,虚拟数字人从开发到落地的体 系逐渐趋于完整。基础层相关厂商主要着力点在人工智能、动作捕捉、建模渲染以及虚拟数字人的技术服务。科大讯飞、捷成股份、新华网、标贝科技、追一科技和小冰等专注人工智能,云舶科技专研动作捕捉,环球墨非、亿真科技、虚谷未来科技、半人猫、叠镜数字、相芯科技以及 Tatame 等专注建模渲染,中科深智、魔珐科技和万像文化等负责虚拟数字人的技术服务。

产业链平台层建设为虚拟数字人运营,主要包括虚拟数字人的外观设计、包装、宣传、落地和培养,相关企业有上海禾念、乐华娱乐、动图宇宙、次世文化、创壹视频、虚拟影业、魔塔时空和世悦星承等。应用层主要投入在游戏、直播、动画、影视、音乐以及社交平台等,应用于娱乐和营销。腾讯音乐、芒果超媒、奥飞娱乐和哔哩哔哩等将虚拟主播和虚拟偶像等应用于娱乐内容。

蓝色光标、浙文互联、引力传媒、星期六(遥望网络)、华扬联众和天下秀等已推出或筹备推出虚拟 IP 形象,着重广告营销,星期六(遥望网络)预计推出虚拟数字人与真人的互动直播。中国移动、阿里巴巴、腾讯、百度、网易等综合型厂商支持旗下相关公司或事业部向虚拟数字人赛道发力。

▲国内厂商-全链条

海外厂商主要聚焦于产业链基础层的建设,因起步较早,综合实力强于国内厂商。在技术领域方面,有一部分海外厂商如 Intel、Microsoft、Google 以及 Meta(Facebook)这类综合型厂商提供全栈式的技术服务。也有一部分海外厂商从不同的技术细分上发力,其中包括人工智能,渲染建模,动作捕捉以及 VRAR 的应用等。在 AI 虚拟形象生成技术厂商中,主要有 Soul-Machine、Oben 以及 Loom.ai 等厂商提供个性化的人机交互系统来强调拟人化的情绪带来的商业价值的提升。

在渲染建模方面,主要海外厂商有 Epic Games、Unity 以及 NVIDIA 等。其开发的引擎 Unreal engine、Unity 以及 NVIDIA Omniverse 提供了 3D 实时模拟和协作的工具和平台。关于动态捕捉的海外厂商有关注光学动态捕捉技术的 VICON、Motion Analysis、Opti Track,以及关注惯性动作捕捉技术的 Xsens 等。在 VRAR 方面,主要有 Wave 和 Stageverse 这样的海外厂商使用 VRAR 技术向用户提供虚拟服务的平台以及应用程序。

智东西认为,数字人是元宇宙基础交互单元,将为元宇宙和物理世界交互提供基础技术支持;数字人是虚拟化身,帮助物理世界的每个个体建立元宇宙数字形象。从某种程度上说,虚拟数字人是元宇宙的一个分支,元宇宙的发展拉动了数字人等虚拟产业的火爆,从长线来看,这些产业代表着科技主导下未来的发展方向之一。