腾讯云公布小样本数智人生产平台,花费千元即可自行制作数字人

只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。

 |  崔鹏CP
图片来源:视觉中国

图片来源:视觉中国

记者 | 崔鹏

4月25日,腾讯云首次对外公布小样本数智人生产平台,该平台具有训练样本小、生产效率高、自动化生产等特性,可以实现低成本“自助式”数智人生产制作。

虽然数字人越来越受企业和广告主的欢迎,但高昂的制作和运营成本问题仍然有待解决。过往复杂的训练样本数据采集,导致数字人定制过程长、成本高,一定程度上限制了数字人的快速应用落地。

本次腾讯云智能推出的平台,依托腾讯自研AI能力和技术经验,只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。

图片来源:腾讯

借助该平台,数字人制作能实现千元级别的成本和小时级的制作时长,大幅降低数字人使用门槛。

腾讯云智能数智人产品总经理陈磊表示,腾讯云智能希望建设自动化的“AI+数智人工厂”,依靠“产、销、服”的一站式平台,实现“自助式”购买、生产和应用数智人。

腾讯云智能依托于自研小样本数智人驱动技术框架,以及基于自监督机制的通用多模态模型,让用户实现提交少数样本数据进行AI训练。

例如3分钟真人口播视频、100句语音素材,就能获得与真人形象、语音近似的数智人,生产周期缩短至天级别,价格也能低至千元级别。

陈磊表示,小样本数智人支持半身、全身形象展示,手势动作会根据内容灵活调整,也支持录制背景任意更换,适用于直播带货等更广泛的商用场景。

相较于2D真人精品数字人,小样本数智人无需专业影棚录制素材,成本更低;相较于照片生成、仅能呈现面部形态的数字人,小样本数智人可根据文本设计手势,唇动、口型、表情复现真人风格。

以知识分享口播视频生产为例,小样本数智人可以代医生、律师等专业人士出镜,大大节省视频录制时间。

为了加速数智人服务普及,腾讯云智能还提出自动化“AI+数智人工厂”的方向。开箱即用的数智人生产服务,依托腾讯云TI平台,内置超过10项AI算法能力。未来,无需任何算法、研发经验,只要在平台导入视频、语音训练素材,即可通过“自助式”服务,完成大批量数智人形象、音色定制。

针对数智人的运营,腾讯还提供了播报数智人平台和交互数智人平台服务。播报数智人平台支持通过文字、语音输入快速生成数智人视频;交互数智人平台可打造数智员工,定制专属问答库,提供7*24小时人机双向交互服务,还能实现数智人直播服务,自由切换真人语音接管,与用户问答互动。

腾讯自2018年开始投入数智人研发和服务,是国内最早投入数字人领域的企业之一,已发布数百篇相关技术顶会、期刊论文、专利近百份。

图片来源:官方

对于腾讯数字人的技术特点,腾讯优图实验室研究总监汪铖杰称,2D小样本技术的背后是3D技术。

“小样本数智人从直观上感受是2D视频,背后其实是3D人像在做支撑,是一个从‘文本/音频’信息到‘3D人像驱动’,再到‘2D人像视频’的模式。通过对3D人脸结构的先验信息引入,使数智人口型、表情更到位汪铖杰表示。

另一方面,基于自监督机制的通用多模态模型经过大规模数据训练,可以将语音、文本与人像的表情、口型进行关联。

汪铖杰表示,小样本数智人使用门槛、成本都大幅降低,但腾讯希望通过综合运用多项视觉AI技术,提升小样本数智人品质,其中就包括高精度人像分割、光照优化、人像美化、视线矫正等。

在声音复刻方面,基于腾讯自研的新一代小样本音色定制技术,以及深度学习的声学模型及神经网络声码器,小样本数智人改善了传统声学模型语音韵律单一,语调平淡的问题,让语音合成更加精细。

此外,通过构建大规模高质量音色数据的预训练基底模型,未来小样本数智人还将支持用户只录制普通话即可合成英文及方言语音。

目前,腾讯云智能数智人已经覆盖3D写实、3D半写实、3D卡通、2D真人、2D卡通五种形象风格,可实现超细微面部情感表情以及数百种肢体动作,支持形象资产管理、业务服务配置及内容生产相关服务。据悉已有数十家合作伙向行业提供数智人直播SaaS、知识口播SaaS应用,覆盖医疗、传媒、金融多个行业。