字字不提讯飞,又处处都是讯飞。
文|猎云网 孙媛
“这不降维battle讯飞吗?”
昨日,在朋友圈一张通义听悟的专属口令福利海报下,一位媒体工作者留言道。
彼时在粤港湾大湾区的广州,阿里云CTO周靖人对通义听悟给出了如下描述:作为一款工作学习AI助手,听悟瞄准具有高知识附加值的音视频内容场景,比如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新AI技术快速提炼和沉淀知识。
一言以蔽之,就是听力好、悟性高,可以帮人随时随地高效完成对音视频内容的转写、检索、摘要和整理,比如自动做笔记、整理访谈、提取PPT等。而这正是讯飞腹地——讯飞听见的主战场。
有意思的是,此前5月,同样也在粤港湾大湾区,只不过在澳门,科大讯飞亮相了其大模型软件产品“讯飞听见会写”,就是基于对音频文件的内容AI分析,自动生成会议纪要、工作代办、工作计划,并支持基于原文内容进行AI对话和内容追溯。
简单来看,不仅功能类同,甚至展示的选址都相近。
会上,阿里云也毫不掩饰自己要挑战智能语音转写头部的野心,直接拿出了互联网惯用的“补贴换用户”的攻城略地式营销策略。公测期间,大量发放20小时转写口令码,甚至权益可累加达免费时长100小时以上,以讯飞听见App中文/英文机器快转标准价格0.33元/分钟来计算,听悟100小时免费时长可以说是给目标用户节省1980元的支出。
不管如何,先说一句,补贴“真香”。
事实上,这不是猎云网第一次接触到听悟。在之前的云栖大会上,听悟就有内测版本,已经有离线语音/视频转写、实时转写、角色分离、分屏记录等功能。但当时,阿里云的低调内测算是点到为止,好奇者先行。
时至今日,接入大模型能力的“通义听悟”,作为一个大模型版的聚焦音视频内容的工作学习AI助手,融合了研发团队在推理、对齐和对话问答等方面的研究成果,不仅能完成录音转写,还能一键总结全文及不同发言人观点,显然也跟之前版本有较大提升。
根据周靖人所说,听悟有两层含义,首先是“听”,能够听清内容,第二层含义是要“悟”,能够要理解其中的意思,真正为日常的工作、学习提高效能。故而此次猎云网的简单测评也主要围绕这两点展开。
首先,要想尝试此次公测版本,目前微信小程序端不支持实时转写,主要还是通过通义听悟官网进行使用,同时可以关联自己的阿里云盘,进行音视频内容导入。语音转换上,可以开启实时记录(实时语音转文字)和上传音视频(音视频转文字)两种方式来实现。
在进行实时记录并同步翻译测试上,猎云网采用了B站上TED官方标题为《ChatGPT如此强大,AI的崛起让人类何去何从?》的视频语音。在同步翻译的过程中,可以发现比对中文字幕,听悟的翻译结果总体意思理解尚可,但是在语句在翻译的顺序上有所偏差,譬如“在关于未来工作真正有用的东西”,听悟的结果为“有用的关于工作的未来”,同时可能存在部分缺漏的翻译情况,譬如“他们可能会抢走我们所有的工作”,关于“抢走”这个动词没有体现。
来源:猎云网
在音视频转文字测试上,猎云网采用了讯飞听见录音笔录制的一段内容,通过上传阿里云盘,同步到听悟进行语音转换,发现就微弱语音的信息捕捉上,听悟优于讯飞听见,捕捉了一句讯飞听见未转换的内容,而转换的准确度上,讯飞听见更胜一筹,跟录音内容一致,但听悟会出现个别词的错误转换。
来源:猎云网
虽然在听上,听悟从此次测试比对上总体看略逊色于讯飞听见,但悟的理解及分析能力着实让人眼前一亮,就猎云网提供的录音来看,听悟在全文概要、章节速览以及关键词提取上除了个别字眼的错误外,整体较为准确,对于文字工作者来说其增效明显。
来源:听悟截图
从某种程度上来说,通义听悟定位为面向工作、学习的AI助手,是实至名归。通义听悟虽然现在才进行公测,但早在阿里巴巴内部开展使用,并经历了从听到悟的升级过程。
据通义听悟技术负责人鄢志杰透露,过去很多项目管理的同学上项目会,例如投资部到外面访谈、尽职调查,以及人力资源招聘等内部场景,听悟更多还是做语音的记录、简单回顾跟整理。但从2019年开始,阿里云陆续在大模型方面进行重点研发跟积累,在基于通义千问大模型对文字和知识体系的理解+阿里云在音视频相关的模型能力,听悟才得以实现AI能力的场景化。
正如上文所说,听悟对标的是讯飞听见,但之所以阿里云先盯上音视频转写领域,一方面是有着多年语音技术的积累,另一方面也是瞄准了科大讯飞在国内智能语音转写市场的核心领地。
自2017年11月讯飞在“用AI为世界赋能”的发布会上,“顺手”展示了讯飞听见的中英文实时字幕,便让这项堪称黑科技的产品,让其在AI 1.0时代初期,迅速确立了AI龙头的位置。六年间,讯飞营收从2017年的54.45亿,一跃增长至2022年的188.20亿,对应28.15%的复合增速。
其中,讯飞主要提供AI解决方案平台、智能硬件(录音笔)和移动互联网增值产品(输入法、讯飞听见)的开放平台及消费者业务,是仅次于教育领域的第二大营收来源。在2020年至2022年,该业务的营收占比从23.65%增长至2022年的24.66%。营收从30.8亿增长至2022年的46.4亿,对应复合增速为22.74%。
从讯飞的数据来看,智能语音从企业营收以及用户需求层面是一个值得切入的好市场,除以科大讯飞、搜狗为代表的专业智能语音企业外,以阿里云、腾讯云为代表的云服务厂商,以网易为代表的专业转写或翻译厂商等也一直跃跃欲试,颇有三分天下的态势。
这一次,阿里云切入讯飞腹地,也算在意料之中。
只不过就拿产品和价格来说,目前功能相差不大的情况下,讯飞听见的用户可能并不一定会对听悟太感冒。听悟“补贴”虽香,但不要忘了科大讯飞多年前其凭一招“智能录音笔用户享终身免费翻录服务”,一举收割了编辑、分析师、律师、HR、学生等大量市场需求,行业地位暂时无人能及。
据公开资料显示,科大讯飞的智能录音笔市场份额在2022年增至44%,在双十一期间内占GMV市场份额的57%,市场份额一直保持第一。
从这个角度去看,听悟现在高调杀入智能语音市场,为battle讯飞造势及免费福利派送,更像是阿里云号召大家来对听悟进行一次“尝试”,背后是来感受通义千问大模型的能力。
通义听悟背后依赖通义千问大模型,主要基于阿里云一系列技术投入以及相关的进展,而云和整个智能化密不可分。
周靖人在4月份有提到过云智一体等方面内容,阿里云从一开始设计包含云和智能,这是两个重要相辅相成的环节。他表示,特别是从IaaS、MaaS、PaaS三层的架构来看,所有范畴其实都是在讲云整体的技术,包括通义听悟以及通义千问,都是云技术在这个时代怎么快速变革、快速应对以及在新时代浪潮里如何不断创新。
通义千问发布之后,阿里云就陆续在全国推进快速部署AI模型的工作,而通义听悟的推出更多像是一种官宣:阿里云不光在算法层面上,还把模型能力提升到产品里面,去服务到更多开发者或者各行各业。
也就是说,在这一波声势之下,阿里云以通义听悟作为MaaS(模型即服务)环节下的典型,想让更多企业及开发者注意到,通过把模型训练和模型服务的成本不断降低,开发者可以把模型有效使用起来,对模型进行二次开发,让阿里云的AI能力可以集成到他们业务中去,进行更多云上创新。
有专注大模型研究的投资人表示,语音转文字能力各家其实差距不大,转写是一般能力,更重要的是能做到丢失重要内容的情况下去结构化改写总结才是突破。
“就通义听悟来说,更像是阿里云给通义千问大模型找落地场景,以及从数据源积累上看也更为合理。”
颇有意思的是,这边通义千问降维用通义听悟对标讯飞听见,那边科大讯飞也以星火大模型飙入国内大语言模型赛道,其CEO刘庆峰还强调“现在讯飞星火的语言理解能力,不仅在国内是遥遥领先的,跟ChatGPT也仅仅一步之遥”、“我们在今年十月份之前就会超过(ChatGPT)”。
豪言壮志之下,科大讯飞的一季度财报并不好看,营业收入28.88亿元,同比减少17.64%;归属于上市公司股东的净利润-5789.53万元,上年同期为盈利1.11亿元,营收、净利双降。当然这也部分“归功”于公司2022年12月15日启动了“1+N认知智能大模型专项攻关”,攻关项目的新增投入。今年一季度,科大讯飞的研发投入达到7.157亿,同比增加了近6%。
从听悟PK听见,通义千问PK星火,不难发现,从这场智能语音的技术应用往上看,实质是大模型的根本较量。
据不完全统计,2月复旦大学发布MOSS;3月清华大学发布ChatGLM-6B、百度发布文心一言;4月阿里云发布通义千问、知乎发布知海图AI;5月,科大讯飞发布星火、腾讯发布混元、360发布360GPT。再到5月31日,百度创始人李彦宏宣布启动“文心杯”创业大赛,设立规模10亿元投资基金支持生成式AI领域初创企业,一场从大模型层到应用层的AI狂潮正在加速。
从百度智能云在本季度实现了盈利(non-GAAP)来看,百度率先吃到了大模型的红利,而李彦宏也表示计划逐步将文心一言融入百度的所有业务,为产品及服务赋能,吸引更广泛的用户及客户,围绕文心一言在新的时代中建立新生态。
对比之下,5月18日阿里云2023财年营收增速为3.5%,意味着在生成式AI带来了人工智能新模式的变革中,在云之上,阿里云亟需寻求新增量——大模型至关重要。
在通义听悟发布前,阿里云就推出了一系列全新的产品和价格政策,包括AI 大模型通义千问的成果展示及行业探索、推出核心产品降价和免费试用计划、大幅提高合作伙伴佣金率等。但万变不离其宗,主要目标就是扩大阿里云公共云的客户数量和用云规模,并带动各类 AI 模型训练和服务所需的高性能算力的增长,来为阿里云的长远发展构建更可持续的增长动力。
正如周靖人所说,通义听悟的发布并不是一个终点,而是一个新起点。
这场基于大模型的产品和企业解决方案的较量,序幕已拉开。