会解数学题的GPT在路上了!学而思年内将推出自研大模型应用

MathGPT为该公司核心项目,由CTO田密负责。

 |  查沁君
图片来源:界面新闻 范剑磊

图片来源:界面新闻 范剑磊

界面新闻记者 | 查沁君

面向数学领域的大模型也要来了。

5月5日,学而思表示正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心,将于年内推出基于该自研大模型的产品级应用。

据学而思透露,MathGPT为公司核心项目,由CTO田密负责,今年春节前,已启动相应的团队建设、数据、算力准备和技术研发,目前已取得阶段性成果。此外,该公司还启动了美国硅谷团队建设,将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。

自年初以来,美国OpenAI研发的大语言模型ChatGPT在全球引发热潮,国内百度、阿里也相继发布了各自的大模型产品,MathGPT与这些大语言模型(Large Language Model简称LLM)有何差异?

“通用语言模型更像一个‘文科生’,在语言翻译、摘要、理解和生成等任务上有出色表现,但在数学问题的解决、讲解、问答和推荐方面则存在明显不足。”学而思解释,比如解答数学问题经常出错,生成内容冗余,有些数学问题虽然能解决,但方法更偏成年人,无法针对适龄孩子的知识结构和认知水平做适配。

“这种不足是由LLM模型自身特点决定的。”学而思AI团队负责人介绍,LLM大模型来自对海量语言文本的训练,因此最擅长语言处理。行业内偏向基于LLM大模型做阅读、写作类应用,但如果想要在数学能力上有突破,就需要研发新的大模型。

5月4日,好未来(NYSE:TAL)CTO田密在其个人抖音号上讨论了关于大模型一个本质话题,也为MathGPT的推出埋下伏笔。即未来到底是一个通用大模型一统天下,还是各个领域的大模型百花齐放?

他提到,通用大模型的观点是,LLM大型语言模型的参数还会不断提升,参与训练的语会越来越大,越来越多元,泛化能力和迁徙学习的能力会不断增强。LLM也很快会从文本升级到多模态,如图片、语音、视频。领域大模型在一个超级强大的通用大模型前是守不住的,未来一定会到达AGI通用大模型一统天下

领域大模型派的观点是,一个通用大模型再强大也很难在每个领域都能拿到最佳效果。很多领域存在数据壁垒和行业know-how(企业内部的技术诀窍、专业知识、独家配方,属于无形资产的商业秘密),大模型还是得和领域知识深度结合,加上足够多的领域数据来训练。

一个大模型搞定一切的思路也许并不是最经济的解法,模型参数过大,训练和推理的成本都会数量级的提升。”田密认为,一个通用大模型作为交互接口,然后用Toolformer(可以自学使用工具的语言模型)的思路,根据具体的任务自动调用对应的领域模型获得结果,这种模型组合的方式性价比更高。

他还提到,美国支持通用大模型终局的人更多,而国内支持领域大模型终局的人更多

学而思AI团队负责人介绍,数学、医学等垂直领域,对AI的需求是准确、清晰、具备强大的逻辑推理能力,且容错率低,通用大模型目前的性能表现还无法在上述领域取得突破,未来是否可能取得突破尚不清晰。

以数学领域为例,目前市场上有几个主要流派。比如Google收购的Photomath、微软数学、Mathway、专注数学计算的WolframAlpha等产品,主要利用非LLM的传统AI技术加上数据库的方式解决数学问题。

走AGI路线的公司则尝试让通用LLM“更懂数学”,比如GPT4在数学任务上比之前的3.5版本性能更好,谷歌旗下的Minerva模型也专门针对数学问题进行调优。学而思选择了另一条路,不基于现有LLM做微调和接口调用、不做通用LLM,而是自研基于专业领域的数学大模型”。

如何利用大语言模型服务各行各业是当下社会的焦点问题。

比如在教育领域,Duolingo(NASDAQ:DUOL)、Quizlet、可汗学院等产品主要和OpenAI合作,在GPT大模型上做微调和接口调用,增强原有的产品体验。

今年3月,美国课外辅导在线教育平台Chegg(NYSE:CHGG)宣布推出自己的人工智能聊天机器人CheggMate,该产品旨在使用新技术提供更多辅导、即时反馈和个性化学习,由OpenAI最新人工智能模型GPT-4支持。

Chegg首席执行官Dan Rosensweig日前一季度财报电话会议上称:“自3月以来,我们发现学生对ChatGPT的兴趣大幅飙升。我们认为它正在对我们的新客户增长率产生影响。”随后,该公司股价于本周二盘中一日暴跌48.41%,收盘价为9.08美元/股。

早在今年2月,网易有道(NYSE:DAO)曾被传其AI技术团队已投入到ChatGPT同源技术AIGC(AI Generated Content人工智能自动生成内容)在教育场景的落地研发中。该公司后来向界面教育证实了这一消息,并表示去年底尝试AIGC在教育场景中的落地应用,包括但不限于AI口语老师、中文作文打分和评价等。

5月5日,就在学而思预告MathGPT的同一天,网易有道视频号首次公开基于“子曰”大模型开发的AI口语老师介绍视频,“子曰”为该公司自研的教育场景下的类ChatGPT模型。不同于以往AI单调的机械发音,AI口语老师更像是一位真实的“老师”在与学生对话。

另据科大讯飞(002230.SZ)此前透露,5月6日将推出应用于教育类智能硬件AI学习机,该公司近期已开启星火认知大模型内测。

网易有道总裁金磊曾提到,单纯的AI技术并不能够创造足够的价值,只有与业务场景结合的技术才能真的解决用户问题,带来价值。

虽然我们在讨论人工智能技术,但是仅人工智能技术本身是做不出一个产品的。”在金磊看来,传统的CPU机器已经无法承载深度学习时代的巨大计算量的需求,知识获取(训练)和提供服务本身都依赖巨大的算力,大数据和大模型带来了对算力的更高要求。

金磊提到,AI技术落地在以智能设备为代表的端侧应用时,又涉及模型压缩、蒸馏、量化等多项相关技术的持续探索,结合针对硬件设备的深度优化,也推动着适合深度学习的AI芯片的快速发展当机器翻译的质量达到了应用的门槛并且能够产生商业价值以后,一大批垂直领域的优化定制需求大量涌现,如何实现低成本的模型定制也成为算法和算力侧都需要关注的重要问题。

在大语言模型不断进化的浪潮下,不同的技术路线选择孰优孰劣,仍有待讨论和验证。学而思自研独立的MathGPT大模型是否成立,是否能够超越通用模型在数学任务上的表现,是否更匹配不同人群的数学学习场景,还需要在实践中寻找答案。