号称“民族芯”希望寒武纪真能叫板英伟达？-Jiemian Global

芯片 · 中国科技公司

号称“民族芯”希望寒武纪真能叫板英伟达？

寒武纪在上海发布了三款从端到云的芯片产品，分别为一款7nm的处理器IP 1M，以及一款云端智能芯片MLU100，还有搭载MLU100的云服务器板卡，毫不掩饰要叫板英伟达的野心。

| 智东西

今天，市场研究顾问公司Compass Intelligence公布了全球100家AI芯片企业排名，其中，排名第22位的正好是来自中国的中科寒武纪。前三名为英伟达（Nvidia）、英特尔（Intel）以及恩智浦（NXP）。

在过去一年间，随着AI芯片话题的逐渐兴起、寒武纪AI芯片IP在华为海思麒麟970芯片上的应用，以及最近关于“中国芯”的热烈讨论，让这家成立仅仅2年的创企盖上了“民族芯片希望”的光环，各种赞誉不断，融资和估值也水涨船高。就在昨天，寒武纪在上海发布了三款从端到云的芯片产品，分别为一款7nm的处理器IP 1M，以及一款云端智能芯片MLU100，还有搭载MLU100的云服务器板卡，毫不掩饰要叫板英伟达的野心。

那么，寒武纪芯片目前的市场反响如何？这家成立仅仅2年的创企又是靠什么获得一众资本亲睐？在这个日益激烈的市场竞争中，寒武纪想要成为“中国芯”逆袭力量的代表，又还需要迈过几道坎呢？本文将为你一一解答。

目前国内单一出货量最多的AI芯片

在某次媒体采访中，寒武纪执行董事罗韬曾经介绍，寒武纪设立了三条产品线：

1、智能终端处理器IP授权，比如1A、1H、以及昨天推出的1M，可以集成到手机、安防、汽车、可穿戴等终端芯片中。

2、智能云服务器芯片，比如昨天发布的MLU100，作为PCIE加速卡插在云服务器上；

3、家用智能服务机器人芯片，这条产品线暂时没有产品发布。

我们先来说说昨天发布的处理器IP Cambricon 1M，这是寒武纪第一条产品线中的第三代IP产品，将采用台积电7nm工艺打造。据业内人士透露，这款芯片制造代工成本高昂，寒武纪需要投入上亿美元规模的资金用于1M的流片，据传已经签约打造。

在去年年底的发布会上，寒武纪曾经预告过这款名为“1M”的IP产品，宣称与1A相比性能提高了10倍以上。不过那时预告的1M处理器IP主打的是智能驾驶领域，昨天推出的1M则将应用领域拓宽到了智能手机、智能音箱、摄像头、自动驾驶等方面。

此外，根据寒武纪官方数据，1M的int 8（8位运算）效能比高达达5Tops/watt（每瓦5万亿次运算），并且提供了2Tops、4Tops、8Tops三种尺寸的处理器内核，以满足不同需求。1M还将支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速，能够完成视觉、语音、自然语言处理等任务。

寒武纪的第一代处理器IP：Cambricon 1A可以说是目前最早量产的、出货量最多的AI芯片IP了。去年，华为海思的第一款人工智能手机芯片麒麟970上就集成了寒武纪的1A处理器IP，成为SoC上的NPU神经网络处理单元。目前麒麟970已经搭载了在华为Mate 10、P20、荣耀V10这三系列手机产品上，累计出货量已到了数千万台。

不过相关人士向智东西透露，华为海思在下半年即将发布的下一代产品（可能是7nm的麒麟980）可能不会采用寒武纪的IP，尚不清楚是自研还是选择别家。原因是寒武纪这款IP配套的工具链和支持算子不够成熟，给上层应用的AI开发带来了难度，某些AI功能（比如直播/短视频应用中的背景分割）需要数月才能在应用中部署完成。

云端芯片MLU：现场叫板英伟达

不过，1M并不是昨天寒武纪发布会的主角，寒武纪首款云端智能芯片Cambricon MLU100才是重点。

同样是在去年年底的发布会上，寒武纪也曾经预告过这款名为MLU100产品，与它一同出现的还有另一款名为MLU200的云服务器处理芯片，前者偏重推理（inference），后者偏重训练（training）。不过在昨天的发布会上寒武纪并没有推出MLU200。

▲寒武纪MLU100参数

▲左：英伟达2016年发布的Tesla P4参数，右：英伟达2017年发布的Tesla V100参数

MLU100给出的参数比较详细，不过可能是因为不主打训练，寒武纪并没有给出32位浮点运算的参数。寒武纪在发布会现场公布了在R-CNN算法下MLU100与英伟达Tesla V100和英伟达Tesla P4的计算延迟对比，但如果仅从参数上来看，这款芯片对标的主要还是Tesla P4。Tesla P4是英伟达于2016年推出的GPU，专门面向企业级高性能计算，主打机器学习和云服务市场；Tesla V100则是英伟达在去年推出的同一系列GPU。

总体来说，MLU100的功耗、纯计算峰值性能等方面表现比较优秀，不过内存接口带宽稍低（MLU100为102.4GB/s，Tesla P4为192GB/s，内存带宽过小会影响运行时的计算性能），是一款完成度比较高的云端智能芯片。一位资深芯片技术高管称，“虽然称不上‘吊打英伟达’，但也跟英伟达目前的产品处在同一时代。”

推出了三款产品后，寒武纪CEO陈天石在昨天发出的一封公开信中这样说道：“期待与全球范围内的客户通力合作，将智能播撒到每一台终端，让整个地球都变得智能。”

创业两年，寒武纪凭什么叫板英伟达？

上文提到，寒武纪设立了三条产品线：智能终端处理器IP授权、智能云服务器芯片、以及家用智能服务机器人芯片。

据媒体现场报道，陈天石在发布会上表示，“MLU100的功耗仅为是英伟达同类产品的几分之一，将会树立新的行业标杆。”那么，创业两年的寒武纪凭什么叫板英伟达呢？

这要从寒武纪的渊源说起。寒武纪，全名中科寒武纪科技有限公司，是中科院计算所孵化的企业。寒武纪的公司CEO & 联合创始人为陈天石，另一位联合创始人为陈云霁，他是陈天石的哥哥，两人都是少年天才，从小考进中科大少年班，二十出头就博士毕业，在中科院计算所当研究员。

两位陈博士的导师是胡伟武教授，他是龙芯中科总裁，也被称为“龙芯之父”。陈云霁从2002年开始跟随胡伟武做龙芯CPU，一干就是12年。有趣的是，现在寒武纪“三年入侵10亿终端”的口号与当年龙芯的宣传口号非常相似。龙芯CPU是中国第一代国产CPU，其意义可以上升到国家战略层面。根据胡伟武教授介绍，目前使用龙芯CPU芯片客户有500多家。

随后在2012年，法国国家信息与自动化研究所（Inria）的Olivier Temam教授第一次提出了AI加速器的概念，接着启动了Olivier Temam教授与两位陈博士的合作项目DianNao，这也是寒武纪的技术来源。在陈天石昨天的公开信中也特别提到了与Inria和Olivier Temam教授的合作。

在2013-2015年期间，DianNao项目一共发布了四篇与AI加速器有关论文，包括：深度学习处理器、多片版本的深度学习处理器、摄像头智能识别处理器、以及通用机器学习处理器。这四篇论文采用的都是专用逻辑加速的方向，可以理解为针对特定AI算法逻辑进行加速计算，一旦机器学习的算法逻辑改变时，加速器就有可能无法支持。

为了补足这一点，在随后的2016年，两位陈博士推出了神经网络通用指令集DianNaoYu，这也是寒武纪自主研发的神经网络专用指令集Cambricon ISA的前身。

我们先来科普一下指令集，指令集是一个编码集合，指的是用一些代码表达读、写等操作，命令计算机做各种运算的一套命令标准。

神经网络专用指令集能够针对AI算法提取更细粒度、更底层的编码集合，比如针对神经网络计算任务中的某些高频操作，可以直接提供硬件指令集编码；与此同时，减少对AI算法性能影响不大的缓存（Cache）体系，提升芯片的性能功耗比等等。

简单来说，就是把AI计算中的高层功能板块（比如卷积）分解成低层功能板块（比如点乘），让加速器更加灵活地支持不同类型的神经网络。

2016年3月，北京中科寒武纪科技有限公司注册成立，陈天石为公司法人，中科院注资1000万元作为天使轮启动资金。基于DianNao项目技术框架，寒武纪又陆续推出了“寒武纪1号”芯片、寒武纪1A处理器IP等产品。

不过注意，这些芯片都是专用指令集处理器（ASIP），比较适合用于人工智能算法的加速计算，不能替代CPU作为中控芯片，需要和CPU等硬件协同合作。

目前除了寒武纪之外，国内还有一大批创业公司涌入AI芯片领域，包括深鉴科技、地平线、异构智能等。他们中既有做专用逻辑加速器（ASIC）的，也有做专用指令集处理器（ASIP）的，前者功耗更低、性能更强、但是不够灵活泛化；后者更加灵活、能支持多种不同神经网络，但是在性能功耗比上会受到一定限制。

芯片产业路上的竞争和难题

目前，寒武纪在AI芯片市场遇到的对手已经不只是跟它处在同一起跑线的国内外AI芯片创业公司了，各类芯片巨头也纷纷入局。比如在服务器市场称霸多年的英特尔、比如在AI时代一骑绝尘的英伟达、比如来势汹汹的高通与赛灵思、又比如推出人工智能项目Trillium的ARM（英伟达开源的DLA深度学习加速器项目将集成到Trillium框架中，让厂商能够打造自己的AI芯片）。

一款芯片产品光看参数，也许都很漂亮，但是围绕其打造的生态系统却不是一朝一夕能够完成的事情，需要大量的技术、人力、财力投入，以及时间的积累。

简而言之，芯片设计只是开始，可芯片从设计到落地应用是一条漫长的产业链，里面布满了“坑”。至少有这样几个关键环节：

1、从PPT到流片。从寒武纪本次发布的几款芯片来看，云端芯片MLU100选择了台积电工艺相对成熟的台积电16nm制程工艺，量产应该不成问题。从现场展示的板卡产品来看，应该已经完成了这个过程。不过1M处理器IP需要7nm制程工艺，目前市面上还没有终端SoC芯片使用。目前全球主流先进的移动终端SoC先进工艺在10nm水平上，下一代有望迈进7nm，但真正有能力做到的也就是苹果、三星、华为海思这几家。如果1M不能和华为继续IP授权合作，应用落地将会是挺大难题。

2、芯片全产业链把控。对于寒武纪这类创业公司来说，与芯片巨头相比弱势的往往不是AI技术、或是AI芯片产品设计，而是围绕芯片所衍生的一系列软硬件的开发维护，包括指令集定义、芯片微架构设计、芯片整体设计、相应软件与工具链的开发与维护、芯片运行的操作系统、丰富的函数库、以及应用程度等等。

3、时间与市场的验证，这款芯片还需要得到大量用户的认可才能真正在市场中站住脚，一旦大多数人们认可某款芯片架构、某个指令集，那么用户迁移成本就很高，这就是为什么历史上曾经有多次“x86革命”想取代x86架构，但都因为得不到广泛的支持最终以失败告终，英特尔能够称霸PC和服务器市场多年。

传新轮融资已落地

最后，我们来说说融资和估值。寒武纪公司CEO & 联合创始人 & 实际控制人陈天石是5间与“寒武纪”有关的企业的法人，包括：北京中科寒武纪、上海寒武纪半导体、雄安寒武纪科技、上海寒武纪信息科技北京分公司、以及上海涵武信息科技（2015年成立，已注销）；此外，陈天石还是苏州寒武纪信息科技的股东（天眼查显示投资比例0.1%）以及上海寒武纪信息科技的经理。这些企业基本都是北京中科寒武纪的全资子公司。

近日有媒体报道称寒武纪已经接近完成新一轮融资，融后估值20亿美元。业内人士向智东西透露，寒武纪本轮融资已经接近结束，融资共25亿人民币，融后估值24亿美元，国家队背景基金投资入股。

根据公开数据，在2017年年中，寒武纪完成1亿美元A轮融资，估值10亿美元，国投创业领投，阿里巴巴、联想创投、国科投资、中科图灵、元禾原点和涌铧投资等参投。

以下是目前北京中科寒武纪的占股名单，其中“国投（上海）科技成果转化创业投资基金企业”和“北京国科瑞华战略新兴产业投资基金”为2018年1月15日新增的。

结语：“中国芯”的逆袭力量，真的能吗？

中科寒武纪的学术背景、两位陈博士的导师背景、以及其背后的一系列政策资本关系，都决定了我们不能仅从市场经济这个单一的角度去解读这家公司。寒武纪的一众合作伙伴们，华为、科大讯飞、中科曙光、联想等等，都或多或少与寒武纪共享着相同的基因。

在中美贸易关系及中兴案例再次刺痛“缺芯”软肋的当下，中科寒武纪已经成为了我国AI芯片领域一支不可多得的强大力量，与此同时这股力量还在不断快速发展当中。不过，在成为“中国芯”逆袭代表之前，本文中提到的这些“坎儿”，还是要逐步迈过，才能稳健发展。

号称“民族芯”希望 寒武纪真能叫板英伟达？

号称“民族芯”希望寒武纪真能叫板英伟达？