特斯拉造出人形机器人，身高1米7，最强AI计算机也来了-Jiemian Global

特斯拉 · 人工智能 · 科技前沿

特斯拉造出人形机器人，身高1米7，最强AI计算机也来了

推AI芯片，造超级计算机，一切都为了自动驾驶。

| 车东西

图片来源：特斯拉官网

文|车东西

编辑|晓寒

刚刚，特斯拉又一次震撼了整个汽车行业！

今天上午举行的特斯拉人工智能日（AI Day）中，特斯拉亮出“完全自动驾驶功能（FSD）”背后的大脑——特斯拉超级计算机Dojo。

Dojo肩负训练AI算法的重任，它内置特斯拉自研AI芯片D1，单颗D1拥有500亿个晶体管、362TFLOPS的峰值算力（BF16/CFP8），功耗不超过400W。由3000颗D1芯片组成的特斯拉ExaPOD算力更是高达1.1EFLOPS！

而在此之前，特斯拉甚至还用5760个英伟达A100 Tensor Core GPU，组装了一台1.8EFLOPS算力的超级计算机，排名世界第五。

没错，特斯拉早已经成为一家AI计算公司。

如此强大的算力，肯定是服务于特斯拉的FSD功能。而当前，特斯拉的城市道路L2级自动驾驶已经开放小规模测试接近1年，还没能向大众开放。与此同时，今年美版特斯拉Model 3/Y取消毫米波雷达，采用纯视觉感知，FSD真的靠谱吗？

今天在现场，特斯拉AI高级总监Andrej Karpathy和自动驾驶软件总监Ashok Elluswamy等几位特斯拉高管，把纯视觉感知实现自动驾驶这件事讲清楚了。可谓是把特斯拉自动驾驶的技术优势进行了一次大公开，干货非常之多。

发布会结束前马斯克还放出了一个彩蛋，特斯拉要“造人”了！特斯拉机器人将在明年量产，它将替代人类去做危险的、重复的、无聊的任务。

与其他机器人不同，名为Tesla Bot的机器人外形与人非常接近，并且还拥有人类级的手和工作能力。马斯克表示，它将在2022年量产。

总结来看，特斯拉的AI Day可谓是干货十足，并且也给出了Tesla Bot这个one more thing，以下是活动干货。

01.推自研AI训练芯片机柜算力达1.1EFLOPS

比既定时间延迟半小时以上开始，已经是特斯拉开发布会的“老传统”了。AI Day会场外停放着一辆最新款Cybertruck车型，目测会场外有数十人参观。但现场直播的媒体表示，今天现场参会人数并不算多。

发布会开始时，已经比计划延后接近40分钟，特斯拉首先秀出了最新版本的FSD。无保护路口左转、没有车道线的乡村道路、避让行人、路口停车、识别红绿灯……这些动作特斯拉都做得非常熟练。

▲特斯拉AI Day活动前的FSD展示

相比于2019年特斯拉FSD的演示视频完全脱手驾驶，今年的演示视频中特斯拉的驾驶员用一只手扶着方向盘。这表明特斯拉的自动驾驶能力仍在L2级，并非想象中的“完全自动驾驶”那样美好。

▲特斯拉FSD视频的变化，从手松开逐步转到手握方向盘

从技术层面出发，特斯拉如何实现自动驾驶，如何产生训练数据、如何在车内运行以及如何迭代算法就是实现自动驾驶的四大核心问题。

而在今天的AI Day发布会上，最重磅的信息莫过于特斯拉发布了训练自动驾驶的超级计算机，也就是特斯拉如何不断迭代算法。

据Dojo项目负责人Ganesh Venkataramanan介绍，几年前，马斯克几年前曾要求特斯拉工程师设计一台超高速训练计算机，这就是特斯拉启动Dojo项目的原因。Dojo超级计算机将于明年投用，基于大量视频训练AI算法。

▲特斯拉D1芯片展示

Dojo是一个通过网络结构连接的分布式计算体系结构，拥有一个大型计算平面、超高带宽和低延迟、大型网络分区和映射等等，并有一个新编译器来减少局部通信和全局通信，可扩展性强。

该超算内置特斯拉自研AI训练芯片D1。D1芯片采用7nm工艺制造，单芯片面积达645mm2，包含500亿个晶体管，BF16/CFP8峰值算力达362TFLOPS，FP32峰值算力达22.6TFLOPS，热设计功耗（TDP）不超过400W。

▲特斯拉D1芯片的各项性能

该芯片具有GPU级别训练能力和CPU级别可控性，可实现50万个训练节点无缝连接。由此特斯拉提出由25个D1芯片组成的训练单元（tile）。

一个训练单元的接口带宽每秒36TB，算力达9 PFLOPS，采用了集中供电和散热设计，散热能力15kW。

▲特斯拉芯片阵列

拥有120个训练单元、3000颗D1芯片、超过100万个训练节点的特斯拉机柜模型ExaPOD，其BF16/CFP8算力高达1.1EFLOPS。

▲特斯拉芯片阵列展示

其分布式系统是分区块的，Dojo处理单元DPU（Dojo Processing Unit）是一个可根据应用需求调整大小的虚拟设备，包含多个D1芯片和接口处理器。特斯拉编译器引擎可自动将执行指令映射到DPU上，无需人工操作。特斯拉打造了一整套软件堆栈。

▲Dojo软件栈架构

Ganesh说，特斯拉Dojo是史上最快的AI训练计算机。同等功耗下，Dojo超算比现有计算机性能提升4倍、能效提升1.3倍、碳足迹只有原来的1/5。此外，特斯拉预告下一代Dojo超算性能将再提升10倍，不过它并没有透露具体实现日期。

在Dojo发布环节的最后，Ganesh提到特斯拉正在大力招募人才以推进AI研发。

而在特斯拉造出自己的超算之前，也已经利用英伟达GPU搭建了一个世界排名第五的超级计算机。

▲特斯拉超级计算机

这个超算使用了720个节点，每个节点8个英伟达A100 Tensor Core GPU（共5760个GPU），实现了1.8EFLOPS的性能。

▲英伟达A100 Tensor Core GPU

由此可见，无论是特斯拉的Dojo，还是此前用英伟达GPU组装的超算，都能够跻身AI计算领域的头部。

问答环节，马斯克回应称，开发所有这些技术非常昂贵，所以他不确定如何实现开源，但对将AI技术授权给其他汽车公司持开放态度。

02.破除纯视觉感知的所有不靠谱，千人团队标记数据

特斯拉AI高级总监Andrej Karpathy上台，讲述了特斯拉是如何通过视觉感知，再进行规划控制，实现自动驾驶的。

他说，特斯拉通过车身四周的8枚摄像头，形成三维矢量空间，感知出车身周围的环境。

▲人眼视觉信息传递与特斯拉AI视觉信息传递对比

Karpathy说，设计自动驾驶AI视觉时可以逆向工程成人脑识别图像。例如在为汽车设计其“视觉皮层”时，特斯拉根据眼睛如何感知生物视觉进行建模。

特斯拉的8个摄像头都采用1280*960分辨率12bit HDR图像，以每秒36帧的速率采集，就能够实现良好的感知效果。

▲车身上的八个摄像头汇集成三维的“向量空间”

经过神经网络计算时，自动驾驶电脑会不断缩小分辨率，同时提升通道数量。

除了识别车辆，特斯拉还会识别人、红绿灯等多种物体，因此特斯拉开发了多人需学习的HydraNets网络。HydraNets网络共有三个特点，第一是能够高效测试；二是能够单独微调每个任务，同时还能特征缓存与加速微调，突破再现的瓶颈。

当前，许多车企采用高精地图配合传感器，实现感知融合，但是这种方式并不能让车辆正确自动驾驶。因此，特斯拉开发了Occupancy Tracker，此时特斯拉遇到了两个问题，其一是多传感器融合算法并不精密（例如一辆超长的挂车，单个摄像头无法全部感知到），二是图像空间并非真实的物理空间。

特斯拉采用Transformer算法用于预测距离。实际测试发现，在一段两侧都停放车辆的城市道路上，多摄像头感知的准确性和稳定性都要强大很多。

特斯拉认为，在自动驾驶决策方面共有两个难点，第一在于空间是非凸的，第二是高维度的。

特斯拉自动驾驶软件总监Ashok Elluswamy表示，特斯拉采用混合决策系统，首先让感知数据通过向量空间的粗搜索，然后经过连续优化，最后能够形成平滑的运动轨迹。

在一个案例中，车辆判断可以向左变道，但是左侧有正常行驶的车辆，此时如果突然变道，车内的乘坐感受不佳，同时也威胁交通安全。因此，特斯拉会在1.5毫秒内进行2500次变道时机搜索，最终能够选择一条最安全且最舒适的变道时机采取变道措施。

在另一个案例中，特斯拉行驶到了一个超窄路段，两辆车无法同时通行。第一辆对向来车是一辆SUV，车主主动让行。因此特斯拉判断继续前行。但是前行一段距离之后，又发现了另一辆对向来车。

▲特斯拉FSD通过复杂路况

此时，特斯拉选择避让停车同时，对向车辆同样选择了停车避让。因此，特斯拉果断改变了驾驶决策，再次起步通过了这一路段。

随着自动驾驶研发时间的增长，特斯拉需要为更多的物体标记标签，现在已经有1000人的数据标签团队，打造数据标签和分析基础设施工作。

并且，从之前的2D图像标签，进化为现在的4D空间+时间的标签。甚至能够在做一次标签之后，一个摄像头内的标签化图像，就能迁移到其他摄像头。

▲特斯拉建立4D空间+时间

特斯拉还能够在感知过程中重建道路，通过标记车道线和其他物体。与此同时，特斯拉还会收集同一路段的数据，通过多辆汽车采集数据合并在一起，最终实现更精确的重新建图。

最终，车辆能够流畅地标记路旁物体，在准确识别物体之后，才能够实现流畅的城市道路自动驾驶。

今年5月，特斯拉面向美国市场销售的Model 3/Y车型取消了毫米波雷达，不过在雨、雾、雪等能见度较低的天气下，摄像头能看清楚吗？答案是能。

仍然依靠短片记录驾驶场景，特斯拉每周能够获得1万段类似的恶劣环境短片，通过自动标签最终实现精准的距离感知。

▲特斯拉FSD可应对多种恶劣天气

同时，特斯拉也在进行Autopilot仿真测试，特斯拉称其为带有Autopilot的游戏。在仿真测试中，电脑能够精确标注、部署虚拟的车辆。仿真测试用于模拟在生活中难以发现的情况，例如在高速道路上有人行走怎么办？如果有太多人如何标签？停车场如何避让其他车辆？

▲特斯拉进行仿真测试

在仿真测试中，工程师可以测试这些极为特殊的情况。仿真测试有多项必要准备工作：第一是传感器模拟要和真实情况基本相似，第二是要真实的渲染，第三是要有基本真实的场景，包括车辆、行人，特斯拉甚至还造了超过2000英里的路。第四是要有可扩展的场景，包括白天黑夜等不同场景；第五还能通过真实场景重构，在仿真测试中测试算法。

到目前为止，经过特斯拉车内网络训练的图像共有3.71亿张，还有4.8亿个标签。

接下来，除了人、车等动态物体，特斯拉还将检测静态物体、道路拓扑、更多车辆和行人以及强化学习，让纯视觉感知更精准。

03.机器人新品亮相，能代替人工作

在一个简短的机器人装束舞蹈后，马斯克宣布2022年推出特斯拉机器人Tesla Bot，它将替代人类去做危险的、重复的、无聊的任务。

▲特斯拉机器人展示

马斯克介绍到，该机器人将有5英尺8英寸高（约合1.73米），体重有125磅（约合56.7千克），可抱起45磅重的货物（约合20.4千克），也可以通过举重硬拉姿势举起150磅的重物（约合68.0千克）。

▲特斯拉机器人参数

它的四肢使用40个机电执行器进行操作，并通过力反馈感应系统来实现平稳和敏捷双脚行走，最快行走速度可能为5英里/小时（约合8公里/小时）。

马斯克说：“如果这机器人‘造反’了，你还是能跑的过他的。”

此外，这款机器人的手与人类的手非常类似，有5根可以灵活弯折的手指。马斯克称它具有“人类等级”（Human-Level）的手，换句话说它有潜力代替人类执行一些精确操作任务。

▲特斯拉机器人构造

特斯拉还计划将包括FSD Computer在内的硬件系统植入机器人体内作为后者的“器官”，并以训练自动驾驶系统AI的方式训练机器人的AI，让这款机器人能够成为多面手。

马斯克称，特斯拉推出这款机器人的初衷是希望它能代替人类完成一些枯燥、危险、重复性强的工作，他希望今后人类不想干的事统统交给特斯拉机器人来干。当然了，人的创意是无限的，马斯克推测人们可能会发掘出连他都预料不到的用途。

不过，这款机器人恐怕要等明年才能上市了。马斯克称，为了保证特斯拉机器人功能性，他们还需要用Dojo训练场对它进行严格的训练。

04.结语：特斯拉离自动驾驶更近一步

如今，AI技术已经是实现自动驾驶的关键，从传感器感知完成后，计算、决策所有流程都需要AI技术的加持。掌握AI技术，才能让自动驾驶更靠谱。

如今，特斯拉造出自己的AI超算，训练AI模型将不断提速，通过更多的场景、案例，最终实现更安全的自动驾驶功能。

特斯拉造出人形机器人，身高1米7，最强AI计算机也来了

01.推自研AI训练芯片 机柜算力达1.1EFLOPS

02.破除纯视觉感知的所有不靠谱，千人团队标记数据

03.机器人新品亮相，能代替人工作

04.结语：特斯拉离自动驾驶更近一步

01.推自研AI训练芯片机柜算力达1.1EFLOPS