特斯拉AI日浅析|公司观点 -- 止于至善投资

首页

资讯动态

阳光私募

联系我们

首页 > 资讯动态 > 公司观点

特斯拉AI日浅析

发布时间：2021-09-03 2400

本文由止于至善投资，新能源汽车研究员孙嘉宝博士整理，欢迎批评指正与探讨。

在北京时间8月20日举行的特斯拉AI日上，特斯拉介绍了三大成果，包括纯视觉自动驾驶系统与FSD软件、Dojo超级计算机系统，以及人形机器人。这是特斯拉自2019年自动驾驶日、2020年电池日后第三场技术发布会。

特斯拉自动驾驶在硬件、软件各层面，以及软硬件一体化技术优势突出。领先的自动驾驶软硬件基础使特斯拉在整车商业模式的探索创新上占有优势，围绕软件服务优先建立同用户之间的全新价值链。

此次AI日上，我们观察到特斯拉在自动驾驶感知路线上向纯视觉方案进化。为实现纯视觉方案，特斯拉设计超级计算机Dojo，对海量视频进行标注并对算法进行训练。如果未来特斯拉将其Dojo D1芯片技术授权给其他车企，这可能为特斯拉开辟新的商业模式及营收来源。除此之外，特斯拉还在别的人工智能领域拓展，比如这次在AI日上首次展示Tesla Bot人工智能人型机器人。

特斯拉在大会中提到，要长期保持竞争力，持续的人才储备很重要，我们会持续关注特斯拉在自动驾驶技术的领先性，毕竟特斯拉还处于L2的辅助驾驶阶段。另外数据安全和OTA升级监管也是要持续关注的风险点，这可能会影响特斯拉未来的盈利模式以及估值体系。

01 特斯拉会将纯视觉自动驾驶路线进行到底

一直以来，自动驾驶感知领域有两个立场鲜明的派系，视觉派和激光雷达派。视觉派仅依靠摄像头拍摄的画面，传输到系统进行分析，从而计算出周围的车辆、道路等信息，特斯拉、极氪、百度都使用的是纯视觉感知方案。激光雷达派则以激光雷达为主导，配合毫米波雷达、超声波传感器、摄像头来完成自动驾驶。小鹏P5、蔚来ET7、极狐阿尔法S HI版使用的是激光雷达方案。

特斯拉在自动驾驶领域是纯视觉方案的拥护者，其对汽车视觉的构建原则是把自动驾驶系统看作一个生物，眼睛看见画面传输给大脑，然后大脑进行处理判断后给双脚下达命令。在视觉派路线中，一般做法是将摄像头采集的照片以单张图片作为单元进行分析，但是单一图片属于2D图像，难以通过图片去感知图像中物体的真实形状以及运动速度等信息。

所以业界现有的解决方案是用激光雷达感知物体的形状，用毫米波雷达感知物体的运动速度以及轨迹，将这些信息匹配合成，再交给车辆的自动驾驶运算系统进行决策。

但是特斯拉没有采用激光雷达方案，而是在向纯视觉方案进化。特斯拉的解决方案是不以传统的单张图片作为场景感知的最小单元，而是进化到通过连续的视频图像生成3D向量空间对场景进行感知。通过视频图像对场景进行感知，一方面能够统一信息输入方式，避免因为雷达、摄像头等不同感知元件所提供的相对分立的数据，增加算法复杂度；另一方面特斯拉能够通过视频来构建车辆周围的3D场景，有了道路环境的立体信息，将能够让车辆更准确的识别环境中的危险元素。

目前特斯拉的视觉方案是使用8个摄像头，并对其背后的HydraNets（多任务学习神经网络系统）进行重新设计和迭代，将不同摄像头的信息分配给不同神经网络（比如分别负责目标检测、交通信号灯预测、车道预测等），之后再汇总形成自动驾驶系统决策依据。如果摄像头的画面信息不够清晰，HydraNets将对画面进行增强。

对于特征被遮挡时的预测以及已经经过的道路标识的持续记忆问题，特斯拉通过RNN（Recurrent Neural Network循环神经网络）解决。RNN是根据“人的认知是基于过往的经验和记忆”这一观点提出的，通过记忆来处理任意时序的输入序列，来预测接下来即将发生的事情。

通过加入对特征的随时间移动预测，以及对道路标识的距离记忆，使得视野被短暂遮蔽的情况下，依然可以通过遮挡前的特征和轨迹，预测遮挡视野后的物体运动轨迹，并记录已行驶过的路段的各种路标。

特斯拉的FSD战略能让特斯拉汽车在行驶过程中实时绘制地图，通过结合多个车辆经过同一地点的绘制，就可以得到一个完整的地图，帮助特斯拉从其FSD和自动驾驶套件中退出雷达，采用纯视觉模型。

特斯拉AI日中展示的数据测试结果显示，特斯拉的纯视觉方案与毫米波雷达方案性能基本无差异。基于时间序列的多摄像头视频架构实现了更好测量视觉的深度和车辆速度信息，图中的绿线是毫米波雷达的数据，单摄像头视觉预测出的黄线数据比较一般，多摄像头视觉预测的蓝线数据与雷达基本一致。

在感知环节外，特斯拉对规划与控制（Planning&Control）环节也进行持续探索，追求安全、舒适、效率三者之间的最佳平衡。特斯拉自动驾驶技术同时会对周边的车机行为进行预测，选择最优路线规划，提高驾驶效率。例如，在有前车的情况下，根据前车的运行轨迹对车子本身的运行轨迹进行调整，考虑到前车运行轨迹的不确定性，特斯拉会对不同情况进行预测后作出判断。

由于不同车机在公共空间会相遇，所以特斯拉需要收集不同车机的数据。一方面对空间进行矢量规划，同时结合视觉功能实现神经网络规划，将路线规划反馈到中枢控制中，进而对车辆进行控制。

在标注环节，目前特斯拉实现了素材的自动标注，比如自动标注车道线、路肩、路面、人行道等，经过同一地区的车辆越多，标记的数据越完备，用以提升道路模型的重建质量，还能支持遮挡透视标记，这样的模型可以进行更有针对性的算法训练。对于一些非常特殊的道路场景（如罕见的人在高速跑步遛狗、难以标注的一群人经过没有交通灯的马路等），自动模拟器可以对这类偶发场景的模型训练带来数据量的补充。

目前Autopilot仿真器中建立2,000英里长的道路，已经有3.71亿张模拟图像和4.8亿个立方体，肉眼已经很难分辨什么是特斯拉仿真模拟的，什么是现实场景。同时，特斯拉可以实现对周边街区环境的收集，进行画面重建，将历史数据和实时数据进行叠加，对汽车的驾驶路线进行重新规划，同时对其他移动物体的轨迹进行预测。结合马斯克曾经提到FSD Beta 10将会涉及架构的进一步重大变化，未来FSD的AI能力有望持续得到质的飞跃。

02 超级计算机Dojo提升FSD性能

实现纯视觉自动驾驶方案并不容易，难点在于让Autopilot系统对所有接触到的场景都能有准确判断。为此，特斯拉专门设计超级计算机Dojo训练算法。Dojo超级计算机是世界上最快的AI训练电脑，在相同成本下，可以实现更好的表现。预计下一代在性能上会提升10倍。

Dojo超级计算机是一个由网络结构连接的分布式计算架构，有一个大的计算平面，具有极高的带宽和低延迟，以及被分割和映射的大网络。每个Dojo由25颗D1芯片组成，形成36TB/s的带宽和9PetaFLOPS（9千万亿次）算力。未来，Dojo还可以组合成为全球最强算力的超级计算机集群，用于为自动驾驶汽车赋能。

特斯拉车辆搭载的摄像头，能够不间断地采集真实的道路数据，然后Dojo D1的人工智能算法，会自动标记这些数据中的物体（包括常规道路、危险道路和其他意外情况）。之前的大型AI数据集通常需要手动标记，非常耗时费力，而Dojo将配合无监督学习算法（Unsupervised Learning，无需人工对训练数据集进行标注，系统可以自行根据样本间的统计规律对样本集进行分析）。Dojo超级计算机结构由下到上包括芯片、系统、计算集群和软件。

在底层的芯片部分，Dojo D1芯片是特斯拉全新自研的超级计算机芯片，将用于车辆自动驾驶数据的运算和分析，能够自动地学习和识别标记道路上的行人、动物、坑洼地等数据，将海量的数据汇聚于Dojo超级计算机，然后通过自动化深度神经网络训练，以此不断加强算法进化，最终实现以纯视觉为基础的完全自动驾驶（FSD），即特斯拉自动驾驶的最终形态。

Dojo D1芯片在CPU大小的体积里实现了GPU级算力，运算能力能达到每秒362万亿次浮点运算。基于7纳米工艺制造，晶体管数量500亿个，内建354个训练节点，仅内部的电路就长达17.7公里，具有1024千兆的处理能力。处于世界领先水平，可以用于机器学习。

特斯拉Dojo D1对标英伟达A100、华为昇腾910、寒武纪思元290，其表观性能弱于英伟达A100和华为昇腾910，强于思元290。特斯拉发布的第一款Dojo D1训练芯片的制程、算力、功耗主要参数来看，Dojo D1训练芯片并不是业界最领先的AI训练芯片，同制程的英伟达A100和华为昇腾910的性能功耗比均要优于特斯拉Dojo。特斯拉是封闭体系，AI芯片自产自用，所以对软件工具链打造上的要求没有像英伟达、华为、寒武纪等第三方AI芯片公司的要求那么高。

资料来源：新智元、英伟达官网、华为官网、寒武纪官网

特斯拉自研AI训练芯片其主要目的一方面是省去云上训练和车端模型部署之间跨平台精度损失的问题；另一方面是牺牲一定的通用性来获得智能驾驶场景算法训练的高性能。

特斯拉此前使用英伟达的GPU训练模型，AI日上特斯拉提到它曾用5760个英伟达 A100组装了一台1.8EFLOPS算力的超级计算机，世界排名第五；而特斯拉车端用的是自研芯片FSD，训练和部署用不同的芯片平台中间过程会徒增大量模型迁移的工作量以及模型精度损失的问题；如果训练和部署用同一套工具链、基于相同的指令集，则效率会大幅度提升，而且可以最大程度保证模型精度。

其D1芯片大概率专为智能驾驶场景打造，架构设计大部分主要针对智能驾驶中常出现的计算机视觉等算法，不太考虑语音识别、语义理解等常用算法，因此在设计上可能会以牺牲一定通用性来换取配合上层算法特性来定制以获得高性能。

顶层的软件生态是AI芯片规模化的重要因素，特斯拉在这个部分推出DPU，一个虚拟机，可以根据具体的应用需求进行定制化尺寸。同时，集成芯片可以处理大规模数据，进行超级运算，PyTorch实现数据更好的运行。

03 人形机器人：AI应用扩展新尝试

最后，特斯拉AI日上，马斯克首次展示了特斯拉Tesla Bot人工智能人型机器人。他表示原型预计2022年面世。马斯克发微博称：“因为我们已经制造了带轮子的机器人（特斯拉汽车），所以现在我们几乎拥有所有制造人型机器人所需的零件。”

Tesla Bot采用Autopilot的摄像头作为视觉感知，采用FSD Computer作为计算核心，脖子、胳膊、手、腿累计搭载了40个机电推杆，还将搭载多相机神经网络、基于神经网络的规划、自动标记、算法训练等，特斯拉寄希望人形机器人未来能代替人很多的工作（比如做家务、上街买菜等）。

显然，人形机器人的推出意味着特斯拉已经开始了全新扩张，未来它可能不是一家新能源汽车公司，而是一家AI公司，特斯拉有可能将AI应用扩展到自动驾驶之外的其他领域。

04 投资机遇与风险

Dojo D1芯片可能对特斯拉的未来非常重要，因为公司技术的垂直整合长期以来一直是特斯拉的最大看点之一。ARK Invest（方舟投资）分析师 James Wang曾在一份2019年特斯拉的研究报告中称：“垂直整合技术将使特斯拉超越竞争对手并在创新上比过竞争对手”。这种内部研发芯片可以通过对汽车特定需求的简化设计，帮助特斯拉超越竞争对手长达四年之久。

特斯拉的处理器并不一定比英伟达的好，它只是能够更好地服务于特斯拉。”同时，马斯克在AI日的问答环节中表示，Dojo D1芯片因技术开发费用昂贵不会开源，但会考虑license（授权）给其他车企。这可能为特斯拉开辟新的商业模式及营收来源。但是，特斯拉在AI日上也表示，有关Dojo超级计算机的一些问题并未全部解决，或将在明年推出。

与此同时，我们不能忽视投资特斯拉存在的风险。一方面其自动驾驶FSD目前仍然停留在L2级水平，另一方面特斯拉也并未讨论监管相关问题，包括美国NHTSA对Autopilot开启的调查，以及工信部在《关于加强智能网联汽车生产企业及产品准入管理的意见》中提出各车企在未经审批之前，不得擅自对车辆实施在线OTA软件升级的要求。而这些都有可能影响特斯拉的商业模式及估值模型。