“吊儿郎当”的特斯拉,要成为人工智能巨头?

AllbetAPP下载

欢迎进入AllbetAPP下载(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理{li}、Allbet电脑客户端、Allbet手机版下载等业务。

,

题图来自:视觉中国

前一阵,马斯克发推特宣布了特斯拉“AI Day”将会在北美时间8月19日正式举行。凭证之前他的推特所说,宣布会将会先容特斯拉在人工智能领{ling}域的软件和硬件希望,尤其在(神经网络)的训练和展望推理方面;这次流动的主要目的是招揽相关人才。

这种做法异常的特斯拉,就像2019年的“Autonomous Day”和2020年的“Battery Day”一样,估量“AI Day”整个宣布会将会涉及大量的软件、硬件的手艺细节,以此来向外界“秀肌肉”。

而这种手艺“秀肌肉”正是特斯拉招揽顶尖人才的怪异方式。从某种水平上讲,特斯拉在召开类似的宣布会时,面向的群体更多的是行业领域的专业人士;用极具野心的设计偏向和推翻行业的研发功效,去吸引那些因此感应心潮汹涌的人才。

特斯拉的AI硬件认真人Peter Bannon曾在接受采访时说:“你知道有许多人想要来特斯拉事情的基本缘故原由,仅仅是由于他们想要从事于(FSD)的研发和相关事情。”事实上,美国近几年在统计工程类专业学生最想去的公司排名中,特斯拉和SpaceX经常交替排名第一,实在也佐证了Peter所说的这一「yi」征象。

(图/Universum)

只管此次一如既往的并未泄露什么“AI Day”的信息,但仅通过上面那一张预热图,就让不少从事AI领域的人为之兴奋不已。

神秘的Dojo盘算机芯片

在“AI Day”宣布会的约请函上,放着一张夸张的芯片图。

从图上估测,该芯片接纳了非通例的封装形式,第一层和第五层铜质结构是水冷散热模块;红色圈出的第二层结构由5*5阵列共25个芯片组成;第三层为25个阵列焦点的BGA封装基板;第四层和第七层应该只是物理承载结构附带一些导热属性;蓝色圈出的第六层应该是功率模块,以及上面竖着的玄色长条,很可能是穿过散热与芯片举行高速通讯的互联模块;

从第二层结构的圆形边角,以及(ji)拥有25个芯片结构来看,异常像Cerebras公司的WSE超大处置器,即特斯拉可能接纳了TSMC(台积电)的InFO-SoW(集成扇出系统)设计。

所谓InFo-SoW设计,简朴明白来说就是原本一个晶圆(Wafer)能够“切割”出许多个芯片,做成许多个CPU/GPU等类型的芯片(凭证设计差异,光刻时决议芯片类型),而InFo-SoW则是所有的芯片都来自于统一个晶圆,不只不举行切割,反而是直接讲整个晶圆做成一个超大芯片,实现system on wafer的设计。

这么做的利益有三个:极低的通讯延迟和超大的通讯带宽、能效的提升。

简朴来说,由于C2C(芯片与芯片之间)的物理距离极短,加上通讯结构可以直接在晶圆上部署,使得所有内核都能使用统一的2D网状结构互连,实现了C2C通讯的超低延迟和高带宽;以及由于结构优势实现了较低的PDN阻抗,实现了能效的提升。此外,由于是阵列多个小芯片组成,可以通过冗余设计来阻止“良品率”问题,以及实现小芯片处置的天真性。

举个形象的例子,特斯拉前一阵宣布的超级电脑,一共用了5760个Nvida A100 80GB的GPU,那么在这些芯片之间,需要海量的物理结构举行毗邻以实现通讯,不仅花费大量成本,且由于毗邻结构的带脱期制成为“木桶短板”,导致整体效率较低,而且另有涣散的重大散热问题。

这里拿Cerabraas的WSE-2作为参考对比,一个芯片的焦点数是Nvdia A100的123倍,芯片缓存为1000倍,缓存带宽为12733倍,Fabric结构带宽则为45833倍。

这样级其余性能怪兽其主要目的,就是为了AI的数据处置和训练。其一代芯(xin)片WSE,已经有多个重量级用户在使用,好比美国阿贡国家实验室、劳伦斯利弗莫尔国家实验室、匹兹堡超级盘算中央、爱丁堡大学的超级盘算中央、葛兰素史克、东京电子器件等。

全球制药巨头葛兰素史克的高级副总裁Kim Branson赞美到,WSE的超强性能将训练时间削减到之前的1/80。而在美国最大的科学与工程研究室阿贡国家实验室,WSE芯片被用于癌症研究,将癌症模子的实验周转时间削减到1/300。

以是不难推断出,“AI Day”约请函上面放出的这张图,应该就是马斯克所谓的Dojo超级盘算机的自研芯片。而且颇有意思的是,宣布会的时间是2021年8月19日,而就在恰好一年前的2020年8月19日,马斯克发了一条推特说:“Dojo V1.0还未完成,估量还需要一年的时间。不仅仅是芯片自己的研举事度,能效和冷却问题也异常的难。“

之以是说冷却问题难,是由于{yu}凭证尺度晶圆一块是300mm来看,那么特斯拉这块Dojo芯片设计单个芯片应该与RTX 3090差不多,至少每个芯片有280亿-320亿个左右的晶体管,单个芯片功耗可达250-300w左右,整体功耗约在6250w-7500w左右;而且台积电也曾说InFo-SoW设计的最高功耗约为7000w,同样印证了这一点。

几个月后,他又弥补道:“Dojo接纳我们自研的芯片和为神经网络训练优化的盘算架构,而非GPU集群。只管可能是禁绝确的,然则我以为Dojo将会是天下上最棒的超算。”而且,马斯克在2021年Q1财报时也曾说:Dojo是一台为神经网络训练优化的超级盘算机。我们以为以视频数据处置速率而言,Dojo将会是全天下效率最高的。“

实在马斯克早在2019年“Autonomous Day”就提到过Dojo,称Dojo是能够行使海量的视频(级别)数据,做“无人羁系”的标注和训练的超级盘算机。

而且若是认「ren」真领会过2019年(nian)“Autonomous Day”宣布会,就会发现,特斯拉推出Dojo超算以及【ji】自研芯片,是一定且在设计中的事,是特斯拉不得不去做的事。

换句话说,不是特斯拉想要成为人工智能巨头,而是被逼无奈只能云云。

为什么要做Dojo?

欧博Allbet

欢迎进入欧博Allbet官网(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理「li」、Allbet电脑客户端、Allbet手机版下载等业务。

实在这个问题马斯克曾在推特中回复过,大致意思为:“只有解决了真实天下的AI问题,才气解决自动驾驶问题……除非拥有很强的AI能力以及超强算力,否则基本没设施……自动驾驶行业人人都很清晰,无数的边缘场景只能通过真实天下的视觉AI来解决,由于整个天下的蹊径就是根据人类的认知来确立的……一旦拥有领会决上述问题的AI芯片,其他的就只能算是锦上添花。”

实在马斯克已经讲的很清晰了,笔者来稍微弥补一些知识便于明白。

现在自动驾驶需要解决的难题,实在最焦点和最难题的就是“感知”,换句话说系统对周围驾驶环境的感知能力越强,其自动驾驶的综合能力就越强;也就是从这里,行业里分成了两大派别,一个是以特斯拉和Mobileye(同时也有Lidar方案)为首的纯视觉方案;另外是其他所有相关公司,想尽可能加入更多的传感器融合方案

这里暂且不去讨论事实哪条路径是准确的,由于很有可能未来实现殊同〖tong〗同归的效果。

然则,无论是哪条路径,都需要对海量的数据举行深度学习,也就是对神经网络的训练,才有可能实现所谓完全自动驾驶,而且这是唯一途径。

缘故原由很简朴,自动驾驶的问题,可以明白为处置可能遇到的种种驾驶场景以及做出的操作,那么这个基本是“无限”的;若是有有限的编程方式,那么永远无法解决所有可能遇到的问题,或者说以人类的能力,基本无法笼罩那么多种转变的情形。

早{zao}期的种种自动驾驶系统,由于没有其余途径,只能用这样的“死板”方式去研发【fa】软件,以是其能力异常有限,只能应付相对稳固和条件限制较多的场景。

而若是想要实现识别各种型的场景,那么就需要这个“软件”不停自我顺应和“进化”,这就是行使神经网络举行深度学习的缘故原由了。

神经网络可以(yi)简朴明白为通过“仿生学”模拟人类大脑皮层的神经元“相同学习”的方式举行〖xing〗处置数据,用来实现“类人”的学习器械的方式。然而,看法很美妙,现实很残酷。

1943年Warren McCulloch和Walter Pitts曾写过论文讲述人工神经网络该若何事情,而且行使电路造了一个简朴的模子。厥后经由诸多人的起劲和研究生长,直到1998年,斯坦福大学的Bernard Widrow和Marcian Hoff才打造出了第一套用于解决现实问题的人工神经网络。

1956年,达特茅斯夏日 *** 上各路大牛提出了AI界说{shuo},大大推动了AI和人工神经网【wang】络的生长,也被普遍以为是AI元年。那时人们信心满满,以为不用20年就能打造出跟人脑差不多一样的AI系统。效果在不停研究中发现,深度神经网络的算法太过庞大,从而无从下手。于是放弃了当初“大而全”的目的形式,转为以执行单一目的{de}为偏向。

这其中除了由于对人类大脑的熟悉异常肤浅(到现在也没有提高若干),以及人工神经网络架构的局限和软件算法的局限之外,更多的就是算力问题,也就是受到半导体行业生长的限制。

李开复博士在做他的语音识别功效博士论文时,哪怕在那时他所接纳语音数据库算异常大的,实在也不外仅有100MB,却破费了他导师近10万美刀,在1988年相当于两套屋子的价钱。而现 xian[在动辄几个PB的数据量,算力成为了限制许多AI生长的瓶颈。

弥补一个知识:差其余处置器芯片所具备的能力各不相同。例如CPU更多的通用盘算,可以明白为总指挥,认真逻辑上更线性的盘算和判断;而GPU则是专职于图像处置的芯片,能够同时吞吐较大的数据量和举行矩阵盘算,加之已经是成熟的量产产物,以是被大量应用于AI学习。

而NPU(Neural Processing Unit,神经网络处置器)则是从设计层面就专职为神经网络学习优化的,像谷歌的TPU和特斯拉的FSD芯片都属于NPU序列,这类芯片扔掉了类似GPU中不需要的功效,仅为神经网络所需要的数据处置形式服务,其速率和能效要高许多。

然则,这里还需要区分ASIC(Application Specific Integrated Circuit,专用集成电路)芯片和FPGA(Field Programmable Gate Array,可编程逻辑门阵列)芯片,其中ASIC芯片就是生产后,其运行逻辑和功效就牢靠了,不能修改,为某项义务(软件)而生,能效极高;而FPGA则是可以通过软件改变其运行逻辑,为半定制的芯片,可以通过软件对其举行修改,适合举行训练和优化所用,能效相比ASIC芯片低一些。像TPU和FSD都属于ASIC芯片,而特斯拉此次宣布的Dojo芯片就属于FPGA序列。

回过头来,市场上既没有相符需求的车载芯片可用,也没有相符需求的超算来更好的行使这些数据,特斯拉想要实现这一切,在那时只有自己去做软件和硬件,昔时特斯拉在2016年立项做【zuo】FSD芯片时,谷歌的专属AI芯片TPU才刚刚问世,而车载的AI芯片险些没有能用的。

以是,昔时很可能FSD和Dojo的立项时间不会差太远,只是由于思量到能耗和需求问题,Dojo等到7nm的手艺相对成熟后,才最先逐步推进。

从另一个纬度上去明白Dojo的一定性,是从神经网络学习的盘「pan」算量级上去明白。在2019年“Autonomous Day”宣布会上,特斯拉实在已经昭示了会去掉雷达,走向纯视觉,且是视频级其余数据举行直接处置。

举个简朴的例子,一张1080p的图像,以最简朴的神经网络结构,若是晦气用激活函数(tanh、ReLU)举行数据“优化”,其运算量也许需要4万多亿次;即便接纳激【ji】活函数优化的卷积神经网络处置,其运算量也将到达1.3亿多次;而若是以视频形式处置,一秒按24帧盘算,也有24张图像,综合算下来其运算量是惊人的。

值得注重的是,自动驾驶网络的数据中95%左右都是无效数据,也就是对神经网络训练压根没用,简朴明白来说就是你天天做险些相同的卷子,是得不到任何提升的。以是即便特斯拉的车辆仅在特定触发条件下才会网络部门数据,但获得的数据量依然异常重大,需要Dojo这样为特斯拉自身软件优化过的定制超算,才气大大提高效率。

此外,前文提到过“无监视训练”也是Dojo的另一个焦点目的,用于大幅度提高训练效率。

在神经网络训练中,实在海量的研究职员都是“调参侠”,简朴明白也就是通过不停调“权重”来让神经网络判断越来越准确,或《huo》者是通过人工标注种种“准确谜底”,让其学习。这就会导致“人”成为了效率的短板,从而致{zhi}使整个历程的训练速率大幅降低。而若是实现“无监视训练”,也就是系统自己通过海量数据和以前“学习”的效果举行自动标注和调整,那么其效率将会是量子级其余提升。

举个简朴的例子,谷歌的Alpha Go击败天下围棋大师信托许多人都知道,也是一小我私人工智能在特定领域击败人类的标志事宜。作为对比,Alpha Go经【jing】由人工介入调整和标注的训练效果,履历了几年时间击败了全球能手。而作为无监视训练的类型Alpha Zero,仅用三天时间自己与自己对弈,就击败了Alpha Go Lee,在21天打到了Alpha Master的水平,并在40天逾越了所有的旧版本。

总结起来,若是特斯拉完成了Dojo的打造,那么就能够以惊人的效率用海量的数据举行训练,解决种种“边缘场景”的问题,加速自动驾驶系统的成熟和完善;更要害的是,特斯拉对其软硬件的垂直整合度异常高,不仅不受制于别人,而且能够以此作为服务,给外界提供深度学习的训练营业。

马斯克曾示意,一旦相对完善了Dojo,将会开放Dojo作为服务给外界提供训练营业,而且Dojo能够承接险些所有的机械学习义务。

这也是为什么马斯克敢说,未来特斯拉将会是最大的几家人工智能公司之一。

会有One More Thing吗?

此次特斯拉的“AI Day”,不出意料的话会把Dojo芯片作为最重点的内容举行软硬件的先容;固然也会笼罩FSD Beta相关的希望先容,但就现在的信息来看,还极有可能会推出新的基于7nm手艺的HW4.0硬件。

事着实2019年“Autonomous Day”时,马斯克就说过HW4.0的研发已经举行了一半,以是此次宣布会,也很有可能借此时机宣布新的车载芯片硬件。

  • 评论列表:

添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。