一文看懂人工智能芯片的产业生态及竞争格局【kb体育】

2022-11-17

本文摘要:根据百度的一项研究,对于大量的矩阵运算,各种深度自学计算任务的性能远优于FPGA,但在处理大量小计算的实际计算和出厂时,FPGA的性能却高于GPU。

根据百度的一项研究,对于大量的矩阵运算,各种深度自学计算任务的性能远优于FPGA,但在处理大量小计算的实际计算和出厂时,FPGA的性能却高于GPU。另外,FPGA具有低延迟的特点,非常适合支持大量用户在推测环节(比如语音云识别)进行动态计算和催促。专用集成电路是一种高度定制的专用芯片,无法配备。

其特点是必须投入大量的R&D。如果出货数量无法保证,单个芯片的成本就无法增加,芯片的功能一旦释放,就没有改变的余地。如果市场深度自学方向改变,那么在前期不会重用ASIC,意味着ASIC市场风险小。然而,作为一种特殊的芯片,专用集成电路的性能低于现场可编程门阵列。

kb体育

如果能以较低的出货量建造,其单个成本几乎可以高于FPGA。在深度自学的培训和投机中,常用的芯片和特点如下:从市场来看,目前市场对人工智能芯片的需求可以概括为三类:一是面向各大人工智能企业和实验室。研发阶段的培训市场;其次,数据中心推测(云上推断),无论是亚马逊Alexa还是外出提问等主流人工智能,都必须通过云获取服务,即推测链接放置在云中而不是用户设备上;三是智能手机、智能安防摄像头、机器人/无人机、自动驾驶、VR等设备设备端推理市场。设备端推理的市场必须是高度定制和低功耗的人工智能芯片产品。

比如传言华为将为Mate 10的麒麟970配备寒武纪ip,旨在为手机终端打造强大的深度自学习本地终端计算能力,以支持过去必须在云中计算的人工智能的应用。围绕上述分类标准,我们可以从市场和芯片特性的角度勾勒出一个人工智能芯片的生态系统。整个生态系统分为训练层、云引故障和设备端引故障:在深度自学的训练阶段,训练层的芯片生态无疑成为目前事实上的工具标准。

AMD今年在标准化计算和生态系统建设方面已经缺席多年,导致英伟达凭借深度自学GPU在加速市场方面占据主导地位。根据英伟达今年的Q2年报,英伟达的Q2收入超过22.3亿美元,毛利率超过了令人难以置信的58.4%。其中,数据中心(主要是特斯拉深度自学加速服务器)Q2营收4.16亿美元,同比下降约175.5%。

面对英伟达目前获得的深度自学培训市场,许多巨头都在竞相应对和发起挑战。谷歌今年5月宣布推出TPU 2.0。TPU是谷歌为加快深度自学开发的一款ASIC芯片。

第一代TPU只能作为推测(即不能作为训练模型),在AlphaGo人机大战中获得了极大的计算支持。目前,谷歌发布的TPU 2.0不仅可以推测,还可以有效反对加速训练链接的深度网络。

谷歌表示,在自己的深度自学和转化模型的实践中,如果谷歌在32个顶级GPU上分段训练,就必须进行一整天的训练,而在TPU2.0上,八分之一的TPU Pod(TPU集群,每64个TPU形成一个Pod)可以在6小时内完成一定程度的训练任务。目前,谷歌无意推进TPU芯片的商业化。谷歌对TPU芯片的总体规划是基于自身开源销售目前深度自学框架领域排名第一的TensorFlow Cloud,并通过TensorFlow的TPU云加速模式为AI开发者提供服务。

谷歌可能还会考虑出售TPU芯片的必要性。如果谷歌未来能以比出售GPU更低的成本为AI开发者获得TPU云加速服务,使用TensorFlow生态系统无疑不会对NVIDIA构成根本性威胁。

当然,TPU作为一个ASIC芯片解决方案,意味着巨大的R&D投资和市场风险,背后的潜在市场也是巨大的:跨越培训和云投机的可观云服务,但目前只有谷歌有如此大的决心和资源禀赋,用ASIC芯片打造这个布局。但是,除了芯片本身,市场的培育似乎还不够,还包括了很多熟悉GPU的研究/开发人员转投TPU云计算平台的切换成本,这就意味着谷歌要做大量的生态系统培育工作。除了谷歌,前GPU大王AMD目前也在迎头赶上,并宣布了三个基于Radeon本能的深度自学加速器方案,希望加快GPU深度自学的市场份额。当然,AMD能否获得相对英伟达同类产品的比较优势还是未知数。

对于现在的老大英伟达来说,目前的当务之急无疑是打造护城河来捍卫国家的市场份额,这是三个方面的核心举措。一方面,在产品研发上,英伟达花了30多亿美元研发,发布了第一款基于Volta、突破100TFlops速度的处理器特斯拉,专注于工业级超大规模深度网络加速;另一方面是加强人工智能软件栈系统的生态培育,即获得一个易于理解、完整的GPU深度自学习平台,不断完善CUDA、cuDNN等包,以及深度自学习框架和深度自学习类库,以维持NVIDIA GPU加速方案的粘性。

三是卖NVIDIA GPU云计算平台。NVIDIA除了获得GPU云加速服务外,还借助NVDocker获得了全面优化的深度自学框架容器库,进一步被中小型AI开发者用于其平台。核心驱动能力:对于人工智能生态的关键环节——深度自学培训,我们可以看到,竞争的核心并不是整个芯片本身,而是基于芯片加速背后的整个生态圈,让开发者快速提供深度自学来加速计算能力,从而降低深度自学模式R&D培训的整体TCO和R&D循环。总之,这个领域是巨人玩家的战场,普通创业公司没有机会变成这个领域。

下一个核心点是谷歌能否凭借TensorFlow谷歌云TPU 2.0生态获得相对英伟达的比较优势,从而导致与正常市场份额的异化。但相对于主要靠标准化计算的NVIDIA GPU,当TPU ASIC解决方案的出货量超过一定阈值时,其单一价格和功耗比可以包含不可忽视的竞争优势。当然有两个不同的前提条件:第一,深度自学的主流框架在未来几年内不会再发生根本性变化。

比如深度自学还是高度依赖矩阵运算的,不然一个死了的ASIC就失去了所有的价值。第二,谷歌可以打造一个充足易用的生态,让很多AI研究/开发人员从CUDA GPU变成谷歌,超越行业对英伟达的路径依赖,这确实是一条艰难的路。当深度自学应用于例如基于深度神经网络的机器翻译服务时,经过几周甚至几个月的GPU集群分割训练,已经达到足够的性能,然后面向最终用户的消费者级服务将投入使用。一般来说,经过训练的深度神经网络模型往往非常复杂,其推理仍然是计算密集型和内存密集型的,无法部署到资源受限的终端用户设备(如智能手机)上。

就像Google不希望用户不要安装一个最大300M大小的机器翻译APP应用到手机上一样,翻译成猜测的手机的本地计算时间(应用到训练好的神经网络模型时,计算翻译结果)大概有几分钟宽,甚至手机的功耗还没有计算出来。此时,将人工智能应用于部署架构时,云上推理非常合适。虽然单个猜测的计算量无法与培训相提并论,但是如果假设同时有1000万人用于这个机器翻译服务,那么计算量的总和不足以给云服务器带来很大的压力。

随着人工智能的普及,这无疑不会成为常态,也不会成为行业的另一个痛点。因为大规模的推测催促仍然是计算密集型任务,CPU再次成为推测环节的瓶颈。

不过在云推测中,GPU还是可以自由选择试衣的。取而代之的是3A(阿里巴巴云、亚马逊、微软公司的Azure)竞相探索云服务器FPGA芯片模式,取代传统CPU来支持云中的技术密集型任务。亚马逊AWS去年发布了基于FPGA的云服务器EC2F1早在2015年,微软就通过弹射项目在数据中心实验CPU FPGA解决方案;而百度则自由选择与FPGA巨头Xilinx合作,在百度云服务器部署KintexFPGA进行深度自学推测,而阿里巴巴云和腾讯云都有与周边FPGA类似的布局,如下表右侧所示。当然,值得一提的是,FPGA芯片厂商往往以中国企业的身份出现。

——清华是基于其背景的深度学习FPGA技术。目前,沈剑已经对西林进行了战略投资。云计算巨头争相布局云计算FPGA芯片。

首先,FPGA作为可编程芯片,非常适合部署在获得虚拟化服务的云计算平台中。FPGA的灵活性可以体现云服务提供商根据市场需求调整FPGA加快服务供给的能力。

比如可以根据市场需求,利用一批深度自学加速的FPGA实例,将芯片内容改为加解密实例等其他应用,以保证FPGA在数据中心的巨大投入不会因为市场风向的改变而有风险。另外,由于FPGA的架构特点,非常适合低延迟的流媒体计算密集型任务的处理,这意味着FPGA芯片面向大量用户的云推测。相比GPU,FPGA芯片不具备计算延迟更低的优势,需要获得更好的消费体验。

在云推测的芯片生态中,被迫支持的最重要的力量是PC时代的王者英特尔。面对摩尔定律过热的CPU产品线,英特尔通过多次大规模收购,呕心沥血弥补了人工智能时代的核心资源容量。一是斥资167亿美元收购排名第二的FPGA公司Altera,整合Altera多年的FPGA技术和Intel自己的生产线,销售CPU FPGA的异构计算产品,重点是深度自学习云投机市场。

此外,去年收购了享有针对深度自学优化的硬件和软件栈的Nervana,以重建深度自学领域的软件服务能力。当然,英特尔被迫收购了领先的ADAS服务提供商Mobileye和计算机视觉处理芯片制造商Movidius,将人工智能芯片的触角延伸到设备终端市场,这将在本文的其余部分进行描述。相比培训市场唯一的英伟达,云炒芯片领域风起云涌。

一方面,英特尔希望通过培育CPU FPGA解决方案,成为云投机领域的NVIDIA,并做出可爱的翻盘。此外,由于目前云投机市场的市场需求还没有变成真正的高速集约化时期,大部分人工智能应用还处于实验阶段,尚未在消费市场形成巨大的市场需求。云计算服务提供商可能不打算依靠自己的云服务优势。

在这个强化点到来之前,他们会布局自己的云FPGA,应用到生态中。另一个不容忽视的因素是,谷歌的TPU生态在云投机方面拥有巨大的市场份额。

随着人工智能在生态学中的应用越来越多,不会总有更多的设备不能完全依赖云推测。比如自驾车的投机不能靠云来完成,否则频繁出现网络延迟就惨了;或者甚至是大城市数百万高清摄像头,其人脸识别推测,如果只是云已经完成,高清视频的网络传输比特率将会淹没整个城市的移动网络。未来,当人工智能的很大一部分应用到场景中时,拒绝终端设备本身一定没有足够的推测计算能力。但ARM等架构芯片的计算能力似乎无法满足这些终端设备的局部深度神经网络推测,业界必须采用全新的低功耗异构芯片,以展示设备足够的计算能力,应对未来人工智能对场景的日益增长的应用。

哪些设备不能具有设备推理功能?主流场景还包括智能手机、ADAS、CV设备、VR设备、语音交互设备、机器人。在智能手机——中映射深度神经网络加速芯片可能会成为行业的新趋势,当然这种趋势要等到有足够多的基于深度自学的刺客级应用才会被证实。

有传言称,中华会给Mate 10的麒麟970配备寒武纪ip,给Mate 10带来强大的深度自学习本地终端推测能力,让各种基于深度神经网络的摄影/图像处理得到应用,为用户获取更多体验。此外,高通无意在未来芯片中重新添加Snapdragon神经处理引擎用于本地端推测,ARM也发布了针对深度自学优化的DynamIQ技术。对于高通等SoC厂商来说,在其成熟的芯片解决方案中加入深度自学习加速器IP并不困难。可以推断,未来智能手机人工智能芯片的生态仍不会被传统的SoC厂商所控制。

ADAS(Advanced Assistant Driver System)—— ADAS作为最流行的人工智能应用之一,必须处理由激光雷达、毫米波雷达、摄像机等传感器采集的海量动态数据。作为ADAS的中枢大脑,ADAS芯片市场的主要玩家还包括今年被英特尔收购的Mobileye,去年被高通以不可思议的470亿美元收购的恩智浦,以及汽车电子领域的领头羊英飞凌。随着英伟达发布自己的基于GPU的ADAS解决方案Drive PX2,英伟达再次加入战斗群。CV(计算机视觉)设备——计算机视觉领域全球领先的芯片供应商是Movidius,已被英特尔收购。

DJI无人机、Hikvision、大华的智能监控摄像头都用在Movidius的万千系列芯片上。计算机视觉技术中必须深度使用的设备,如上述智能摄像机、无人机、行车记录仪、人脸识别欢迎机器人、智能手写板等。

往往有什么是本地端猜测所需要的。就像刚才说的,如果这些设备只能在网络下工作,无疑会带来不好的体验。目前,计算机视觉技术显然不会成为人工智能应用的沃土之一,计算机视觉芯片将享有广阔的市场前景。

目前国内有很多做计算机视觉技术的创业公司,如上唐科技、阿里优视、腾讯优图、从云、易图等。在这些公司中,随着未来自身计算机视觉技术的积累,有些公司自然不会转而进行CV芯片研发,就像Movidius是从计算机视觉技术到芯片厂商的路径一样。

kb体育

VR设备,语音交互设备,机器人——由于空间原因一起讲解。VR设备芯片的代表是微软为自己的VR设备Hololens开发的HPU芯片。

TSMC制造的这种芯片可以同时处理来自五个摄像头、一个深度传感器和一个运动传感器的数据,但不具备计算机视觉的加速矩阵运算和CNN运算功能。在语音互动设备芯片方面,中国有两家公司,戚颖泰伦和云之声,收购芯片所有方案都内置了针对语音识别优化的深度神经网络加速方案,并构建了离线语音识别设备。在机器人方面,家庭机器人和商业服务机器人都必须使用带有特殊软件芯片的人工智能解决方案。

这方面的典型公司包括百度深度自学实验室前负责人余凯创立的零点机器人。当然,Horizon Robot也获得了ADAS、智能家居等其他嵌入式人工智能解决方案。在设备推理领域,我们看到的是一个丰富多彩的生态。

由于人工智能在ADAS、CV、VR等设备领域的应用还远未成熟,各人工智能技术服务商在培育各自领域的同时,逐步从人工智能软件向软件芯片解决方案演进,构成一个非常丰富的芯片产品解决方案,是一条自然的路径。与此同时,我们仔细观察到,英伟达、英特尔等巨头已经逐渐将触角延伸到了设备上推理领域,旨在形成端到端的集成人工智能解决方案体系,构建各级资源的同步。

(微信官方账号:)出版社:本文是胡佳琪的专栏投稿。经许可,禁止发表有版权的文章。以下是发布通知。


本文关键词:kb体育

本文来源:kb体育-www.rfadq.com


全国热线:028-30375186

联系地址:广东省广州市天河区88号

Copyright © 2004-2022 www.rfadq.com. kb体育科技 版权所有 | ICP备95895590号-3