本土AI模组及芯片发展动向-电子产品世界手机版
作者/ 王莹 王金旺 《电子产品世界》编辑(北京 100036)
摘要:AI已成为国家战略,激励本土AI研发企业不断探索。实际上,本土有一小批新锐公司,正面向特定领域推出模组或芯片。为此,本媒体特别采访了国内几家有代表性企业,介绍了其AI硬件及相关算法的最新进展。
AI芯片企业需加强软硬件协同能力
目前市场上AI主要的商业应用场景有安防监控、家居/消费电子和自动驾驶汽车。安防监控以及消费电子市场已经较为成熟,且国内企业从产品能力到产业链整合能力均占据优势地位,是目前国内人工智能企业展开竞争的主战场。本土的汽车主机厂和零部件厂商较为弱势,目前在无人驾驶领域的布局以互联网等非传统汽车产业链内企业为主。针对不同的应用场景,国内的主流AI企业已经开始从算法与架构的实现向提供特定应用场景系统解决方案发展并不断向上游的ASIC芯片设计延伸。如地平线、深鉴科技等企业均已开始推出自己的芯片产品。
在对服务的安全性、实时性要求不高的应用领域,云端布局的人工智能服务将依然会是市场的主流。而在对服务的安全性、实时性、隐私性等要求较高的应用领域,前端部署已成为市场共识,未来市场空间非常巨大。
异构算法要求更高的软硬协同能力
一直以来,GPU、FPGA、ASIC三者就因其鲜明的特点分工在人工智能领域发挥着巨大的作用。GPU适合大规模并行运算,在训练深度神经网络方面具有优势。FPGA具备可编程、高性能、低功耗、架构灵活等特点,方便研究者进行模型优化,一般被用作芯片原型设计和验证,或是用在通信密集型和计算密集型场景中,诸如通信、军工、汽车电子、消费及医疗等行业。ASIC将性能和功耗完美结合,具有体积小、功耗低、可靠性高、保密性强、成本低等几方面的优势。
国内人工智能企业在从单独的架构、算法构建到行业应用系统解决方案提供的转变过程中,通过异构的方式解决优化系统各部分的适配性已经成为行业内的共识。这一架构和算法上的趋势,将进一步提升软件在人工智能系统中的地位,对公司的软硬协同能力提出了更高的要求。
AI芯片设计要考虑终端需求
由于人工智能领域是新兴事物,整个产业链还不完整,产业分工尚未形成,AI芯片企业必须提供从芯片/硬件、软件SDK到应用的解决方案已基本成为业内共识。
这一现状要求每家AI芯片公司都成为一家软件加系统公司,这样才能在市场竞争中取得优势。比如,公司在芯片设计时候就需要考虑未来面对的终端用户的需求,并通过将芯片集成到系统中,使其运行更加简单。此外,应尽可能减少第三方协作以及为用户提供更多的参考设计也是更好地服务下游用户的方式之一。
AI芯片能力亟需提高,数据仍是AI核心
目前AI技术仍处于起步阶段,监督学习仍是主要的手段。AI的主流分支——深度学习技术也将随着计算力的不断提升,创造出更加智能的落地应用。
在兆芯看来,短期内,AI的发展趋势有如下特点:
1)网络的复杂度和训练集的规模将会进一步提高,计算复杂度将达到一个新的高度;
2)带label的数据将成为AI发展阶段最有价值的资源;
3)传统的AI是在设计好的网络结构下训练未知参数,而最新的方法利用GAN类似的机制,可以将网络训练成一个更高精度的全新网络框架,而不需要设计者参与。这对于做框架算法的人也带来了巨大的挑战——他们该如何在这个重数据的AI时代突破重围,将AI带到更高的台阶;
4)CNN等网络的安全性问题,例如pixel攻击(通过干扰让目标识别错误,或者认定为指定目标),这也对现有的应用安全落地带来了极大的挑战。因为在某些应用中安全性是致命的决定因素,如自动驾驶;
5)另外新兴的网络如capsule是否有机会替代现有CNN网络,这些对于不能软件编程的AI芯片来说也许是致命的。
AI芯片设计面临速度、安全及兼容的挑战
处理器技术决定互联、智慧与传统制造业的融合度,从而带动产业链上下游企业竞相入局。AI对处理器设计提出了更高的要求。如边缘计算,AI设备需要高度集成、低功耗的专用解决方案,因此可以选择将专用AI模块集成到SoC内部,并对SoC访存系统进行优化,满足AI模块的高带宽需求,同时可以通过内置硬件编解码器,提升视频的处理性能。在云端计算层面,可以选择支持多PCIe 3.0接口,连接GPU或AI加速卡,构建AI运算平台。传统行业设计人员可以复用部分原始软件代码,将智能功能调用AI完成,从而降低软件的开发成本,并大幅缩短新产品设计周期。
而在AI芯片设计方面,具体有如下挑战:
1)网络复杂度提高,意味着需要更高的计算能力。
2)由深度学习产生的非规则的网络结构,虽然效果好,但是复杂的连接关系会令传统ASIC AI芯片更加难以优化加速。
3)安全性问题是AI最为敏感话题,也是新的网络结构的需求,或者说下一代的AI网络结构需要解决的问题。
4)新兴网络,如capsule,虽然解决了CNN网络诸多问题,也引出了与现有硬件不太适应的问题。如何提好训练效率,如何设计硬件让其在可编程性和高效之间达到一个平衡点,来满足不断演进的算法需求,是芯片设计商的设计原则。
x86+外接AI PCIe加速卡及AI计算芯片
面对AI需求的迅速崛起,兆芯正在思考如何对这些产品形态进行智能升级,通过x86+外接AI PCIe加速卡的方式构建运算平台加速应用落地。
与此同时,兆芯已经利用自己GPU技术的独特优势,设计了全新的AI计算芯片:
1)基于兆芯GPU的AI硬件加速框架很好的解决了多计算单元的并行性管理和可扩展性问题,以及软件生态的兼容性问题,支持OpenCL、CUDA等GPGPU API;
2)独有专用加速器在能效比和可编程性之间做了很好的折中;
3)新型压缩技术大幅降低了芯片的带宽需求,从而有效地提高了计算单元和加速器利用率。
总之,对于AI来讲,目前仍处于一个开始的阶段,数据仍是整个AI的核心,硬件和软件架构都在不断地相互变化中,每一次硬件变革都会带来软件变化,软件变化、工艺变化又会促进硬件的进一步改良。对于兆芯来讲,我们一方面会不断演进加速器设计,让其更好地加速主流算法,同时会保留足够通用编程灵活性,给新的算法创造好的并行计算环境,也为国内AI高端芯片自主可控发展贡献力量。
华夏芯全新架构的人工智能专用处理器内核
安防领域一直被认为是人工智能最先落地的行业,智能驾驶正在成为另一个高速发展以及炙手可热的人工智能的典型应用场景。以智能驾驶和智能安防为例,“云边结合”正逐步取代“中心分析”成为AI应用发展的趋势。针对不同人工智能应用场景的AI终端芯片有望在今后数年内成为芯片厂商的主战场。云端的计算需求主要是支持海量数据下的计算开销。因此,由超级性能的CPU、GPU、FPGA、专用加速器组成的超高计算性能的芯片组成为主要的芯片平台。在云端芯片市场,Intel 约占71%、英伟达约占16%的市场。而终端侧的计算需求更多的是要考虑有限功耗下的系统开销。因此,高性能、低功耗的CPU、GPU、DSP、专用芯片组成的高集成度的SoC芯片成为首选。在这一市场,Intel、英伟达并无优势,相反,Arm、Ceva、华夏芯这样的公司有优势。面对这一趋势,华夏芯公司立足于为其客户的芯片定制提供包括CPU、DSP和人工智能在内的系列内核和完整解决方案。
华夏芯公司新年伊始正式向业界公开了其全新架构的嵌入式人工智能专用处理器的内核方案。作为少数具备全系列处理器内核设计能力的高科技企业,华夏芯公司之前已经陆续发布了其自主设计的64位体系的CPU(Central Processing Unit)和DSP(Digital Signal Processor )内核方案,首次在嵌入式处理器领域引入了可变长矢量处理(Variable Length Vector,VLV)技术。因此,本次针对人工智能专用处理器内核方案的公开发布,进一步展露了华夏芯在人工智能领域的庞大战略,即华夏芯公司立足于为其客户的芯片定制提供完整的包括CPU、DSP和人工智能在内的系列内核,并希望在芯片整体性能、功耗、成本、编程、生态和开发周期方面占据领先的位置。
此次,华夏芯公司推出的人工智能专用处理器内核方案,预计2018年下半年第一款全部采用华夏芯CPU/DSP/人工智能处理器内核的量产芯片开始下线,进入市场。
完全卷积神经网络IP——DPU “听涛”系列 SoC
算法、数据和算力并称为新AI时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本,逐渐成为摆在所有AI从业者面前的艰巨挑战之一。
很多硬件平台都展示了自身所具备的强大算力,然而当用户在真正运行一个应用时,却发现在读取数据时会产生比较明显的卡顿现象。这表明,即便用户在掌握大量数据的前提下,依然不能将AI运算单元填满,从而导致计算硬件的计算效力低下。以谷歌第一代TPU为例,其平均硬件乘法阵列使用率只有28%,这意味着72%的硬件在大部分时间内是没有任何事情可以做的。
另外,如果将完成16位整数加法能量消耗定义为1,那么将32比特的数据从DDR内存传输到芯片中,就将花费1万倍的能量消耗。因此,过大的访问带宽增加了数据的复用性,导致AI芯片功耗高居不下。
而要提升计算效率、降低功耗,总结起来有三条路径:首先,优化计算引擎,增加计算并行度;其次,优化访存系统;第三,利用神经网络稀疏性,实现软硬件协同设计。这样的产品规划路线能走得通的一个关键因素,就在于用户在未来的ASIC芯片和之前的FPGA模组上使用的是同样的编程和软件开发环境,能实现在应用上的无缝切换。
DPU “听涛”系列 SoC
深鉴科技正式发布基于自主研发的人工智能处理器核心DPU 的“听涛”系列 SoC。该DPU属于完全卷积神经网络IP,支持传统的1X1和3X3卷积层,能够实现高效的目标识别和加速。在该架构基础之上,深鉴科技做出了第一代5X5 FPGA产品,并在摄像头市场实现了批量出货。
DPU计算核心采用全流水设计结构设计,内部集成了大量的卷积运算器、加法器、非线性Pulling/ReLu之类的运算算子,在确保每一个运算单元都能够被充分的调动起来的前提下,可同时支持不同动态精度的量化方法。像VGG16比较重的应用中,深鉴科技DPU的运算器利用率可以达到85%,对主流算法可以达到50%以上,功耗方面则低出竞争对手一个数量级。
相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力,将于年中交付的“听涛”SoC产品的预期功耗约为3 W,峰值算力4 TOPS,考虑到网络压缩部分,这个数字应该再扩大5~10倍。
参考文献:
[1]胡郁.人工智能与语音识别技术[J].电子产品世界,2016(4):23-25.
[2]王莹.“CPU+”异构计算时代,华夏芯通过HSA抢占高地[J].电子产品世界,2016(9):15-17.
[3]陈俊颖,周顺风,闵华清.基于CAPI FPGA的医学超声成像算法异构加速[J].电子产品世界,2016(10):41-44.
[4]王莹,王金旺.异构计算带来AI视觉新突破[J].电子产品世界,2017(7):28-29.
本文来源于《电子产品世界》2018年第4期第22页,欢迎您写论文时引用,并注明出处。
加入微信
获取电子行业最新资讯
搜索微信公众号:电子产品世界
或用微信扫描左侧二维码