微信
投稿

清华大学电子工程系教授苏光大:人工智能新硬件时代的瞻望

2019-12-10 22:47 来源:慧聪网作者:慧聪物联网

随着物联网产业上升到国家战略的高度,其技术逐渐深入到千行百业,呈现出跨界融合、集成创新和规模化发展的产业特点。物联网与AI、5G组成超强组合拳,重新定义赋能各大产业,呈现出井喷发展的蓬勃生机。

清华大学电子工程系教授苏光大:人工智能新硬件时代的瞻望

如何撬动万亿级规模的物联网市场,是各大企业在稳步前进甚至弯道超车中思考的问题。正值产业变革转型之际,11月27日,由慧聪物联网、慧聪安防网、慧聪电子网、慧聪智能家居网联合主办的“2019中国物联网产业大会暨品牌盛会”在杭州盛大举办,为中国物联网产业发展聚集各类优势资源,助推产业融合发展。

四大资深网站强强联合打造跨界融合第一盛会,链接物联网全产业上下游,汇聚物联网产业重磅嘉宾,呈现年度盛典。会上,清华大学电子工程系教授苏光大发表了以《人工智能新硬件时代的瞻望》为主题的精彩演讲。以下为慧聪物联网在不改变原意下精编的演讲实录:

清华大学电子工程系教授苏光大:人工智能新硬件时代的瞻望


清华大学电子工程系教授苏光大

女士们、先生们,大家上午好!今天我讲一个题目叫人工智能新硬件时代的瞻望,这个题目是我的认识,请大家多多指正。

CPU+GPU是当前的主流计算模式。我们中国的天河一号用了7168个GPU,成了世界上超算第一。中国神威·太湖之光也是全球三连冠,这样一个主流模式,也成为一个深度学习的主流计算模式、成为大数据处理的主流计算模式。大家都知道,这些影响非常深远,深度学习为什么会出现?跟GPU算力很有关系,那就说明了算力的重要性。我们下面看算力有什么样的挑战。

我们讲视频图像为大数据之首,高清、超高清等等,数据量非常大,面临的问题是什么?我们说算力难以适应,机房面积庞大,功耗庞大,运营成本高居不下。我们看到一个无锡的数据中心,一年电费就6000万,这个成本还是非常大的。

另外一点,深度学习,算力是它的痛点,因为大量的运算,我们靠神经网络去算,一层一层卷积,高达数百层神经网络计算,需要的算力非常之大。还需要反复进行深度训练,以获得好的性能。而且数据增加、场景变化需要重新训练,这个过程非常长。

我们来看GPU,我们只讲一款,算力很强,这是很好的优点,但功耗250瓦。

GPU的长处,数千个CUDA核,存储体字长384位,而且是存取速度非常快,它的弱点就是功耗大、价格高。

我们举个例子,商汤的一个成功的案例。云南省公安厅人脸识别大数据应用平台,之所以成功,在一个省里边部署一个大的平台,做了1.4亿人口特征库,300万专题重点人员库,做到一站式人脸轨迹服务,对3000位警员开放,也就是说并发性,最多并发数是3000。3000路抓拍摄像机,实现了40台GPU服务器组成的解析中心。

这是一个成功的案例,是很多商家追求的一个省的部署目标。

成功应用的思考在哪里?40台GPU服务器,能不能被替代?功耗、面积如何?第二点是如果能替代,替代方式是什么,什么时间能够替代?大家可以去想一下。

关于计算之路的发展选择。深度学习的训练,现在的状况是以天来计算,比如我需要一个礼拜来训练,能不能把每天变成小时,能不能把小时变成秒,如果深度学习的训练在大数据下实现秒量级训练,则可以实时来进行训练。但是我们很难做到,如果做到秒量级训练,需要提高86400倍,我们目前能做到的方向是什么?就是把几天变成几小时,或者几分钟,加速24倍,或者上百倍,这种可能性比较大。这种加速,是对GPU的加速。所以我们说计算之路在哪里?是在提高计算机计算规模,还是去寻找新的计算模式。这个问题是迫不容缓的。

我认为当前计算模式存在两大问题,第一个问题是冯·诺依曼内存墙,也就是冯·诺依曼瓶颈,就是存储器与存储体之间的数据通道存在瓶颈,当处理器访问存储体时,由于存储体的数据存取效率低下,制约了处理器的处理速度。把数据从存储体搬到处理单位,甚至比运算本身还耗时。运算单位增多,存储器件供应不上数据。另一方面,处理器处理的多个数据难以高效存入存储体,形成数据堵塞,导致处理器的处理速度变缓。这是冯·诺依曼内存墙的定义,我要特别强调一点,是存和取两方面。

我们看CPU架构,看GPU架构,它跟DRAM的联系存在这样一个内存墙的问题。这个问题同样存在于AI芯片,这是我们当前面临的大的问题。谁能推倒内存墙,我把它看作是一个金苹果式的成果,摘下这个金苹果,这是摆在我们面前的任务。

第二个是摩尔定律放缓,我们看到这样一个摩尔定律发展的曲线,1965年4月19日,《电子学》杂志发表了英特尔公司创始人之一摩尔写的论文《让集成电路填满更多的组件》,文章预言,半导体芯片成的晶体管电阻数量每隔18-24个月将增加一倍,这就是摩尔定律。现在发展摩尔定律放缓了,大家看到近期的这样一个比较平坦的发展曲线,现在到5纳米,还能上4纳米、3纳米吗?非常艰难。既有工艺问题,又有冯·诺依曼内存墙的问题,我们下面应该做什么?

我们来看AI芯片的发展,AI芯片是指非CPU、GPU的执行AI算法的芯片,首先我们看一个中星微的AI芯片叫做NPU,2016年出来的。这个结果比同时期的GPU慢78倍,对于GPU,我们还是有一点差距。

寒武纪大家很熟了,寒武纪也是这次参评单位,也来参评了,我不知道有没有奖项给他们,但是我是给了他们一个高分。寒武纪在中国的AI芯片里边,做出了很大的贡献,包括对于华为的一些帮助。它做了这样一个结果,5万亿次的算力,采用了存储芯片堆叠技术,四个存储芯片堆叠,它的存储体片内存储容量为36MB,还是相对比较小的。

讲到华为就更多了。华为AI芯片的发展突飞猛进。麒麟970、980,现在是昇腾910。昇腾910的算力非常之高,512万亿次,256万亿次,当然有8bit的,有16bit的。在今年深圳安防展上,我们看到了海思芯片的很多新进展。

我们再来看谷歌,谷歌的TPU叫张量处理单元,有这样这一段话:谷歌目前在全球四大洲建有15个仓储般大小的数据中心。几年前谷歌开始为安卓操作系统添加语音,发现算力不够了,如果世界上每一台安卓手机每天使用3分钟的语音搜索功能,那么它的数据中心将要翻番。为了适应在智能时代的发展,谷歌不得不做出改变,不得不停止在服务器规模上的无限扩张,于是提出了TPU。应用了TPU的AlphaGo,战胜了著名棋手李世石,展现出了AI芯片非凡的能力。请大家注意,“停止在服务器规模上的无限扩张”,这个问题值得我们深思。

下面我来讲AI芯片发展的若干问题。一个是计算精度。精度有双精、单精、半精或者8bit。不少厂家是8bit的,要注意识别率等问题。

算力问题,因为冯·诺依曼墙存在,所以算力问题一定要考虑搭载AI芯片的人工智能硬件的系统算力。另外一个是AI芯片的生态环境,编程环境,用什么样的语言编程,这一点我觉得GPU的CUDA和赛灵思的FPGA编程工具值得我们学习。

软件定义AI芯片,这是一个值得发展的方向,人脸识别应用的人证核验设备将出标准。在错误接受率分别为千分之一、万分之一时,对错误拒绝率要求是多少,标准将给出具体的指标。上海某些项目的招标就要求满足这样的标准,大家要给以足够重视。

人工智能硬件的架构创新,这里面要注意一个新词,即存算一体。赛灵思公司推出自适应计算加速平台,内置了很多AI核。这个平台是历时4年,动用了1500名工程师,投资超过10亿美金打造出来的。这里面有一些新的架构。

最近赛灵思公司做了一件事情,把16GB存储体放在了FPGA里边,芯片内存储体容量很大,优化数据搬运路线,力图解决内存墙问题。

大家也可以看到清华大学发表在《自然》杂志的文章,这样一个类脑计算的“天机芯”,虽然用的是28纳米的芯片工艺技术,但采用了存算一体等新技术,达到了世界层面水平。为什么?架构创新。

清华提出来算存算一体的二维内存计算,这是一个新的架构。和CPU的区别在哪里?CPU访问内存,一次读一个数据,而这种方式读多个数据,成十上百,在一定程度上缓解了内存墙问题,而且数据是结构化的,如2×2,3×3,5×5,这样的二维数据结构。

我们来看它的基本架构框图,主要由两个邻域存储体和二维内存计算处理器组成,由此形成乒乓式的二维内存流水处理。第二个框图是AI硬件集群框图。我们曾在广州做过千万级人脸识别系统,用了10台计算机集群,现在能不能用10个或更少的小的电路板来代替10个集群计算机,我们希望成为一个方向,AI硬件集群。请大家关注这样一个方向。

下面我来介绍NIPC-3,这是我们2008年鉴定的一个成果。NIPC-3建立了先进的并行体系结构,达到国际最好水平。在一个周期时钟内可以形成和处理25×24邻域的600点数据。以两种邻域图像处理算法为例,与后来的某型号的GPU比较,算力分别快10倍、8倍。

现在我们在做NIPC-4板卡,这样一个嵌入式的AI硬件系统,它可以在一个周期里同时处理128个3×3卷积。我们给出这样一个实例。对512×512的图像,做3x3的Sobel和3x3的中值滤波流水处理,总耗时0.096毫秒,相当于每个算法处理耗时0.048毫秒,如果我们用三级流水、四级流水并行处理,平均每级处理的时间还会更快,而我们所用的计算芯片还是属于低档的。

现在,我们想把它应用在人脸识别上,希望有一个好的表现。

结束语:人工智能软件与人工智能硬件的协同发展,是人工智能发展的一个方向。人工智能硬件发展的关键问题,一是解决冯·诺依曼内存墙问题,二是提高芯片工艺水平,三是解决编程生态问题。基于人工智能硬件的人脸识别,将是人脸识别发展的一个重要方向,我们期待人脸识别应用的第三次高潮。第一次高潮是在2012年左右,由清华大学、中科院计算所、中科院自动化所以及一些公司共同推动,其特点是户籍查重。第二次高潮是在2016年左右,其特点是视频人脸识别,商汤、旷视、依图、云从等几个独角兽公司表现突出。第三次高潮已经开始显现,比如说华为、海康等公司的AI硬件的人脸识别,做得不错。我们期待人脸识别应用第三次高潮的到来。

因为时间关系,我就讲到这里,谢谢大家!

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

精彩评论

暂无评论...
验证码 换一张
取 消

热门作者

东方

简介: 天马行空的文字之旅。

邮箱: liutingting03@hczyw.com

简介: 保持期待,奔赴山海。

邮箱: zhuangjiaxin@hczyw.com

松月

简介: 脚踏实地,仰望星空。

邮箱: wuxiaqing@hczyw.com