用软件解决硬件问题,「CoCoPIE」实现实时本地AI

2021-09-22
一座连接算法和芯片的桥梁 。

“上清华的时候,我第一个月就想转到基础科学班。其实我更倾向于偏科学或者实验的方向,比如生物、化学,还很喜欢学历史,我当时还养过许多奇奇怪怪的动物......”回忆接触计算机的起点时,王言治说道。

跟很多大佬与计算机之间的缘分和热爱的故事不同,CoCoPIE的创始人兼CEO王言治觉得电子和计算机在那时对自己而言并不是一项特长或者爱好,更是因为家人的要求。

他填高考志愿的那一年,整个世界都处在互联网泡沫破裂的阴影中,学电子与计算机似乎并不是一条很好的出路。但似乎是缘分的驱使,他和电子与计算机始终相伴,一路从本科到大学教授。2020年,当自己在学校的研究项目形成技术壁垒后,王言治于美国波士顿成立了CoCoPIE,正式将这项技术转为商用。

CoCoPIE是一家人工智能初创公司。公司以在“loT 以及移动端普及实时人工智能”为使命,搭建了 CoCo-Gen 以及 CoCo-Tune 等产品,这些产品能够在不额外增加人工智能专用硬件的情况下,让现有处理器实时地处理人工智能应用

通俗点讲,如果把人工智能技术看作一款游戏,这款游戏的运算量很大,只有在配置非常高的电脑上才能运行。现在,大家都想玩这款游戏,很多公司就计划做出更高配置的机器,以此来运行该游戏。但CoCoPIE可以用一项技术,该技术通过底层的优化,使得这款游戏对硬件的要求没那么高了,在普通电脑上,甚至是手机上也能运行。

所以CoCoPIE的技术相当于一座桥梁,让这里的游戏和普通电脑、手机更加适配。

近年来,图像识别、自动驾驶、语音识别等各式各样与机器学习相关的研究成果和应用层出不穷,机器学习能够处理的任务愈加复杂,机器学习模型变得越来越庞大,“实时性”对算力产生的需求也远远超乎了人们的想象。

这一系列问题严重阻碍了人工智能产品及应用在日常生活中的普及。

针对该问题,目前主流的看法是,制约人工智能在终端设备上实时使用的最重要因素是硬件。因此,大量科技公司选择将研发重点放在了人工智能专用硬件上,以期通过提高计算速率实现实时的人工智能。

谷歌、微软、亚马逊、华为和苹果等科技巨头以及众多初创公司每年都会花费数以亿计的经费来研发机器学习专用硬件加速器,以期能够早日让人工智能真正走进人们的生活。

而CoCoPIE对此提出了不同的观点。

他们认为,在深度学习模型的本地化运算过程中,终端设备中CPU、GPU、DSP等主流硬件,尚有很大潜力未被开发出来。

CoCoPIE的软件算法架构可以开发出这些“被忽略”的潜力,通过设计构建压缩-编译过程的协同模型,让算法和芯片更加契合,使以往无法运行在一些终端设备上的神经网络,得以在这些终端设备(如智能手机)上运行,实现移动智能的高效实时化。

在这项技术的应用层面上,CoCoPIE将其目标市场定在了智能汽车手机、IoT等所有移动设备方向上。

在智能汽车方向上,当下,全球的智能汽车行业正面临着“芯片荒”带来的减产危机。

CoCoPIE观察到,汽车厂商与物联网设备厂商缺少的主要是负责设备“智能”部分的、能够进行复杂运算甚至AI运算的芯片。这类芯片往往在十几到四十几纳米制程范围内。

一来,行业“缺芯”的首要原因在于竞价权低,智能汽车厂商很难和上亿台订单量的中端手机、笔记本电脑等主流设备竞争代工厂的产能。与此同时,供给端还在纷纷提价,最高涨幅达20%。

二来,AI专用硬件的芯片研发时间长,一般需要5-10年,且芯片只能用于新设备,无法使数十亿现有设备运行人工智能应用。芯片生产厂商们又各自独立,应用研发团队很难让产品适配所有的AI专用硬件。

市面上的芯片分为两类,一是通用芯片,包括CPU、 GPU、 DSP等,装载于手机、电脑等常用设备;二是专用芯片,包括FPGA、ASIC等,为做特定的运算而设计,比如人工智能专用芯片NPU、DPU等。

当下车企行业的“缺芯”,主要指的就是缺少这类专用芯片

在芯片短缺的现状下,汽车行业的减产危机在未来一两年只会愈演愈烈。8月19日,日本汽车制造商丰田汽车表示,计划在9月将其全球产量削减40%;福特汽车公司也因芯片相关零件的短缺,宣布暂时关闭生产F-150车型的堪萨斯城工厂。

CoCoPIE认为,现阶段,车企们与其竞价和等待专用芯片的供给,不如先缓解燃眉之急——利用好这些既有的通用芯片

在CoCoPIE看来,现有的通用芯片拥有很强的计算能力,却并没有针对AI任务进行很好的优化,因此造成了某种程度上的浪费,应当用技术把它们充分利用起来,激发它们的潜能。

而这项技术就是压缩—编译协同优化。

压缩和编译,二者是在硬件上拟合深度学习模型以实现高效执行的两个关键步骤。

“压缩”是减少深度学习模型大小和提高速度的常用技术;“编译”主要指基于给定的深度学习模型生成可执行代码的过程。针对这两个模块,公司设计了CoCoPIE技术框架的两个组件:CoCo-GenCoCo-Tune

CoCo-Gen将基于模式的DNN剪枝与基于模式的感知生成代码相协同,生成高效的 DNN 执行代码;CoCo-Tune则能够显著缩短确定要修剪的适当DNN参数集的过程。

在将CoCo-Gen和CoCo-Tune从组件、视角、方法论三个层面进行协同优化后,同一终端芯片上最高可以达到180倍的提速

如此一来,利用CoCoPIE的技术,能够让AI模型在此前不能搭载的通用芯片上运行,让通用芯片也可以达到专用芯片的效果。且通用芯片的数量多,价格更低,一定程度上,也为车企节省了成本。

目前,CoCoPIE已经成功地在几百美金级别的芯片上,实现了在一万美金级别的无人驾驶专用芯片上才能实现的功能与性能。

CoCoPIE的多任务的scheduling技术也在业内处于领先水平。王言治告诉创业邦,“CoCoPIE有独有的技术,即在芯片上做一个模型优化与调度的动态协同设计。在此之前,一个芯片一次只跑一个任务,但加入我们这项技术后,可以在以相差无几的速度下,达到一个芯片一次跑五到六个任务,更加充分地利用了芯片的价值。用一个通用的平台加上我们的框架后,可以达到甚至超过一些专用芯片,或者让一个芯片发挥两个芯片的作用。这不仅对‘芯片荒’有所缓解,对芯片的能耗优化也不可小视。”

在智能汽车领域之外,CoCoPIE亦能发挥不小的作用。

现阶段,各家人工智能企业都想实现AI everywhere的场景,终端设备的智能化成了一个亟待突破的技术瓶颈。

然而要想人工智能真正地融入到人们的日常生活中,昂贵、复杂的硬件显然不是最好的办法,一个几乎完美的现有渠道就是手机

现在AI在主流终端硬件上的实现方式就是云端计算,即从用户端将数据传到云端服务器来做运算,处理完后云端将结果再发回至设备。比如家里的智能锁、手机的AI换脸特效,都需要经历这样的流程:将面部的数据、指纹的数据上传到云端进行运算处理,处理后再发回至设备上。

这样就有三个弊端,一是不管距离服务器有多近、处理数据的速度有多快,都会有延时;二是应用程序的运营方需要购买服务器、运营服务器,需要负担宽带成本,这其实对运营方来说是一笔巨大的开支;三是在网络环境不好的区域,无法使用AI技术。

那如何解决这些问题呢?CoCoPIE给出的答案是将AI的相关运算在边缘设备上完成

基于CoCo-Gen和CoCo-Tune,CoCoPIE实现了很多AI应用的移动实时化。如在手机上实现基于BERT的问答、文本生成等经典NLP任务。在CV方面,动态物体检测、声纹识别、行为识别、高帧率分辨率图像视频压缩还原、风格迁移上色等应用也能在手机端实时运行。

以上技术为自动驾驶、公安监控、流媒体、人机对话等的广泛应用提供了技术基础。

这项技术将帮助应用运营方减少运营成本及带宽成本。同时通过克服网络问题、减少延时,为用户提供更优质的数字媒体体验。

目前,CoCoPIE的客户包括腾讯、Cognizant等。在与腾讯合作的过程中,CoCoPIE将其在终端的压缩-编译技术应用在腾讯的服务器端,帮助腾讯企业增强人工智能的端侧部署能力。Cognizant则是一家全球顶级的软件外包服务商,CoCoPIE用技术帮助其大量的客户实现人工智能的本地化运行。

在谈到目前最大的挑战时,王言治坦言,“目前最大的问题就是缺人,所有问题中,No. 1 就是如何快速招到合适的人。”未来,CoCoPIE除了要扩充在美国的团队人数外,还计划在中国成立一个20多人的团队,目标是在明年拥有一个总人数50人的队伍

今年8月,CoCoPIE完成了数千万的A轮融资,投资方包括红杉种子基金、初心资本等机构。王言治表示,这轮融资将主要用在解决团队缺人的问题上。据了解,CoCoPIE的下一轮融资也正在进行中。

现阶段,CoCoPIE的技术处在一片蓝海中。市面上将压缩编译协同在一起工作的企业并不多。以CoCoPIE为代表的、致力于在IoT和移动端推进实时人工智能的企业,将成为未来AI软件生态系统的重要组成部分。据CoCoPIE测算,这项技术正在包括loT、数字媒体、半导体在内的万亿美金市场中发挥着重要作用。


本文为创业邦原创,未经授权不得转载,否则创业邦将保留向其追究法律责任的权利。如需转载或有任何疑问,请联系editor@cyzone.cn。