在以 5G 驱动的万物智联场景下,芯片所接触到的数据维度将由原来的单一化走向多元化,包括数据、知识、图像、视频、声音及语言等方面的理解,这对芯片尤其是物联网人工智能芯片的设计提出了新的挑战。
传统的通用方案架构由于在高实时性、高智能化场景中的算力有限,且无法平衡好成本、功耗、安全性等诸多现实需求,因此具备多维度 AI 数据集中处理能力的多模态 AI 芯片将成必由之路。
继去年 5 月在行业率先推出首款面向物联网的 AI 芯片——雨燕(Swift)及其系统解决方案之后,2019年1月2日,云知声正式公布了其多模态 AI 芯片战略与规划,面向基于端云互动提供多模态数据处理能力,在性能、功耗面积上达到平衡并兼顾连接和安全的需求。
三款在研多模态芯片2019 年启动量产
对于“模态”可以简单理解为“感官”,运用到物联网设备中,当前主要的感知模态包括语音交互、机器视觉和传感器智能,将这些融合在一起物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断,而这种判断也意味着更精准。
比如空调设置一个摄像头通过一个矩阵去观测屋里的状态,如果小朋友在的话风就避开他,往别的方向去吹,晚上如果小朋友登被子,空调会自动提升温度,这是一个非常典型的多模态场景。
成立于2012年的云知声以语音见长,为了实现多模态 AI 芯片,他们开始在多维度数据进行技术布局,其中面向机器视觉的轻量级图像信号处理器已可实现在不依赖外部内存的情况下,在 30 fps 的速率下实时对传感器的图片进行预处理,以进一步提高后续机器视觉处理模块的处理速度和效果。借助基于人脸信息分析的多模态技术,已可实现人脸/物体识别、表情分析、标签化、唇动状态跟踪等功能,可为产品交互和用户体验提供更多的可玩性和灵活性。
多模态人工智能核心 IP——DeepNet2.0融合了语音、图像等处理能力,可兼容 LSTM/CNN/RNN/TDNN 等多种推理网络,支持可重构计算与 Winograd 处理,最高可配置算力达 4T,达行业一流水平。目前云知声 DeepNet2.0 已在 FPGA 上得到验证,将在 2019 年落地的全新多模态 AI 芯片海豚(Dolphin)上落地。
多模态 AI 芯片海豚(Dolphin)是面向智慧城市场景提供对语音和图像等多模态计算支持,除此之外,云知声还有多款面向不同方向的芯片也已在研发中,包括适用性更广的超轻量级物联网语音 AI 芯片雨燕 Lite以及与吉利集团旗下生态链企业亿咖通科技共同打造的面向智慧出行场景的多模态车规级 AI 芯片雪豹(Leopard)。以上三款芯片计划于 2019 年启动量产。
从 IVM 到雨燕,云知声的造芯之路
云知声 2014 年开始切入物联网 AI 硬件芯片方案(IVM),但那时的策略是将自己的算法融入到别人家的芯片诸如高通等厂家的通用芯片,让其具备NLP等AI能力。
在深入场景提供服务的过程中,初期的语音模组方案暴露越来越多的问题。为弥补通用芯片方案在给定成本和功耗条件下的能效比问题,以及在边缘算力、多模态 AI 数据处理方面的能力短板,2015 年云知声正式启动自研 AI 芯片计划。
去年 5 月16 日,云知声正式发布了自主研发打造的首款物联网 AI 芯片。该芯片采用云知声自主 AI 指令集,拥有具备完整自主知识产权的 DeepNet1.0、uDSP(数字信号处理器),并支持DNN/LSTM/CNN等多种深度神经网络模型,性能较通用方案提升超 50 倍。
发布芯片后仅四个月,云知声便选择将基于雨燕的解决方案进行开源,这也是为了将芯片推广至更多第三方开发商与终端厂商。
目前,基于雨燕芯片的全栈解决方案已导入的各类方案商及合作伙伴已超过 10 家,包括美的、奥克斯、海信、京东、360、中国平安、硬蛋科技等,相关产品最早将于Q1 量产上市。
据云知声CEO黄伟介绍,2018年云知声营收比2017年达到了三倍增长,并且这些收入都是来自于芯片。
让AI能够理解多模态数据,容纳听觉、视觉、传感信号进行统一思考,可以让物联网设备真正“聪明”起来,虽然目前平台、案例、芯片、传感器等多个环节还都处于起步阶段,但无论如何,更聪明的机器已经在来的路上了。







