首发|以前端核心技术为主导,声加科技助力多场景智能产品走进语音时代

2018-09-19
预计2018年,全球智能语音市场规模将超过140亿美元。

4.png

随着听觉系统在各种机器上的出现,“智能”的印象已经从高大上的机器人、自然语言理解、围棋比赛等实验室产品应用到了手机、家居、汽车、VR甚至是穿戴设备等消费电子产品上。

作为物联网人工智能的入口,智能语音产品已成为全世界最有钱的科技巨头们的必争之地。苹果、阿里、百度、小米…….几乎所有巨头都涉足的智能音箱,一度卖到百元以下;智能耳机市场也在苹果推出Airpods后迅速引爆,华为、小米等都在寻求的数百元级解决方案。

这些产品虽然大大普及了公众对语音交互的认知和使用,但实际上由于真实场景使用下的复杂、不同设备体积限制对算力的要求等因素,语音产业的发展仍然受技术瓶颈的限制尚处在起步阶段,业界依然共同面临许多技术难题。

作为一家成立于不足一年的公司,声加科技早期主要是为智能语音的明星产品提供远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等服务。未来也将逐渐尝试将最先进的技术应用在新产品上。

创业邦获悉,声加科技已获得中科创星千万级和万魔声学数百万元天使轮融资;同时与万魔声学成为战略合作伙伴,二者会在智能音频设备上持续联创。

2018年全球智能语音市场规模将超过140亿美元

据中国语音产业联盟数据显示,目前全球智能运营市场规模已达到105亿美元。随着个人及家庭用户的多场景支持,各领域应用带动下的智能语音产业规模持续快速增长,预计2018年全球智能语音市场规模将超过140亿美元。

据了解,智能语音产品完成一次人机交互,需要经过四个主要技术环节:语音前端处理、语音识别、自然语言理解以及语音合成,即从声音的拾取到转换成文字,到理解其含义并作出反馈,再到将反馈说出。经过多年的技术积累,语音识别和语音合成已经获得突破,目前基本可以满足商用。而语音前端处理和自然语言理解依然是语音交互的核心瓶颈。

据声加科技创始人兼CEO邱锋海介绍,目前随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率确实得到了大幅度提升,智能音频设备也呈现出多样化和日常化。

“虽然各项技术独立发展,但从产品上无法割裂,同时需要在其它技术的配合下,才能形成完整链条具备市场化的终端产品。”邱锋海说,目前的BAT、小米、京东、华为等巨头企业,基本是从语音识别、语义理解应用后两个环节切入。这主要源于语音识别算法开源,技术相对普及,而巨头们的海量数据和强大算力支撑有足够的优势。但作为流程第一步的声学前端处理产品,因为教育环境下人才的断层和稀缺(此前工程类项目多在科研院所)而有极高的技术门槛,因此,专注这个环节的企业基本集中在有中科大、声学所、自动化所等科研背景的初创企业中。

据邱锋海和声加团队的恩师,我国空气声学领域著名科学家、中国科学院声学研究所研究员/博士生导师李晓东介绍,声学前端技术在语音交互获得突破之前,一直是冷门学科,而且声学前端技术属于应用类学科,需要大量的课题、项目来积累,培养一个声学方面的专业人才,往往需要四五年甚至更长时间。因此,长期以来,从事声学前端处理技术的高端人才都集中在国家相关科研院所内。即使对于不差钱的巨头们,组建一个有实力的声学前端处理技术的团队也并非易事。

从语音前端处理算法到整体解决方案的产品三步走

李晓东表示,尽管目前市场增势良好,但现有声学技术仍然处于商业初级应用阶段,距离用户满意还有相当大的距离。比如以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,用户一定要对着手机讲话才能获得符合近场语音识别要求的声音信号,环境稍微嘈杂一点语音识别引擎就失灵了。而以智能音箱为代表的远场语音识别场景下,依然存在误唤醒,方言、童音识别不准以及声源移动中的识别率低下等问题。

这些限制都需要声学前端处理技术不断改善,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,提升语音信号处理质量,进而提高各种环境下的语音识别率。这也是声加团队要致力突破的方向。

邱锋海从技术角度对行业分析,他认为,“一直以来,人机交互充满了想象,未来甚至可能和机器视觉、脑科学等融合,实现电影里的酷炫画面。目前只有先解决语音识别的这些技术瓶颈,才能进一步有所作为。”

目前,声加科技的产品规划分三个阶段:

第一步,为智能语音交互设备和通信设备提供语音前端处理算法。

第二步,在之前工作的基础上,推出语音处理专用芯片。

第三步,则是在语音处理专用芯片的基础上,开发出各类麦克风阵列模组,给客户提供语音前端处理的整体解决方案。

当前第一阶段的算法产品已经通过了一些国内大厂的验证,即将量产;芯片和模组产品也在快速推进当中。同期与国内巨头合作的二代产品也将在下半年陆续上市,将成为其疯狂增长的生态链中的重要一环。

关于声加的团队,邱锋海本人本科就读于清华大学,硕士期间在中科院声学所深造,毕业后长期在声学芯片企业工作,曾带领20余人的研发团队完成了世界级知名企业的音频处理芯片算法部分的开发,对声学算法的工程实现、算法和芯片的结合等方面具有丰富的经验;CTO王之禹,中科院声学所博士后,长期从事语音信号处理和识别研究工作,实现多个科研项目的产业化;算法技术总监郑成诗,声学所研究员,德国埃尔朗根-纽伦堡大学客座教授,长期从事语音和音频信号处理研究工作,曾作为项目负责人带领团队完成多个科研项目,并创新性地提出许多解决方案。

其核心团队成员大多师出声学所同门,在公司成立以前,团队已有为国内多个巨头企业的智能音箱、智能耳机等明星产品提供远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等实战项目经验。