语音识别首次全平台比拼，讯飞依图BAT各家算法差异巨大

投中网·2018-12-11

中文语音识别目前到底是什么状态，还有多大空间？

图虫创意-247404951143448827.jpg

图片来源：图虫创意

2010年，微软公司的邓力和其团队与多伦多大学的Hinton教授合作，首次将深度学习引入语音识别，率先取得突破，驱动了语音识别技术的高速成长。到今天短短8年时间，便取得了远超过去半个世纪的成就。

今天，语音识别技术已大量落地，从语音输入法等应用，到智能音箱、智能机器人等智能硬件大量涌现。特别是在中文语音市场，玩家众多，市场也已略显拥挤。而不少行业巨头都纷纷更是表示语音识别准确率已从97%进化到98%，似乎在技术层面，语音识别已经趋于完美。但是，事实是否真的如此呢？

近日，依图科技“突袭”中文语音识别，公布了在这一领域的成绩。在使用AISHELL-2数据库进行测试的结果显示，依图的准确率全面突出。这不禁让人思考，中文语音识别目前到底是什么状态，还有多大空间？

公开测试显示，中文语音识别算法良莠不齐，算法能力远未超越人类。

到目前为止，虽然整个行业都在宣传语音识别的字错率或词错率距离100%只差2~3个百分点，但是否意味着已经达到真正好用的程度，以及当前到底发展到了什么样的地步，很多人并没有一个清晰的认知。

无论是博鳌亚洲论坛AI同传词汇翻译不准确、重复等低级错误，还是平昌奥运会挪威队主厨使用谷歌翻译订鸡蛋事故，以及前不久小米AI+IoT开发者大会上小爱同学的现场翻车，语音识别正被越来越多人引为笑谈。这些事例，似乎可以看作是当前语音识别技术现状的一个缩影，同时也可以看到，语音识别这个最容易考试的技术，距完美还相差甚远。

有一个事实可以说明问题，最近几年，计算机视觉领域的人工智能新创公司不断涌现，其中不少已成长为独角兽。但是，语音识别领域的独角兽却少之又少。其中的原因有多个方面。从表层来看，语音识别的数据成本高、投入大，相关研究人员稀少。而更核心的是来自技术层面，包括语音模型对多应用场景的泛化能力不足，以及结合上下文语义的推理能力不足等等。

这些尚未突破的技术壁垒，或许可以解读为上述案例所体现出来的问题。当前理想的语音识别，几乎都是在近场、安静等受限场景下实现的，但真实的语音交流的复杂度远不止于此。受限的应用场景，会显著影响更大规模的落地应用。这导致语音识别商业变现的速度远远不及视觉领域，自然无法在短时间内发展出独角兽公司。

事实上，即便是大公司，也面临过类似的问题。IBM曾放弃了研究多年的ViaVoice语音系统，就是因为难以找到好的盈利模式。当前语音行业的巨头，也大多无法单纯依靠“卖技术”来构建自己的商业模式。

技术需要突破，但推动行业的进步，更需要统一公认的衡量标准。当前业内对于中文语音，目前并没有一个公认的测试基准，各家各执一词，甚至不公布测试基准，导致行业乱象。可以说，中文语音识别，仍有很长一段路要走。

进入语音是必然

依图或开启AI应用新方向

语音是更自然的人与人的交互方式，也是人机交互最重要的入口。如果说视觉是人获取信息的主要渠道，那么语音则是人输出信息的主要渠道。可以说，语音识别是AI理解世界最重要的组成部分。因此，对于AI公司来说，要实现真正全面的智能，进入智能语音领域，是一个必然。

因此，做视觉技术的企业，在深化业务落地时，就会发现，视觉+语音这种复合型的AI技术需求，会大于单一型AI技术需求。所以，有些视觉企业选择了与语音企业合作，依图则选择了自主研发这条道路。而此次依图首次公布语音识别领域的背后成果，或许会掀起更多视觉企业对语音识别的关注。

事实上，此次依图取得的突破，不仅仅是表面上准确率的进一步提升，其更大的价值在于在多场景的测试中均有良好的性能表现。根据依图公开的成绩数据来看，除了在AISHELL-2这一全球最大的中文开源数据库上位居第一外，在来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中，依图均处于业界突出水平，且字错率几乎全部在15%以下。这证明了依图在语音的算法模型方面，已经具备了行业突出的泛化能力。

而本次突破也说明依图在语音识别领域早有布局。依图也同样认识到，要想实现真正意义上的语音交互，语音和语义两者需要紧密结合。NLP技术的发展，可以驱动语音识别技术的发展。据依图科技首席创新官吕昊博士介绍，依图一直是语音、语义两条线并行发展，将自然语言处理技术（NLP）应用到语音识别之后，会带来更自然的应用体验。

这种技术层面的结合，还可以驱动应用场景的创新。例如，在NLP辅助下，依图的很多医疗产品可以直接接入语音技术，实现语音问诊。

尽管依图并没有透露围绕语音技术的商业规划，而是通过发布语音开放平台，吸引第三方开发者和合作伙伴。但是，依图在视觉领域已经构建了较为成熟的商业模式，倘若将语音技术作为增量补充，一方面，可以基于自身在视觉领域的成功经验，带动语音技术的多场景应用；另一方面，或许也会对行业探索视觉、语音、NLP等多AI技术的复合型应用，带来新的启发，从而驱动全新的商业模式。

在过去的几年间，人工智能行业快速发展，针对不同能力进行垂直开发并实现场景落地成为这个领域发展的主旋律，也同时开启了“AI+”的时代。而未来多种AI技术的复合型应用，有望推动人工智能进入下一个基点，开启“AI×”的时代，从而让AI在突破智能的边界过程中，爆发更大的能量。

来源：投中网