Readface用表情单元和大数据理解喜怒哀乐,它还想像人一样对你做出回应

2015-10-23
大数据驱动人脸情感识别完成实质突破,理解人类才是人工智能的最终目的。

每每看到日本机器人展上越来越仿真的机器人,我们对于机械女仆(误)的幻想就会被重新调动起来。可是你有没有想过,一个真正可以和你互动的机器人,除了具备灵活协调的四肢,流利精准的语言系统之外,还欠缺什么?——没错,是情感识别。如何正确识别对方的情感并作出合理的回应,这项在人类交流中习以为常的事情,对人工智能来说却是非常困难的。

不过近年来大数据领域的快速发展让人工智能的情感识别领域看到了希望。阅面科技创始人兼CEO赵京雷是交通大学机器学习和语言理解专业的博士生。他一直致力于数据挖掘、搜索、推荐的基础研究。在交大学习以及阿里巴巴的相关工作经验,让他看到近几年来大数据领域的突破,尤其是语音和计算机视觉,使得人工智能的深度学习非常火热。不仅仅将人脸识别用于常见的安保系统,而是用来理解情感,在他看来是非常有趣的事情。为此他做出了基于计算机人脸情感识别的ReadFace。

就着情感识别这一非常具有科技感的话题,创业邦记者和赵京雷进行了有趣的交流。

情感识别的理论基础

赵京雷首先向创业邦解释了情感识别和人脸识别的区别。虽然看起来都是用计算机来识别面部,但是人脸识别只是检测人脸的不同区域,借此分辨出不同人脸部之间的区别。而情感识别最重要是计算机对于面部表情的理解。

当前主流的情感识别方式分为三种:

  • 人脸的情感识别的逻辑程序
  • 语言声调的情感识别的逻辑程序
  • 语言文字的情感识别的逻辑程序

赵京雷认为,视觉是我们接触一个陌生人的第一印象,结合自己的专业背景,他最终选择了基于人脸的情感识别。其中首先要做的就是理解表情。

或许很多人和记者的疑问是相同的:计算机如何识别一个人的表情来判断他的喜怒哀乐呢?

面部动作编码系统(FACS)

这里需要先给大家简单介绍一下用于量化表情的基础理论。这套理论是70年代由美国心理学家Paul Eckman提出的(没错就是你们喜欢看的Lie to Me的灵感来源)。Eckman提出的理论之一就是面部动作编码系统(FACS)。他根据人脸解剖学特点,将人脸划分成若干相互独立又相互联系的运动单元(AU),比如第12号AU包括两块颧肌,第6号AU则是眼外侧的轮匝肌。分析这些运动单元的运动特征及其所控制的主要区域,就能得出面部表情的标准运动。

换言之,如果简单概括一下,Glasgow大学的Jack等人(2014)提出的人类四种基本情绪:喜、怒、哀、惧就是基于这些运动单元建立的,情绪则通过单元之间的权重叠加进行计算。

Readface的输出与应用

Readface是由云和端共同组成,目前是一款ToB的服务。端是SDK,可以嵌入任何具有摄像头的设备来感知并识别表情。云则是利用数学模型和大数据来理解情感。目前产品可以输出三个维度:

  1. 人类基本的表情运动单元。如上文所提到的,这些是构成识别的基础。事先积累大量人脸数据,以照片和视频为主,由此识别到多种表情运动单元。
  2. 输出情感颗粒。四种基本情绪是基于表情单元建立的,并且通过单元的权重叠加计算出情感颗粒。
  3. 人的认知状态。可以通过底层单元来建立魔性,比如聚精会神时会紧缩双眉。还有头部的基本姿态和动作,比如眨眼睛,伸舌头,用以辅助理解情绪。

基于上述输出单位,赵京雷向创业邦介绍了Readface服务主要的应用场景。

首先是家庭智能机器人。软银和阿里巴巴在6月份投资了日本首款具有情感的机器人Pepper,证明在家庭陪伴领域,机器人情感是必不可少的应用。

其次是儿童玩具。一款具备情感识别的小玩具可以和小孩子进行互动,而不是只是让孩子在屏幕上用手指划。对于3-9岁的孩子来说,基本互动是必须的。

再者,目前最成熟的是视频分析应用。国外有麻省理工实验室学生创办的Affectiva。这家公司开发的Affdex软件可以识别受众的表情来评估广告效果,凭借良好的反馈已经累计融资2100万美元。目前国内有4-5家市场调研公司正在使用Readface的服务,比如把SDK放在眼动仪中采集表情。情感识别现在来说更容易嵌入这种行业中。

最后,还有社交和互动游戏等领域。使用合适的情感识别功能,可以让这类软件变得更加有趣,以及创造出新型的交互方式。

现在Readface的SDK服务还是免费的,未来将会根据功能划分推出不同版本实现增值收费。

情感识别应用领域的现状

阅面科技的CEO赵京雷曾在阿里负责过图像搜索和识别的产品,CTO Leon在卡内基梅隆机器人研究所做副研究员,长期致力于表情识别研究。另外一位架构师来自于百度。国内的情感识别领域虽然发展很缓慢,但国外各类API及相关创业公司不下40余种,可谓竞争惨烈,下面,创业邦就为你简单罗列一些其中的佼佼者。

比如YouEye,它是一个情感识别的云测试。工程师团队整合了包含五万个微表情的数据库,让这个软件能识别用户浏览网页时的各种表情,如高兴、意外、迷惑、悲伤或感到恶心等。

FaceReader则是世界上第一个能够自动分析面部表情的工具,使用户能够客观的评估一个人的情绪。

一个名为InSight的SDK服务通过测量面部肌肉的运动,对人脸进行完全自动化分析,并将这些面部肌肉运动转化为七个普遍的面部表情。

当然这其中最有名的,还属上文提到的Affectiva研发的Affdex软件,毕竟它提供的广告效果分析是现今最为成熟的一种情感识别应用场景。

人脸情感识别所面临的困境

和其它人工智能的研究一样,Readface在现阶段也遇上了人脸情感识别的几个困境。

第一、情感反馈。一个完整的情感识别需要包含三个阶段:认识——理解——反馈。1.0版本的Readface在识别表情并理解情感之后还无法作出反馈。显然这并不能称之为真正的情感识别。虽然这套服务能用于广告效果分析,可涉及到陪伴机器人的研发,势必需要机器人作出合理的反应。这需要搭建机器人的语言系统,以及动作(Action)的推荐机制。

第二、环境适应性问题。人脸识别有很多客观环境造成的无法规避的误差,比如头部偏转就会让表情单元采集出现偏差。虽然更充实的大数据可以修正误差,可这还需要时间的积累。

第三、微表情和伪装的难点。当记者问起有什么表情是目前还无法采集到的,赵京雷坦言细微的表情是计算机难以发现的。或许计算机再聪明也不可能追赶上你善解人意的好闺蜜。此外那些经历过风雨,喜怒不行于色的人,识别系统也对他们无可奈何。

智能硬件不该只是靠脸吃饭

赵京雷和创业邦谈到了智能硬件和人工智能领域的现状。他认为就全世界的人工智能研究来看,工业界正推动着学术界向前走,这和产品热、硬件热是分不开的。商业公司出于盈利目的更愿意去开发这些处于业界焦点的智能硬件产品。

可他也认为,目前世面上大多所谓的硬件产品都谈不上有多智能,更多是用酷炫的外观设计来吸引人。如果没有真正的技术突破作为支撑,智能硬件始终就只能像现在这样处于迷茫的状态。大公司的智能产业缺乏基础研究,只是套了一层外壳。在这点上垂直领域的初创团队更有可能集中精力取得突破。

刚刚拿完天使轮的阅面科技,希望有更多的资本可以进入这个领域。投资方都知道硬件很火、人工智能很火,可是就像是微信崛起前的移动社交,谁都不知道怎么做才是正确的。而关于这个做法,技术出身的赵京雷最终还是选择相信技术。
来源:创业邦|http://www.cyzone.cn