人工智能里的“血汗工厂”

步日欣·2019-04-15

训练别人，革自己的命。

图虫创意-261948260163518559.jpg

编者按：本文来源投中网，作者步日欣，创业邦经授权转载。

在人工智能（AI）高大上的科技光环背后，存在一个被大部分人忽略的环节，这是一个劳动密集型的链条，这个链条上的工人，拼命在用自己重复性、机械性劳动，来训练一个强大的人工智能系统，进而革掉自己工作的命……

训练别人，革自己的命。这不仅是一个科技问题，更像是一个哲学问题。

人工智能的核心是机器学习，是教会机器如何像人类一样认知世界，如何像人类一样思考。这只是一句话的简单概括，在实际中，远比这一句话要复杂的多。教会机器认知世界，在AI领域，被称为“训练”，而训练需要的是海量的数据。

我们常说AI训练用的海量数据，仍然需要人工采集和整理，属于劳动密集型产业。那些每天坐在电脑旁边，不断整理采集来的数据，准备培养机器认知世界所需要的素材的人，被称为“数据标注员”，跟富士康流水线上的工人并没有什么本质的不同。

1、教会机器像人一样思考不容易

教会机器像像人一样思考，并不是一件容易的事情。养育一个有血有肉、智力健全的娃娃，尚且能逼疯一个老母亲，更何况教会以沙子为原材料的机器去思考？

笔者上一篇文章里曾形象描述了人工智能的原理，类比一下三岁小孩认知世界的过程。三岁小孩是怎么知道如何分辨猫和狗的？是因为来自大人的不断灌输，这是一只猫，这是一只花猫，那是一条狗，那是一条哈士奇狗……训练出孩子的认知，猫的基本特征，狗的基本特征，再看到一只动物，符合猫的特征的，就是猫，符合狗的特征的，就是狗。这样一个“养娃”的过程，对应到人工智能的三大核心要素，在大人的不断灌输(算力)下，给孩子介绍猫和狗(数据)，孩子在脑子里形成了判别猫和狗的基本认知(算法)。

因此，为了让机器跟三岁孩子一样去认知，就需要准备足够的海量数据来灌输给机器，来教会机器认知。而这些用来训练机器认知模型的数据，必须是基于人类认知加工过的“熟数据”，而且必须是正确的“熟数据”。

否则，就如同一开始教育孩子的方法和基础认知都错了，ABCD都教错了，就别指望孩子英语能学好。

而且，机器面对的世界不仅仅是猫和狗，而是整个物理世界，包括图像、视频、声音、各种感知和情感等等，这么一个复杂的世界，需要更加复杂且海量的数据来支撑机器认知世界。

所以目前的人工智能，都是细分领域的人工智能，专门针对图像的、专门针对文字的、专门针对语音的……离着构建一个完整的人，还相差甚远。

而产生这些训练机器认知的数据，不但要符合人类认知体系，还要有规则有标签，更要数量庞大，是一个劳动密集型行业，因此，说成高科技行业的富士康不为过。

2、机器学习的原理

机器学习分为监督学习和无监督学习。

所谓监督学习，就是通过已有的训练数据去训练得到一个最优模型。在监督学习中，训练数据必须是有输入和输出的数据，也就是有一定规则的数据。根据对训练数据的分析，机器可以训练出一个模型，这个模型内嵌认知世界的规则。

所谓无监督学习，是让机器自主分析杂乱的数据，从而得到这些数据中的一些规则/规律，类似于科研探索，在没有发现科研成果之前，对于研究的对象和结果是未知的。最典型的无监督学习是聚类，也就是分类，让机器自己将对象进行分类聚合。

目前流行的AI，主要还是依赖监督学习，所以才有了海量数据处理的“富士康工厂”。

举个例子，如果想要一台计算机能够准确识别猫，那就必须给计算机输入大量的不同的猫的照片，每幅照片都需要做上大量标注，图片里的哪个区域是猫、什么品种、什么颜色、尾巴、耳朵……只有有了这些标注，训练数据才能成为“熟数据”，才能够让计算机在这些数据的基础上，形成自己认知猫的模型。

人工智能可不仅仅是认知猫狗这么简单，而是认知整个世界……

3、机器需要学习什么

要正确认知这个世界，机器需要学习的东西太多了。

认识这个世界已经不容易了，更何况还要理解这个世界。他的表情是友善还是敌意？他说的话是玩笑还是认真？他写的歪歪扭扭的手写字到底啥意思……

每个细分领域，机器都在深度学习。目前比较流行的AI领域有图像、视频、音频、文本……应用领域主要集中在安防、无人驾驶、电商零售、智能机器人等多个垂直领域。所有这些领域，都需要海量的训练数据，需要海量的数据标注。

比如上周BUPT AI Club会议上，大家热议的首都机场刚安装的表情识别系统，根据每个人表情的不同，对于紧张表情的乘客加强安检措施。这就需要系统不但能实现人脸识别，还能识别人的表情。

比如用在自动驾驶上的场景识别，需要准确识别路况、路标等信息，并能够准确分辨模糊路标，防止伪装路标的欺骗等等。

比如AI扫描仪，如何识别不同人、不同笔迹的手写字体，特别是医生开的处方……

4、如何教会机器学习

有了大量的数据，并不是把这些杂乱的数据一股脑儿全部交给机器，他们就能自动长大成人。这些数据也需要标记和注释，被标记、标注、着色或突出显示，以标记出差异、相似性或类型。

数据标注种类繁多，如分类、拉框、区域、描点等等

分类标注，俗称打标签，将数据的所有属性都打上标签，比如人的照片，可以有性别、年龄、肤色、头发等等各种属性标签；文字可以有主语、谓语、宾语，名词动词、语气、感情等各种属性标签。

拉框标注，主要应用于图像和视频领域，就是用框选的方式把目标对象标注出来，比如把人的脸、各种不同物品标注出来，可用于人脸识别和场景识别。

区域标注，准确标注出区域的范围，比如自动驾驶中行车道、路面的范围等等。

描点标注，要求更为精确了，在不同图像上进行大量的描点，有有助于机器进行对比识别，主要用于识别，人脸识别、动作识别等等。

比如人脸识别，通过分析对比这68个点的特征，可以精准实现人脸识别。当然了，描的点越多，训练得到的模型准确率越高。

5、数据标注行业状况

以上说了机器学习的本质，是需要给机器输入海量的、不同场景的带标注数据，数据量越大、标注越准确，得到的AI模型准确率也就越高。

衡水中学的题海战术，用在了人工智能上而已。

这些海量的数据标注，都是流水线上工人手工完成的，一张一张图片，一帧一帧声音，一个一个单词地标注……顶着高科技光环的人工智能数据标注，其实与富士康流水线并无本质的差别。

在众包网站上，一件件任务被发布，明码标价。

在流水线上，一个个员工盯着屏幕，或者在一张张图片上不断地标注关键点，或者在交通图上框选路灯、指示牌，或者在无人便利店标注不同的商品并加上备注，或者……

而随着人工智能行业的兴起，对训练数据的需求也指数级增长，对于数据标注员的数量要求也随之增长，在流水线上，为人工智能的成长和强大，源源不断地提供弹药，也许他们是最后一批被革命的手工业者。

本文（含图片）为合作媒体授权创业邦转载，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

来源：投中网

步日欣

关于我们

订阅服务

特别推荐

法律相关

爱奇清科（北京）信息科技有限公司地址：北京市朝阳区丽泽西街东湖国际中心A座7层 | 网络文化经营许可证（京网文[2018]2153-213号）

违法和不良信息举报电话：010-53391121 举报邮箱：db@cyzone.cn

京公网安备 11010502035114号

营业执照出版物经营许可证

反馈

联系我们

推荐订阅