数据标注“流水线”里,藏着大模型的秘密

2023-09-11
数据标注是大模型数据能力链条上的重要一环。这个环节目前做得如何,直接决定大模型有多聪明

编者按:本文来自微信公众号 财经十一人(ID:lcaijingEleven),作者:刘以秦,编辑:谢丽容,创业邦经授权转载。

海南人阿黄学的是设计专业,之前做了5年设计工作,今年公司倒了,现在他给AI大模型做数据标注。

他用过ChatGPT和文心一言,也知道外面有很多人在高喊“大模型前景广阔”,“所有行业都值得用大模型再做一遍”。但他从没认为自己的工作是在“参与未来”。他做的工作是给AI大模型做数据标注,通俗地说,是给大模型找错、修改、打分。坐在工位上,阿黄熟练又机械地点着鼠标,“又是同样的错误”,他心想,“大模型挺傻的。”

中国上一波AI浪潮始于2017年,到今天,主要服务于自动驾驶和人脸识别的数据标注产业已经很成熟。给上一代AI模型做标注工作,主要以“打点”和“画框”为主,就是让机器学习什么是“人脸”,什么是“障碍物”。现在的大模型的标注更像是在做阅读理解,让AIGC(生成式AI)学习应该给出什么样的内容。

阿黄每天的工作就是坐在电脑前,等待系统随机给他一组数据,包含1个问题和5个回答。他需要先标注出这个问题属于什么类型,随后给5个回答分别打分并排序。分数区间为0-5分,如果打分低于3分,还要标注出具体原因,例如“答非所问(0分)”、“严重跑题(1分)”、“存在逻辑问题,存在事实性错误,比例较小给2分”等。

新技术带动了中国大模型热潮,沉寂了几年的数据标注行业迎来新机会,一位业内人士告诉《财经十一人》,最近数据标注公司的订单量明显多了,基本都是大模型的需求。

大模型通过海量数据和巨大算力的共同作用,让机器变得更像人。注入海量数据后,大模型会掌握一定的逻辑思维和通识,也就是成为一个“预训练模型”,但仅仅是“注入”还远远不够。

预训练模型就像是一个未经驯化的“野兽”,因为数据基本是无差别抓取,其中会有互联网上常见的诱导性内容、错误信息、阴谋论、攻击性内容等。必须通过不断调优来让这头“野兽”更加合乎常理,被社会接受。

标注师的工作就是“调优”,给机器生成的内容挑错、修改、打分。相当于给机器一个具体反馈,低分是“惩罚”,高分就是“奖励”,理想状态下,机器会逐渐往高分的方向进化。

数据就是养料,所谓的“理想状态”,指的是机器能持续获得足够多且有质量的数据,这样才能“健康成长”。但现在的大模型数据标注还不够“理想”。

此前,业内将中国公司的大模型距离GPT4还有明显差距的其中一个主要原因,归结于算力资源不够。

也有不少业内人士提到数据质量较低,但数据质量为何较低,从数据标注的“流水线”上,能找到一部分原因。

1、本科生组成的标注流水线

阿黄是在招聘网站上看到某标注基地在招人,入职前他上网搜了一下数据标注的相关的信息,看到的都是画框型标注。当年,数据标注被称为AI领域的流水线工厂,通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。为了控制成本,标注公司的老板们会在县城里租一块场地,摆上电脑,有订单了就在附近招人兼职来做,没单子就解散休息。简单来说,这个工种有点类似马路边上的临时装修工。

大模型时代的数据标注工作显然不一样了。阿黄的办公环境相比过去好了不少,窗明几净的写字楼,有自己的工位,很宽敞,上下班要打卡,看起来和互联网公司里的白领们差不多。事实上也是如此,阿黄的同事基本是本科毕业学历。

不过,他依然觉得自己是个流水线工人。

数据标注行业流传的一句话是“有多少智能,就有多少人工”,这句话放到今天依然适用。有媒体报道,OpenAI的前期数据标注员大多在肯尼亚,主要工作是帮大模型过滤掉“有害”内容,标注员月薪在200到300美元之间。

阿黄和同事们的月薪约5000元,“按完成的题目数量计费”。他说,入行的门槛不算高,且工作节奏不快,“基本上6、7点以后大家都下班了。”收入在当地不算低,海南省统计局披露的2022年海南省城镇私营单位就业人员年平均工资为65519元(相当于月薪5460元),“以前做设计的时候没日没夜的加班,也就这个水平。”

阿黄对这份工作基本满意。唯一不太满意的主要原因是“无聊”,且看不清未来的方向。他最大的焦虑是,学历、专业对于这份工作没有特别的加成作用。未来也很难有相关的职业发展路径,他们并不能从这份工作中积累到相关知识,熟悉更多技术。

阿黄最喜欢标注的是文案撰写类的问答,比如“写一段宣传稿”,因为AI生成的答案质量都不错,不需要标注员更多介入,完成得很轻松。稍微难一些的是涉及到事实核查的问答,例如问题是“如何建立税收风险管理体系”,根据工作流程,他只需要去百度上搜索税收相关的内容。当然了,不是所有的内容都能用,例如贴吧、社区上个人用户发布的内容就不行,“要找更权威一点的”。但他无法保证准确。

还有些一看就是用户问来为难大模型的问题,例如“扭蛋和鸡蛋哪个更好吃”?那些“一本正经胡说八道”的回答基本都出现在这里。阿黄认为这是机器现在还“挺傻”的表现,即使他们反复标注,机器依然在犯同样的错误。

和过去数据标注的不同之处在于,“画框”是有标准答案的,但是很多大模型相关的内容没有标准答案,有些问题本身就会有多个正确答案。不过阿黄也不需要去思考到底哪种回答更好,如果遇到有争议的内容,他只需要提交给工作群里的“老师”,以“老师”的回答为准即可。“老师”可以理解为行业经验更丰富或是更理解客户需求的标注师。

标注完成后,还会有审核抽查,阿黄说,一次大约抽查2-3道题,审核员认为标注得不对,就会打回来重新标。审核员主要来自数据需求方,也就是科技公司,标注师多是外包服务商员工。

这条数据标注流水线目前主要由标注师和审核员组成。完成数据标注后,科技公司会对大模型做测试,看看哪些方面还有不足,再针对性的做下一轮标注和调试。未来,这条“流水线”上还会针对大模型出现更多细分岗位,例如模型评估师(指导大模型调优方向)、指令工程师(研究与大模型交互更高效的方式)、视频音频标注师、专业领域标注师等。

2、需要更多高质量数据

阿黄供职的机构是目前国内在通用大模型领域跑在最前面的百度智能云,百度的文心一言今年3月16日发布,他今年4月入职,入职后培训一周上岗。

他还记得一开始数据量很少,会出现无题可做的情况,后来工作越来越忙。数据标注行业波动性很强,AI产业繁荣时,标注需求随之上涨;AI产业稍有回落,数据标注会第一个受影响。

阿黄和同事们基本不用加班,如果数据量充足,他一天能做约80道题。他所在的百度智能云海口数据标注基地宣称是国内第一个大模型数据标注基地,该基地目前共有约200名标注师。也就是说,这个基地一天能标注约16000道题。

一位AI大模型行业人士告诉《财经十一人》,目前这个量和理想中的预设相比,“太小了”。现在的大模型动辄千亿参数量,如果没有与之匹配的标注工作量,就很难对预训练大模型有明显的优化。

百度智能云数据标注基地业务产品负责人胡驰告诉《财经十一人》,百度海口数据基地目前主要承担的是基础的数据标注工作,也就是训练机器的通识能力。如果涉及到更专业的领域,例如写代码、医疗、金融等,就要与专业团队合作。比如,政务大模型中,用户通常会问很多“专精”的问题,例如“社保断缴5年怎么办?”这需要标注师熟悉大量的政府文件,并能从中找到准确答案。

大模型时代已经逐步演变成机器辅助人类标注,例如有些回答篇幅特别长,标注师看完就要花很长时间,系统可以提前标注出关键内容,帮助标注师提升效率,但并不能提升专业度。

在全球大模型领域跑在最前面的OpenAI在数据标注上也有一套方法——找了多家数据公司来共同完成数据标注,其中包括目前估值已经超过70亿美元的创业公司Scale AI。OpenAI自己也组建了一个几十名哲学博士(PhDs)团队来做数据质检。标注好的数据训练模型,反复多次直至模型可用。OpenAI成立8年,花费10亿美元用于模型训练。

OpenAI的数据标注方式是先做出预训练模型,再用强化学习加上人工反馈来调优,也就是RLHF(Reinforcement Learning from Human Feedback)。

在RLHF的过程中,人工的专业性越高,能够给出的反馈也越高效。一些科技公司认为数据质量是OpenAI的竞争力之一,此后包括谷歌在内的不少美国科技公司都在效仿这一模式。

一位知名AI公司创始人告诉《财经十一人》,现在中文大模型的数据来源是两类,一类是开源的数据集;一类是通过爬虫爬来的中文互联网数据。中文大模型表现不够好的主要原因之一就是互联网数据质量,“比如,专业人士在查找资料的时候一般不会用百度。”

大模型领域的新趋势是垂直大模型。过去也有垂直领域的数据标注,最典型的是医疗数据。AI公司们很难找到足够多的医疗专业人士来做标注,提供更高报酬只是基本,一些AI公司还会提供科研资源、论文发表等方面的协助,才有可能搞定一个专家。

OpenAI还在继续重金投入数据相关工作。现在国内一线的大模型产品也都在优化阶段,今年8月31日,12款大模型完成备案,已经上线的部分产品依然存在或多或少的问题。

相比有钱也不一定能买到的算力来说,数据更多时候是“一分耕耘一分收获”,中国数据体量庞大,且市场上已经有大量数据服务商和数据工具。

一位已经上线的大模型产品负责人告诉《财经十一人》,“科技公司不是无所不能的,精力有限且投入就要看到回报”。投入在参数量、算力,或是各类测评结果、论文、合作伙伴、商业化方面,能够给大模型直接带来回报,包括收入、融资、影响力等。“在数据方面长期投入会有两个问题,一是回报周期长;二是先行者很有可能会吃亏,例如我花了很多钱和时间,做了很多数据,别人可能花很少的钱就可以直接打包买走。”

3、“人工”会越来越少

目前数据标注市场主要有两类参与者,一类是第三方标注公司,另一类是头部科技公司自建数据标注团队。此外还有一些中间商,对接公司需求和标注团队。

百度是大型科技公司中对数据标注投入相对较多的一家。百度智能云提供的数据显示,该公司目前已经与各地政府合作共建了10多个数据标注基地,累计提供超过1.1万个就业岗位,间接带动5万人就业。京东、字节跳动等公司也有自己的数据标注基地。

目前数据标注依然以人工为主,机器辅助。短期内数据标注师会是一个不错的职业选择。不过,长期来看,和上一轮AI标注人一样,这个职业恐怕会逐步消亡。

2022年下半年,OpenAI在拉丁美洲和东欧等地区招募了约1000名远程外包员工,其中约60%普通员工负责基础的数据标注,另外40%是程序员,他们共同让ChatGPT学会编程。

如果大模型的编程能力达到一定水平,程序员不仅不需要再做标注了,可能连程序员也不用做了。同理,大模型越来越聪明,自学习能力越来越强之后,那么第一个被取代的恐怕就是那些给大模型做标注的人。

从过往的经验看,数据标注员本身就不是一份长期稳定的工作。2007年,人工智能专家李飞飞带队做了ImageNet的数据标注工作,花了两年半时间标注了1500万张图片并将其开源,直接为后来的图像识别类公司打下了基础,不需要再招募大量人工做基础标注,只需要再做专业上的优化。

大模型发展的一个重要方向就是自动训练。AI技术已经可以辅助人工做标注,未来AI的渗透会越来越深,大模型本身就适合于数据标注场景。目前AI公司商汤宣称已经在智能驾驶领域应用大模型自动标注技术;今年4月,海康威视在其财报会议上也提到将AI技术用于自动化标注,并称标注数量能提升10倍。谷歌、微软、特斯拉等科技公司也都发布了自动标注系统相关产品。

百度智能云自研的标注系统中也已经有不少技术辅助功能,除了在文本中标出重点之外,还会自动给内容分类,把专业的内容匹配给对应的专业人员。

胡驰说,现在机器还无法完全做到自己训练自己,“机器都还只是半吊子水平,怎么让自己进步呢?”他认为,至少在目前,最终的决定权还是要在人工手里,机器标注依然存在局限性。

人工智能的发展基于三要素:数据、算法和算力。如果用火箭来比喻,算法是引擎,算力是加速器,数据是燃料。想要让大模型发挥更大作用,充足的“燃料”必不可少。

经历了大半年大模型热潮后,投资人和从业者们都已经相对冷静下来,随着一些通用大模型的开源力度加大,再从头做一个类似的产品已经很难吸引资本和市场,“不少做大模型的创业者很难回答出他们的壁垒究竟是什么”,一位关注AI的投资人告诉《财经十一人》,“如果没有明确的技术壁垒,就要用商业化能力来证明自己,要做好商业化,建立数据能力是第一步。”

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。