数据标注行业的第三方视角——大模型企业真的能获得高质量数据?兼谈与大学生就业的关系
作者:本站编辑
2026-06-21 11:46:58
0
数据标注行业的第三方视角——大模型企业真的能获得高质量数据?兼谈与大学生就业的关系早就准备针对数据标注再写一篇了,一拖再拖的原因是对几个头部大模型的标注任务进行了较多的了解,总感觉写下去要写长篇大论了,还是想办法写简短点,有兴趣深入探讨的老师可以后台留言交流。 这个文章标题起的很一般,因为不想写成分析报告,所以就罗列几个关键词。我尽量写的通俗易懂,不了解这个行业的老师可以有个了解,身在这个行业的老师也知道这篇文章写的并不肤浅,背后也调研了数量不菲的从业人员。 数据标注现在的技术含量越来越高了,已经完全不像早期的数据标注那么简单了,目前头部的大模型公司的标注任务也变得越来越难,也意味着门槛在变高,正常的标注流程前面的文章简述过,目前的很多下发的标注任务都会围绕事实性、相关性、逻辑性来展开。大模型公司也通过合作、众包等形式,进行数据的初标、质检、复检至少三道流程来把控数据质量。 简单来说,就是以前依赖算力去训练模型的数据早就用完了,都是针对模型不同的问题和需求,由算法跑出一批批数据,再分发给标注团队来根据规则去做标注,再进行质检和复检,确保数据质量。 这个量级有多大呢?我举一个大家比较好理解的例子:比如说现在用大模型生成图片的人越来越多,但是图片的物理结构不合理、笔触细碎、手指崩坏的情况很常见,还有很多文字崩坏的情况。用户会提出各种各样的需求来让模型生成不同风格、不同场景、不同细节的图片。 这类标注任务的量级,一般有几百万张,需要人为根据规则去分辨这是好图片还是不好的图片,单张图片标注的价格正常也就几分到几毛钱,但是量大好跑流水,初标的人力提交后,还会有对应的质检人员、复检人员,量级不是很大的一般会1:1的质检配比,而量特别大的在质检环节,就会按比例采取抽检的形式了。 很多老师看到这么便宜,就会要问了,这不就是血汗工厂吗?确实是,而且这种模式,感觉很难与高质量数据集产生什么关联,道理肯定也好理解,现在现成的数据早被模型吸收完了,现在只能针对性的创造数据来训练模型了。 算法会跑出来一批批数据,由不同的数据标注团队来进行标注、质检、复检验收后,再喂给模型。 我们来看一组数据:数据标注成本已超越算力,成为最大瓶颈在2023-2024年,AI行业发生了一个标志性变化:数据标注成本增长了88倍,而算力成本仅增长了1.3倍。目前,数据标注成本已经是算力成本的3.1倍,成为前沿AI开发的最大瓶颈。高质量标注数据的稀缺性产生了巨大的溢价。 关注财经市场的老师都知道那个比较经典的段子“美国科技巨头们既是彼此的客户,又是彼此的投资者,通过巨额资金在内部循环来推高估值和业绩。” 算力等基础设施建设如此,现在数据标注也有点这个意思了,由于“高质量”数据资产可以入表,所以大模型企业就敢于在这个层面去投入,但是投入的资金真的能产生多少高质量数据呢? 经过这短时间的深入观察和了解,确实看到了很多不合理的流程和资源的浪费。尤其是很多训练模型的数据,是一次性的,你针对一个幻觉所标注的一批数据,如果这个问题在当前阶段解决了,这部分数据资产如果入表了,以后还能作为资产使用?或者还能给其它模型公司使用吗?那这部分的成本怎么算,我不清楚。 肉眼可见目前很多头部大模型公司,在数据标注方面进行了较大的投入,这中间因为流程造成了多少资金的浪费,收获了多少有价值的数据?这个太深了,无法展开(我只能这么想到哪写到哪,真要展开就成写商业调研报告了),感兴趣的老师可以进行探讨,我再切入到与就业的关系来说说。 当下谁在做数据标注任务?劳务派遣、兼职、学生。这里我们一方面能看到大量的文科岗位、前端程序员等岗位在被AI替代,数据标注确实创造了很多的就业机会,但是这些就业机会又在被学弟学妹们替代(后面我再展开说说,大二大三研一研二的兼职岗位在卷走大四、研三毕业生的全职工作岗位) 1、一些大学和头部大模型公司合作的实验室,这是目前在数据质量方面比较有保障的,已经有不少大学在和模型公司共建实验室。由学校来发放工资,要求学生每天工作八小时,薪资水平应该和应届毕业生的平均水平差不多。做的标注也是有一定专业性门槛的,甚至有的标注任务可以达到成百上千元一条,这类任务一般都是大模型里还比较核心的业务,有些还涉及到大模型企业的收费功能。 2、上市公司,没搞错,慧博云通、软通动力等上市公司也会做标注任务,如果是几百元一条的对上市公司来说也还不错,如果是几毛钱一条的,可能就是赔本赚吆喝了,可以从上述公司的财报看出来到底赚不赚的到这个利润,当然从流水角度来说,也许看起来比较好看。 3、劳务派遣、众包类型、和领导有关系的公司。其实有的大模型公司,有自己的劳务派遣公司(有的是孙公司,不起眼),劳务派遣和众包意味着什么?便宜!说白了,头部大模型企业们都舍不得投入太多的人力堆在全职人力上,还想获得高质量数据,这个逻辑成立吗? 其实也是成立的,因为比起大厂的高薪,即便是通过劳务派遣和众包公司,也依然可以提供一份非大厂的当地平均薪资,也算是能解决当地的就业岗位,而这些岗位往往聚集在人力成本相对较低的中西部地区。 当然这里就要提到我前面说的兼职团队来抢应届毕业生就业机会的现象了。 举个例子就好理解了,不管是因为什么原因,头部大模型企业需要大量的人力来进行数据标注,依据我了解的数据量级(可能冰山一角)来测算成本,应该是大厂招人潮才对,起码应该像经济上行时期,那些到处招网络编辑、自媒体编辑来做复制、粘贴的发稿那样才合理。 而显然这个人力成本太高,于是大模型企业和各个大学、劳务派遣公司合作,就是很好的降低人力成本的机会(人力成本降低,数据质量能完全没影响吗),但起码跟大厂的薪资相比,通过大学合作和劳务派遣公司发放的薪资,在一些地区也还是算解决就业机会了。 不过一些众包和关系公司,做的任务就比较低端了,当然获取供应商资质就不容易,懂的都懂,接的任务大多在几分到几块钱为主。由于任务主体大部分是兼职人员和大学生,时间不太稳定,质量也不是非常好把控。所以这里还是有很大的流程优化空间。 那么正常来说,由于大模型企业降低自己的人力成本,采取与学校和劳务派遣公司合作,应该创造很多的就业机会才对。如果有关注近期就业环境的老师应该知道,很多企业都是裁员潮,应届毕业生数量今年创出历史新高,根据数据标注的需求来看,理应创造很多的就业岗位。 但是众包和一些公司,又会反过来招聘较多的在校学生做兼职,根据我了解到的一些大学的情况,粗略预估一下,如果因为数据标注能为该校大学生创造200个数据标注的全职岗位的话,那么其中的100个岗位会被大一到大三的兼职学生占据。 不可否认,人工智能在消灭工作岗位的同时,的确创造了很多就业岗位,这个量级甚至不低于快递、网约车、外卖员这类能缓解就业岗位的大类,甚至AI漫剧等也都在创造一些基础的工作岗位,但是随着大模型的不断迭代更新,可能还会创造更多的就业岗位,而用人成本相对低廉的大学生实习,是最好的锻炼自己工作能力和对接职场的机会,目前肉眼可见数据标注的门槛在变高,难度也在提升,非双一流的大学生的整体数据标注质量和双一流的大学生相比还是有一定差距的,再结合态度、兼职工作时长等因素分析,这个门槛会越来越高,早早进入数据标注行业实习的大学生,起码也算是在AI领域浪潮的基础岗位上有所锻炼,未来AI在消灭更多工作岗位的时候,还会创造更多的工作岗位,只不过AI发展太快,我们预判不了太久。 啰啰嗦嗦说了这么多,确实信息量有点大,还有很多细节没法细致写了,展开真的要梳理格式写成分析报告了,有兴趣的行业老师可以单独沟通。 确实也比较懈怠很久没更新,最近又了解了原本就熟悉的医疗行业,我看市场上也跌的六亲不认了。做个预告下周写一篇关于创新药的文章(也是行业分析),如果你有行业真实情况的分析和看法,欢迎私信,我来发。
- 下一篇: 中信集团第四届中国国际供应链促进博览会,倒计时1天!
- 上一篇: 在滇池国际会展中心会遇见什么?
