数据标注到底是不是所谓的“诈骗”?你真的有认真了解!?

文章正文
发布时间:2024-06-12 08:18

数据标注到底是不是所谓的“诈骗”?你真的有认真了解!?

2023-07-14 16:25

发布于:四川省

2015年前后,AlphaGo横空出世,掀起了国内AI创业的浪潮。五年间,人工智能行业在聚光灯下飞奔,跑出实验室、实现”AI+产业“落地,并成为新基建的重要组成。AI行业也经历了资本的冰与火,逐渐走向理性。

但作为AI产业链的最上游,数据标注行业却一直游离在聚光灯外,很少被人提起。

即便外界有观感,也大多想象这个行业绝大多数公司会是“富士康”一样的流水线,亦或是三四线城市的小作坊。

但实际上,这个行业已经走过了小作坊的粗放时期,开始走进“技术致胜”的时代。

误解一:数据标注只靠人力

当前,随着AI建模能力外溢,技术门槛降低,不仅科技公司、各行各业对数据的需求都在增长。科技公司想通过巨大的数据池构建模型壁垒,也有更多企业开始重视自有业务数据的标注及模型迭代,对标注系统的私有化部署或工具SaaS需求开始增长。

标注企业的核心竞争力还是技术。“这个行业经历了大洗牌,劳动密集、压榨工资的企业被淘汰,最后变成技术主导。技术提升效率、产生了成本优势,通过理解客户需求、再加上自有技术和平台,标注企业就能形成自己的壁垒。”

误解二:数据标注不被资本重视?

但“劳动密集型”这一刻板印象,依然存在于数据标注这产业中。体现在投融资上尤为明显。

“一方面,AI公司在算力、算法方向投入的增量梯度逐渐下降,未来市场存在巨大的数据需求;另一方面,这类公司的智能标注工具不仅提升了数据的产出效率,同时也在数据、辅助标注模型的迭代中打造出了完善的AI基础设施。AI的未来就是数据到模型的无缝输出。”

误解三:数据标注不需要高学历

在以往的印象中,数据标注从业者往往学历不高、工作环境恶劣,但这只是行业的一枚切片,事实的一角。

那些“喂养”AI的人们,既有标注基地的标注员,也包括技术公司中做系统开发维护的程序员们。一个标注项目,往往先给到标注技术公司或众包平台,再由他们派遣给自营标注基地或外包人员。数据标注基地更像是“工厂里冷冰冰的流水线”,标注员们在非常机械地工作。

误解四:薪资只是工人水平?

数据标注师的薪水也往往被认为是极其低廉的。但实际上,由于任务的规模和难度不同、要求的时限不同、以及是否涉及到专业领域知识、数据标注员们的薪资也有很大的弹性空间。

不过,数据标注行业分层较大,既有科技企业自建的标注基地、也有众包平台、以及团体或个人的小作坊。外包给个人或小作坊的产量不稳定,分到的任务会更初级,计费更低,这也就构成了数据标注行业薪资的下限。

误解五:数据标注本身不需要AI?

行业虽然越来越成熟,但数据采集和标注工作所占的成本,正在AI模型的完整生命流程中逐渐上升。

2015年刚起步时由于AI工程师贵,数据采标成本仅占总体的10%-20%,但由于AI工程师的成本降了不少,数据需求量又越来越大,现在采标成本在总成本中已经占到了30%-40%。

因此,在从劳动密集型转向技术密集型的同时,数据标注产业当然也在利用AI提升效率。

当前,将技术引入数据标注流程已是业内通用做法,让训练好的AI模型反哺人工标注,也是标注技术公司的优势所在。有监督的机器学习技术占据了AI发展的主流,但学术圈已经开始向自监督学习模型进行探索——他们认为该模型让AI从数据标注中解脱出来,无需任何人工标注数据就能完成学习。返回搜狐,查看更多

首页
评论
分享
Top