您现在的位置是:北京海天环球教育科技有限公司 > 产品中心

数据标注工:训练AI,被AI替代|甲子光年

北京海天环球教育科技有限公司26-05-14【产品中心】4人已围观

简介数据标注行业在AI发展浪潮下面临增长与淘汰并存的局面,从业者既迎来创业机会,又面临被AI替代、行业内卷等危机。行业背景与从业者现状创业契机与期待:30岁的内蒙古人代延年初创业组建近30人线上标注团队,此前他在数据标注众包平台做了两年“熟工”。他看到今年一季度新增注册17万家人工智能相关企业,总计已有267万家,认为存在...

数据标注行业在AI发展浪潮下面临增长与淘汰并存的局面,从业者既迎来创业机会,又面临被AI替代、行业内卷等危机。

行业背景与从业者现状
  • 创业契机与期待:30岁的内蒙古人代延年初创业组建近30人线上标注团队,此前他在数据标注众包平台做了两年“熟工”。他看到今年一季度新增注册17万家人工智能相关企业,总计已有267万家,认为存在AI行业爆火带来的数据标注创业机会,想象公司能发展到100人规模。
  • 现实困境

    单价降低:大量标注需求、工人和中间商涌入,项目层层转手,工价被压低,代延拒绝一天只能拿到30元的标注项目。

    缺乏保障:标注业没有职业晋升、没有合同保障、被拖款也投诉无门,代延自嘲是“新时代的数据民工”。

    AI替代威胁:自动化标注正在吞噬项目,由数据标注员训练的AI在人类监督中自我学习进行自标注,极大减少企业成本,成为数据标注市场最被看好的方向。代延不得不为“AI可能完全取代人”做准备,带着团队同时做文本标注类别的教辅标注和3D点云标注项目,还计划精简团队人数,认为最终或许只会保留20人的熟手团队。

标注工作对AI发展的重要性
  • 机器学习链条:为了让机器像人一样理解文字、语音、图片,人类创造机器学习链条,采集物理世界实物图像和声音,对数据进行标注、清洗,转换为代码输送给机器。
  • 成功案例:标注图集ImageNet上有1500万张图片,帮助无数AI企业在计算机视觉上取得突破,如人脸识别、搜图看看。该图集由全球167个国家近5万名来自众包平台Mechanical Turk的数据标注工,花费两年半共同标注完成。标注要求简单,如区分照片颜色、对图像中动物分类、用方框框定选定对象并标注名称等。
  • 人员分布:中国的上百万名标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透,他们或依赖线上众包平台,或加入线下数据标注公司和基地。标注内容根据场景分为文本、图像和语音,对应帮助机器获得识字、识图和听声音的功能。
  • 需求变化:早期标注项目集中在互联网企业,主要标注语音和文本;现在转向自动驾驶企业标注3D场景(如点云标注),以及更垂直的文本和语音标注方向,如为教育公司大模型提供教辅类标注数据、为医疗机构大模型提供校对后的医疗数据。AI迈入2.0时代,对标注提出更垂直、精确、节约的要求。
标注市场需求与创业热潮
  • 需求激增:2023年一季度中国新增17万家人工智能企业,只要用到AI的公司就有数据标注需求,需求很快传导至数据标注市场。在从业者聚集的贴吧,一天能刷新出十几条项目招人帖子,包括各种从文本到图片视频的标注项目。一位从业多年的工作者察觉到今年无人车标注项目增加,AI2.0热催生的垂直领域大模型创业,让文本标注项目细分至不同赛道,增加了小众数据标注需求。
  • 创业案例

    山东东营的张唯去年底投身数据标注创业,半年发展为十几人小团队,依靠当地政府补贴和扶持,获得免费办公室和甲方资源,项目订单从最初十几万到最近40万,为完成交付任务积极寻找标注工。

    河南郑州一家数据标注众包平台迁移至能容纳百人的两层办公楼,负责人称“标注项目订单多到做不过来”。

  • 资本关注:数据标注龙头海天瑞声在今年3 - 5月股价最高涨了4倍;今年以来B轮及以前的十余家数据标注平台,集体迎来接近100%增幅的高估值;从去年下半年开始,自动标注公司陆续获得新融资,如2022年9月博登智能获得千万元融资,12月星尘数据完成A轮融资5000万元,2023年4月恺望数据获得新一轮战略融资,6月整数智能获得数千万Pre A轮融资。这些公司打出替代人工标注的口号,资本市场重新关注该领域。
行业面临的挑战
  • 分包模式与低价竞争

    分包模式:行业普遍采取分包模式,先由甲方企业发标,第三方服务商参与竞标,竞标成功后进入企业供应商梯队,核心供应商能享受优先任务选择权和更多订单,企业对核心供应商有团队规模、交付经验、培训体系、质量把控能力等要求。

    低价竞争:今年竞标惨烈,一个项目有服务商报200元一天,有人报80元一天,最终低价团队拿下项目却可能完不成,又转回给更成熟的团队,但价格已上不去。代延的线上团队因不直接接触甲方,受市面上多级分包层层压价影响,压力巨大。一些个体注册公司谎称有专业团队,以极低价格投标,拿下项目后拆分分包,层层抽佣,导致分给数据标注工的计件价越来越低。

  • 单价内卷与薪资缩水:一份价格表显示,从2D标注到3D激光点云标注,标注项目单价一般为0.5 - 1.5元/框,代延曾接到打过对折的单框价。单价内卷直接导致标注人员薪资缩水,代延团队多为宝妈、大学生等半全职人员,2022年疫情期间他每月有4 - 5千元收入,现在每月只有2 - 3千元。
  • 工作要求提高

    验收标准变化:过去互联网时期标注市场单框价格高、项目量大,操作简单无要求;现在“贴合度”是甲方最看重的验收标准,误差要求越来越小,如去年无人车标注要求误差在5 - 7毫米,今年就要3 - 5毫米。

    高质量数据需求:人工智能学者吴恩达强调有标注的高质量数据能释放人工智能价值,高质量数据越多,人工智能发展越快。在无人车标注数据中,矩形框与标注对象贴合度越高算法精度越高;高质量文本标注项目表现为语义理解正确性、答题正确率等,正确率越高,被训练的大模型越聪明。

    专业能力要求:复杂语音标注,医疗、法律、金融等专业数据集标注生产,更需要有学科知识储备的专业人才。以无人车项目为例,新人成为2D标注熟手需做3个月,成为3D熟手需练习4 - 6个月,要训练拉框精确度,准确盖住标注对象,不踩线、不漏点。

替代危机与行业未来趋势
  • AI替代人工标注

    识图项目案例:代延做的图片识图标注项目,他标注的数据被喂入识图模型后,模型熟练识别图片文字,他的标注工作缩减为订正和审核,难度下降且单价下跌。

    研究报告证实:苏黎世大学调查报告显示,ChatGPT在15项标注任务中的处理能力高于众包人员;洛桑联邦理工学院研究发现,已有超过30%的众包标注者在处理文本标注时使用了大模型,且大模型嵌入众包平台的进度加快。AI比人工更省时省力,ChatGPT的单位成本只相当于MTurk的1/20。

    自动驾驶标注受影响:自动驾驶标注也正被AI侵入,自动化标注内置大模型进行参数设置后,原本需要手动标注的矩形框会自动生成,虽存在质量问题需人工检验,但效率提升让车企惊喜,如理想使用大模型2.0进行自动化标定,效率是人的1000倍;特斯拉2022年6月裁撤200名标注视频员工,因其自动标注能力大幅改善。

  • 行业未来趋势

    服务商观点:对于自动化标注的增长,第三方服务商看法不一。河南一家众包平台项目经理认为自动化标注只能作为辅助标注工具,处理单一或特定数据,提升人效,不能取代60%以上的标注需求;另一家数据标注公司产品经理认为自动标注只能过滤简单基础数据,不能像人一样从复杂有争议场景中精确识别物体,这也是数据标注市场如今以自动驾驶标注数据为主导的原因。不过大家都认同未来数据标注将从重人力转向重技术。

    从业者应对:代延计划紧跟市场,保持警惕,随时裁员,同时向做自动化标注工具的方向发展;一家众包平台创始人认为未来不能堆人力,要有研发能力。行业里流传的职场路径是新手标注工 - 熟手标注工 - 标注项目管理员/经理 - 甲方公司数据分析师,但代延认识的数据标注工大多未朝此方向走,他们要么停留在原地,要么退出,最好的情况是建立自己的标注团队。

很赞哦!(29144)