数据标注行业里有着这样的一段话:
“有多少智能,就有多少人工”。
人工智能的本质在某种程度上来说就是这样。
人工智能行业的核心要素是算法、数据和算力,而海量的有效数据是人工智能应用落地并且商业化的前提条件。事实上,现阶段提升AI认知世界能力的最有效途径仍然是监督学习,而监督学习下的深度学习算法训练十分依赖于数据标注员进行标注数据。可以说,如果数据标注是人工智能行业的基石,那么数据标注员就是数据标注行业的基石。
随着近年来AI技术的广泛应用,2020年2月,数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录,他们的工作内容有解决方案设计、算法调优、数据标注等。
根据国家人力资源和社会保障部相关预测显示,随着人工智能在智能制造、智能交通、智慧城市、智能医疗、智能农业、智能物流、智能金融及其他各行各业的日益增多的应用,人工智能训练师的规模将迎来爆发式增长。预计到2022年,相关从业人员有望达到500万。
小马数据标注基地
不过,尽管数据标注员规模处于急速扩张中,但是与市场需求相比,缺口依然很大。
据艾瑞咨询相关统计数据显示,当下一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。同时,每年需求仍以20%-30%的增速上升,不仅如此,随着5G与IoT设备的普及,各类交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也在逐步增长。
这些海量的数据几乎全部依赖数据标注员手工进行标注,数据标注员的数量缺口十分可观。同时,随着AI商业化落地进程的加快,需要更多高质量、精细化、定制化的数据集,这也意味着对数据标注员的专业素质能力提出了更高的要求。
如何解决该问题就成为摆在诸多数据标注企业面前的现实问题。以小马数据为例,通过自建标注团队,实现对数据标注员的统一管理与培训,并建立行业级的培训与职业评价标准,可以显著提高项目的执行度,为需求方提供高质量的标注数据集。
未来,随着AI应用场景逐渐多领域化,在数据标注行业内部,从业者也必将随着AI行业而一同进入细分市场追逐阶段,可谓机遇与挑战并存,梦想与发展同在。