1、数据标注行业定义、分类及特点
数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注。
数据标注按数据类型分类
分类 | 介绍 |
图像标注 | 图像标注是将标签附加到图像上的过程,可以是给整个图像添加一个标签,也可以是给图像中的每一组像素分别添加多个标签,又可以细分为拉框标注、语义分割、关键点标注、3D点云等类型。常见的图像标注应用领域包括人脸识别、智能医学影像处理、自动驾驶等; |
文本标注 | 文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于让机器学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。 文本标注可以细分为实体标注、关系标注、情感标注、问答标注等类型,常见的应用领域包括智能客服、智能病历等; |
语音标注 | 语音标注:语音标注是把语音中包含的文字信息、各种声音标记提取出来,再进行转写或者合成的过程。人工智能通过学习这些标注后的数据,从而具备“听力”,使计算机可以实现精准的语音识别能力,语音标注可以细分为语音切割、声纹识别、音素标注、情绪标注等类型,常见的应用领域包括智能语音转写、智能语音合成等。 |
资料来源:观研天下数据中心整理
根据观研报告网发布的《中国数据标注行业现状深度分析与投资趋势研究报告(2023-2030年)》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。
资料来源:观研天下整理
2、“AI+RPA”双驱动助力数据标注服务升级
过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。
资料来源:Cognilytica、观研天下整理
此外,考虑到传统企业在数字化转型之路有很多历史遗留问题,如各种老旧信息化系统的存在,以及流程、人员因素等拖累了企业的数字化转型步伐,大量人力资源浪费在简单重复的低附加值工作之中,限制了员工创新能力。如何突破这种困境成为不少企业面临的问题。当前借助AI+RPA技术的产品来解决繁杂的流水线式的重复劳动,而把更具创造力的流程设计工作交给人来完成,这样人机协同的模式已经成为大势所趋。例如:云扩Spark就是一款结合AI+RPA技术工具,业务人员可以通过完整的在线工具箱去发现和梳理日常工作中重复的业务流程,轻松找到自动化的机会点。同时,云扩Spark还能提供清晰的可自动化的流程评估和ROI计算,让业务人员在RPA落地的过程中掌握自动化的主动权。最后,我们认为,未来RPA天然的超强粘合能力很有可能成为引领企业智能AI科技的排头兵,OCR、Chatbot、NLP、语音识别、智能决策等相关技术的深度融合都将驱动业务能力转型升级。
3、受政策驱动和需求催化,2022年数据标注市场规模达50.8亿元
数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。
资料来源:观研天下整理
观研天下分析师观点:人工智能是当前的风口,数据标注是人工智能产业的基础,换句说,数据标注是普通人离人工智能最近的一个产业链,而且AI的未来就是数据到模型的无缝输出,因此行业在未来会有非常确定性的表现。
4、现阶段计算机视觉(CV)仍占据主流, NLP有待场景需求拉动
数据显示,当前AI训练数据标注需求仍以语音和计算机视觉为主,需求占比分别为 45.3%、40.5%,而自然语言处理(NLP)需求不足15%。从技术角度看,计算机视觉(CV)研究的是模仿或超越人类视觉能力的机器开发,训练这样的模型需要大量的带标注的图像、图片、和视频等视觉格式的数据,与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域;语音数据标注的目的在于对语音段中的各种属性加以辨认与标识,包括语音内容、噪声种类、周围环境、说话人信息、说话人情感等,从而帮助提升人工智能领域中语音研究方向的性能,技术难度较低。而自然语言处理(NLP)是里面的“硬骨头”,主要用于处理文本和音频数据,主要任务是教会机器人理解人类的日常交流。OCR技术是一个例外,它主要适用于文本图像。同时还有一些独立的数据标注任务,例如LiDAR使用激光测量距离,创建3D点云帮助算法来检测周围环境。
从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。
资料来源:观研天下整理
5、ChatGPT为国产数据标注厂商提供发展沃土,未来市场空间可期
在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。
资料来源:观研天下整理
与此同时,随着ChatGPT聊天机器人成为AIGC现象级应用,给上游国内数据标注厂商带来了“后跑发力”的机会。瑞银集团2月3日发布的报告显示,1月,ChatGPT平均每天约有1300万独立访客,是2022年12月的两倍。截至2023年1月末,ChatGPT月活用户已突破1亿,考虑到,训练ChatGPT模型需要使用高标准的人工标注数据,以及中文的文法和习惯与英文存在巨大差异,有望给数据标注类企业带来增量收入,预计未来5年内ChatGPT将带动数据标注产业的需求不断成长,未来国产厂商潜在的市场空间可期。
2022年数据标注公司排行
排行 | 公司 | 业务模式 |
1 | 云测数据 | 自建工厂 |
2 | 澳鹏appen | 众包 |
3 | Magic Data | - |
4 | 海天瑞声 | 自建工厂 |
5 | 数据堂 | 众包模式 |
6 | 科乐园 | 众包模式 |
7 | 龙猫数据 | 众包模式 |
8 | 曼孚科技MindFlow | - |
9 | 标贝科技 | 众包模式 |
10 | 慧听科技 | 自建工厂 |
11 | 37度数据 | 自建工厂 |
12 | 文德数慧 | 自建工厂 |
13 | 星尘数据 | 自建工厂 |
14 | 泛函科技 | 自建工厂 |
15 | 冰山数据 | 自建工厂 |
16 | 景联文 | 自建工厂 |
17 | 博菲数据 | - |
18 | 博登智能 | - |
19 | 元坤智能数据 | 自建工厂 |
20 | 未有科技 | - |
资料来源:《互联网周刊》、观研天下数据中心整理
观研天下分析师观点:虽然目前ChatGPT处于demo阶段,但业界形容它的诞生是人工智能时代的“iPhone时刻”,意味着人工智能迎来革命性转折点,未来其对数据标注的影响和推动作用是颠覆性的。
6、定制化、专业化、场景化将成为行业趋势
调研显示,当前数据标注领域平台和工具较为单一,特别是可供中小企业、个人开发者使用的开源、免费的标注工具,更是少之又少。此外,随着AIGC技术不断发展,传统标注工具难以满足多模态音视频数据标注,技术含量低的数据标注基础性的工作也在趋于减少,行业内产品和服务趋于同质化,竞争呈胶着状态,但多元化的场景在增加,行业的丰富性在增加,从机器人到现在涉及医疗、金融、语言、法律等领域对于数据标注的专业度要求更高,因此取而代之的是更偏情绪判断、考验理解能力甚至推理能力的数据标注任务。综合来看,未来需求方越来越多地青睐高质量的数据标注产品,供给方不断进步,参与者也是与日俱增,定制化、专业化、场景化将成为行业趋势。
观研天下分析师观点:当前数据标注行业的平台和工具设计考虑更多的是管理者,鲜少关注数据标注员的使用体验。此外,计件而非计时的计薪模式,也让许多数据标注平台没有动力在产品层面优化标注员的标注效率。未来行业内的企业可以考虑从数据标注员的体验入手对数据标注平台和工具进行优化。(LZC)
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。