咨询热线

400-007-6266

010-86223221

数据标注行业分析:“AI+RPA”双驱动助力行业升级 ChatGPT为国产化提供成长沃土

1、数据标注行业定义、分类及特点

数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注。

数据标注按数据类型分类

分类 介绍
图像标注 图像标注是将标签附加到图像上的过程,可以是给整个图像添加一个标签,也可以是给图像中的每一组像素分别添加多个标签,又可以细分为拉框标注、语义分割、关键点标注、3D点云等类型。常见的图像标注应用领域包括人脸识别、智能医学影像处理、自动驾驶等;
文本标注 文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,标注好的数据可以用于让机器学习文本中含有的意图或情感,使机器可以更加深入理解人类语言。 文本标注可以细分为实体标注、关系标注、情感标注、问答标注等类型,常见的应用领域包括智能客服、智能病历等;
语音标注 语音标注:语音标注是把语音中包含的文字信息、各种声音标记提取出来,再进行转写或者合成的过程。人工智能通过学习这些标注后的数据,从而具备“听力”,使计算机可以实现精准的语音识别能力,语音标注可以细分为语音切割、声纹识别、音素标注、情绪标注等类型,常见的应用领域包括智能语音转写、智能语音合成等。

资料来源:观研天下数据中心整理

根据观研报告网发布的《中国数据标注行业现状深度分析与投资趋势研究报告(2023-2030年)》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。

根据观研报告网发布的《》显示,从行业特点来看,数据标注既是智力密集型行业,也是劳动密集型行业,具有岗位需求大、用工门槛低、比较优势强、制约因素少等特点,与传统的互联网行业相比,数据标注不涉及高端的产业了解及智能操作,行业门槛更低;从行业地位来看,数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。

资料来源:观研天下整理

2、“AI+RPA”双驱动助力数据标注服务升级

过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。

过去,机器学习的效率是很低的,人工智能可以办到的事情也不多,非常多数据的标注需要依托人工进行,随着AI数据服务行业迈向场景化与复杂化,实际业务场景中大量的数据只有在经过处理之后才能被用于部署、训练以及调试对应的机器学习或深度学习模型,以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求,数据标注行业开始不断自我演进。根据 AI 分析公司 Cognilytica 研究数据显示,在 AI 项目中,对数据相关的处理过程可占据超过 80%的时间,其中数据标注环节的耗时占比可达 25%。当前行业的典型代表企业有曼孚科技、海天瑞声、龙猫和星尘数据等。

资料来源:Cognilytica、观研天下整理

此外,考虑到传统企业在数字化转型之路有很多历史遗留问题,如各种老旧信息化系统的存在,以及流程、人员因素等拖累了企业的数字化转型步伐,大量人力资源浪费在简单重复的低附加值工作之中,限制了员工创新能力。如何突破这种困境成为不少企业面临的问题。当前借助AI+RPA技术的产品来解决繁杂的流水线式的重复劳动,而把更具创造力的流程设计工作交给人来完成,这样人机协同的模式已经成为大势所趋。例如:云扩Spark就是一款结合AI+RPA技术工具,业务人员可以通过完整的在线工具箱去发现和梳理日常工作中重复的业务流程,轻松找到自动化的机会点。同时,云扩Spark还能提供清晰的可自动化的流程评估和ROI计算,让业务人员在RPA落地的过程中掌握自动化的主动权。最后,我们认为,未来RPA天然的超强粘合能力很有可能成为引领企业智能AI科技的排头兵,OCR、Chatbot、NLP、语音识别、智能决策等相关技术的深度融合都将驱动业务能力转型升级。

3、受政策驱动和需求催化,2022年数据标注市场规模达50.8亿元

数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。

数据显示,2022年中国数据标注市场总规模达50.8亿元,较2021年增长17.3%,CAGR(2022-2029)达%22%,虽然过去三年里绝大多数行业受到疫情的影响发展进入了“停滞期”,但进入稳步落地阶段的人工智能行业却在疫情期间发挥了重大的作用,而作为人工智能重要的驱动力之一,数据标注产业在人工智能发展的大潮中悄然成为了新兴行业的翘楚,行业规模整体稳步增长,由多方面因素促成:1)AI 行业应用场景延伸及模型迭代,带来增量数据需求;2)在多方面市场利好的驱动下,国内数据标注厂商厚积薄发,产品和技术在实践中不断打磨,走向成熟;3)数据标注利好,国家为产业发展提供“真金白银”的政策支持;4)国内用户对提供数据标注解决方案、定制化开发、技术支持等专业数据标注服务的付费意愿逐年提升。

资料来源:观研天下整理

观研天下分析师观点:人工智能是当前的风口,数据标注是人工智能产业的基础,换句说,数据标注是普通人离人工智能最近的一个产业链,而且AI的未来就是数据到模型的无缝输出,因此行业在未来会有非常确定性的表现。

4、现阶段计算机视觉(CV)仍占据主流, NLP有待场景需求拉动

数据显示,当前AI训练数据标注需求仍以语音和计算机视觉为主,需求占比分别为 45.3%、40.5%,而自然语言处理(NLP)需求不足15%。从技术角度看,计算机视觉(CV)研究的是模仿或超越人类视觉能力的机器开发,训练这样的模型需要大量的带标注的图像、图片、和视频等视觉格式的数据,与文本、语音等数据类型相比,计算机视觉CV数据的维度很多,可以说是数据品类最复杂的一个领域;语音数据标注的目的在于对语音段中的各种属性加以辨认与标识,包括语音内容、噪声种类、周围环境、说话人信息、说话人情感等,从而帮助提升人工智能领域中语音研究方向的性能,技术难度较低。而自然语言处理(NLP)是里面的“硬骨头”,主要用于处理文本和音频数据,主要任务是教会机器人理解人类的日常交流。OCR技术是一个例外,它主要适用于文本图像。同时还有一些独立的数据标注任务,例如LiDAR使用激光测量距离,创建3D点云帮助算法来检测周围环境。

从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。

从应用角度看,计算机视觉是目前最热门的人工智能项目之一,应用于开发自动驾驶模型、手机面部识别和情感识别等,但当前计算机视觉CV技术的同质化现象严重,考虑到AI数据产业正在向着高专业化、高质量化的方向蓬勃发展,需要源源不断地输入高质量的标注数据,而AI商业化对NLP数据的要求还在继续提高且NLP本身相对CV在AI数据方面的要求就更复杂,观研天下认为未来数据标注的发展一定是由自然语言处理(NLP)业务场景的需求拉动。

资料来源:观研天下整理

5、ChatGPT为国产数据标注厂商提供发展沃土,未来市场空间可期

在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。

在国内数据标注市场,传统的数据标注有两类玩家,按参与模式主要分为众包和自建工厂两种模式:其一,以百度众包、京东众智、龙猫数据为代表的众包模式厂商;其二,以贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、为代表的自建工厂厂商。从市场供给来看,当前第三方服务商提供了整体数据标注市场79%的服务,企业自建只占21%。这反映出当前国内数据标注行业仍处在高速发展、粗放竞争的初级阶段,市场上可见的针对数据处理的软件较少,国产化需求高。

资料来源:观研天下整理

与此同时,随着ChatGPT聊天机器人成为AIGC现象级应用,给上游国内数据标注厂商带来了“后跑发力”的机会。瑞银集团2月3日发布的报告显示,1月,ChatGPT平均每天约有1300万独立访客,是2022年12月的两倍。截至2023年1月末,ChatGPT月活用户已突破1亿,考虑到,训练ChatGPT模型需要使用高标准的人工标注数据,以及中文的文法和习惯与英文存在巨大差异,有望给数据标注类企业带来增量收入,预计未来5年内ChatGPT将带动数据标注产业的需求不断成长,未来国产厂商潜在的市场空间可期。

2022年数据标注公司排行

排行 公司 业务模式
1 云测数据 自建工厂
2 澳鹏appen 众包
3 Magic Data -
4 海天瑞声 自建工厂
5 数据堂 众包模式
6 科乐园 众包模式
7 龙猫数据 众包模式
8 曼孚科技MindFlow -
9 标贝科技 众包模式
10 慧听科技 自建工厂
11 37度数据 自建工厂
12 文德数慧 自建工厂
13 星尘数据 自建工厂
14 泛函科技 自建工厂
15 冰山数据 自建工厂
16 景联文 自建工厂
17 博菲数据 -
18 博登智能 -
19 元坤智能数据 自建工厂
20 未有科技 -

资料来源:《互联网周刊》、观研天下数据中心整理

观研天下分析师观点:虽然目前ChatGPT处于demo阶段,但业界形容它的诞生是人工智能时代的“iPhone时刻”,意味着人工智能迎来革命性转折点,未来其对数据标注的影响和推动作用是颠覆性的。

6、定制化、专业化、场景化将成为行业趋势

调研显示,当前数据标注领域平台和工具较为单一,特别是可供中小企业、个人开发者使用的开源、免费的标注工具,更是少之又少。此外,随着AIGC技术不断发展,传统标注工具难以满足多模态音视频数据标注,技术含量低的数据标注基础性的工作也在趋于减少,行业内产品和服务趋于同质化,竞争呈胶着状态,但多元化的场景在增加,行业的丰富性在增加,从机器人到现在涉及医疗、金融、语言、法律等领域对于数据标注的专业度要求更高,因此取而代之的是更偏情绪判断、考验理解能力甚至推理能力的数据标注任务。综合来看,未来需求方越来越多地青睐高质量的数据标注产品,供给方不断进步,参与者也是与日俱增,定制化、专业化、场景化将成为行业趋势。

观研天下分析师观点:当前数据标注行业的平台和工具设计考虑更多的是管理者,鲜少关注数据标注员的使用体验。此外,计件而非计时的计薪模式,也让许多数据标注平台没有动力在产品层面优化标注员的标注效率。未来行业内的企业可以考虑从数据标注员的体验入手对数据标注平台和工具进行优化。(LZC

更多好文每日分享,欢迎关注公众号

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。

我国算力行业现状及前景分析:供需匹配度提升空间大 大数据市场价值有待挖掘

我国算力行业现状及前景分析:供需匹配度提升空间大 大数据市场价值有待挖掘

从区域市场来看,受我国数据中心建设投资的影响,我国算力行业区域市场主要集中在华东、华南和华北地区。2024年上半年我国算力行业区域市场规模分布华东地区占比37.63%,华中占比9.18%,华南占比16.81%,华北地区占比18.53%,东北地区占比2.56%,西南地区占比11.67%,西北地区占比3.62%。

2024年11月04日
小游戏异军突起成为手游细分新贵 蓝海市场下行业尚未出现垄断性龙头公司

小游戏异军突起成为手游细分新贵 蓝海市场下行业尚未出现垄断性龙头公司

国内小游戏平台最大的当属微信小程序游戏平台。微信小游戏平台诞生于2017年的《跳一跳》,并在2018年开放接入,目前已有接近40万开发者,2023年小游戏规模同比增长超50%,超100个团队季度流水超千万元。

2024年09月13日
我国智算中心建设加速 目前市场正面临应用多元化、供需不平衡挑战

我国智算中心建设加速 目前市场正面临应用多元化、供需不平衡挑战

目前政府、运营商、互联网企业等积极布局智算中心,中国移动正在规划建设亚洲最大的智算中心。各级政府、运营商、互联网企业也纷纷开启智算中心建设计划,目前已有超过40座城市布局智算中心。在行业下游需求驱动和政策持续引领下,智算中心行业市场规模持续扩大,2023年达到1466亿元。

2024年08月09日
新兴技术带来新增长点 技术创新成我国互联网软件开发行业发展核心驱动力

新兴技术带来新增长点 技术创新成我国互联网软件开发行业发展核心驱动力

随着云计算、人工智能、物联网等技术的不断发展,软件开发行业将面临更多的市场机遇,推动互联网软件开发行业市场规模不断扩大。截至2023年,我国互联网软件开发行业市场规模已经达到27805亿元,并且仍在不断增长。

2024年06月27日
我国光存储行业:产品优势逐步凸显 市场需求日益旺盛

我国光存储行业:产品优势逐步凸显 市场需求日益旺盛

根据《中国存力白皮书(2023年)》的统计数据,2022年我国的存储总规模继续增长,增速达到25%,总规模已经达到1000EB。2023年发布的《算力基础设施高质量发展行动计划》,也对存力规划给出目标,至2025年存储总量需超过1800EB, 其中先进存储容量占比超过30%,重点行业核心数据、重要数据灾备覆盖率达到10

2024年05月14日
我国数据标注行业:下游持续扩张带来可观发展前景 未来市场有望快速增长

我国数据标注行业:下游持续扩张带来可观发展前景 未来市场有望快速增长

近年来数据标注行业发展迅速,行业内涌现了大批量的中小企业,据统计截止2023年数据标准行业相关企业数达到1123家,呈现出井喷的趋势。未来,在大数据产业的不断发展下,预计数据标注相关企业数量将呈现不断增长趋势。

2024年03月08日
我国智算中心行业市场规模稳增长 政府、运营商、互联网企业等积极布局

我国智算中心行业市场规模稳增长 政府、运营商、互联网企业等积极布局

AI服务器能够提供人工智能数据服务,是算力基础设施之一。智能算力规模以AI服务器为基础,全球AI服务器市场规模不断上升,据IDC数据,2022年全球AI服务器销售额为183亿美元,同比增长17.3%。我国AI服务器销售额持续增长,2022年AI服务器销售额为523.5亿元,2018-2022年均复合增长率达17.7%。

2024年02月27日
我国数字经济行业:发展活力持续释放 产业数字化探索更加丰富多样

我国数字经济行业:发展活力持续释放 产业数字化探索更加丰富多样

2022 年我国数据产量达 8.1ZB,同比增长 22.7%,占全球数据总产量 10.5%,位居世界第二。截至 2022 年底,我国存力总规模超 1000EB,数据存储量达 724.5EB,同比增长 21.1%,占全球数据总存储量的 14.4%。

2024年02月27日
微信客服
微信客服二维码
微信扫码咨询客服
QQ客服
电话客服

咨询热线

400-007-6266
010-86223221
返回顶部