一、IT智能运维行业概况
根据观研报告网发布的《中国IT智能运维行业发展趋势分析与投资前景研究报告(2022-2029年)》显示,IT运维是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT软硬运行环境、IT业务系统和IT运维人员进行的综合管理。回顾发展历程,IT运维分为手工运维、自动运维和智能运维。
在IT建设的深入和完善下计算机硬软件系统运行维护的市场需求爆发,手工运维在效率、成本及经验沉淀方面的问题逐渐暴露出来。手工运维方式主要以“人”为本,发现问题和解决问题的效率都不够高,原有的流程和经验没有办法覆盖所有问题,IT运维进入2.0自动运维时代。
自动运维利用工具部分替代了人的操作,实现了大规模和批量化的操作,比如说利用脚本来实现对系统监控、发布部署等等。目前企业内应用以自动运维为主,但自动运维的本质依然是人与自动化工具相结合的运维模式,人工决策与实施是运维的主要驱动力,受限于人类自身的生理极限以及认识的局限,无法持续地面向大规模、高复杂性的系统提供高质量的运维服务,智能运维的重要性逐渐显现。
智能运维(AIOps)主要依靠人工智能技术对运维管理对象的海量的运维大数据进行建模分析,如日志、监控信息、应用信息等进行提炼和规律总结,包含了发现问题+分析问题+解决问题的全流程,是智能化的,自动化的。数字化业务要求IT运维提供更快的响应速度和更高的处理效率,因此AIOps智能运维平台需要提供的服务包括提供独立、开放的历史/实时数据采集、算法分析平台,整合IT数据和业务指标数据;提供告警消噪(包括告警抑制、告警收敛等),消除误报或冗余事件;提供跨系统追踪和关联分析,有效进行故障的根因分析;设定动态基线捕获超出静态阈值的异常,实现单/多指标异常检测;根据机器学习结果,预测未来事件,防止潜在的故障;直接或通过集成启动解决问题的动作。
IT运维发展历程
类别 | 手工运维 | 自动化运维 | 智能运维 |
运维效率 | 受限于人为因素,运维效率较低 | 部分操作自动化后。运维效率较高 | 自动分析处理事件,将多种自动化工具实现联动,运维效率高 |
系统可用性 | 手工运维时处理异常效率低。系统可用性相对较低 | 得益于自动化工具,异常处理与恢复速度较快,系统可用性相对较高 | 采用智能分析、预警、决策等手段,异常处理效率高,甚至可规避异常,系统可用性高 |
系统可靠性 | 手工运维时系统的可靠性较低 | 将重复性操作实现为自动化工具,采用自动化运维时系统可靠性较高 | 结合自动化工具,并采用多种策略使用工具,高可书性 |
学习成本 | 需掌握多个系统的运维知识和操作指令,学习难度高、成本高 | 需对自动化工具有一定掌握,学习难度较高、版本较高 | 故障分析、预警及异常处理可由智能运维自动实现学习难度与咸本低 |
建设与使用成本 | 建设运维的的工具成本低,可采用自带的运维命令。但对复杂系统的运维需投入大量的人力,人力成本高 | 建设自动化运维的本较高,投入运维的人力版本则相对较低 | 智能运维的建设成本较高,投入运维的人力成本低 |
资料来源:观研天下整理
二、IT智能运维行业现状
当前进入信息化时代和大数据新纪元,数据繁多且维度复杂,IT智能运维将运维数据可视化,并提供分析决策,将逐渐取代人工运维和自动运维。此外,得益于人工智能技术的日渐精进和机器分析自判的能力逐步加强,AIOps应用前景广阔,目前电信、金融、政府等领域走在了AIOps应用前列。
电信领域是IT智能运维的典型应用场景。2G/3G/4G/5G共生,多域并存,使得网络的运营维护复杂度和资本呈现几何级增长。为了提升服务能力和信息化水平,运营商需要打造基于内部数据、计算能力和业务场景的各类服务和应用,提升业务竞争力;加速AI技术的引入和AI平台的打造,不断提升AI能力和产品覆盖水平;在用户端要积极布局AI入口,包括智能终端、智能网关等产品;在网络侧要打造网络运维大脑,提升面向下一代网络的智能运维能力;在应用侧要注重场景驱动,探索能力开放运营和生态合作,积极切入智能家居、智慧城市等垂直领域,推动AI变现。
例如中国移动宣布启动“云改”战略已有四年。当前,中国移动核心系统全部云化、容器化,并按照云原生的开发和运维模式,实现敏捷开发和智能运维。
金融领域是第二大应用领域。随着金融机构IT基础架构日益庞杂以及云计算、大数据、移动互联等新技术的出现给金融领域运维管理带来更大的困难和挑战。IT智能运维能做到提前预警,有效减少金融体系交易中出现的小故障,避免造成较大的经济损失。因此如何高效地进行大规模系统运维,成为金融行业数据中心思考的重要问题。
如交通银行通过数据中心运维大数据平台的建设,将各类日志、告警等运维数据统一集中存储。通过关联分析、建模预测等方式发现日志、告警信息中潜在联系,并建设监控历史数据分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,实现了事前智能预警、事后快速定位故障。
中国银行初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,对系统日志、应用日志、监控数据和网络镜像包等全量数据进行集中存放和处理,并在异常检测、故障快速定位、系统容量预估和动态调配等多个场景中应用。
太平洋保险在智能运维方面实现了告警收敛,将多个告警做汇聚合并和主源分析,还开展了云脑项目以实现业务趋势预测和容量管理功能,还开发点点2.0APP,实现风险监测和智能交互等功能。
阳光保险利用大数据和机器学习,实现了智能巡检、报警聚合、故障自愈及故障避免、自动发版与止损等多项功能。
招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。
此外,政府方面对IT智能运维也存在较大需求。数字政务建设是“数字中国”建设的重要内容之一,加快数字政务建设成为各级政府单位适应数字社会发展趋势、提高政府履职能力的必然选择。随着我国政府信息化建设的不断深化,运行在网络系统上的各种业务系统也越来越多,对IT系统的依赖程度也越来越深。如何对IT系统进行有效管理和维护直接关系到政府的日常工作和业务开展能否稳定、可靠、有序的进行,因此,对于政府领域来说,保障业务健康运行的智能运维系统变得愈发重要。
随着下游渗透率的逐步提高,我国IT智能运维规模将持续扩大。数据显示,2016-2020年我国IT智能运维市场规模由269.3亿元增长至560.8亿元。预计2025年我国IT智能运维市场规模将达到1093.5亿元。
数据来源:观研天下数据中心整理
良好前景下AIOps得到资本市场的注意。2016年-2017年间,多家智能运维公司在此期间创业或传统IT运维厂商转型,并且获得融资。例如成立于2004年的鼎茂科技在2016年进入AIOps领域,2020年、2021年连续获得两轮融资。2021年IT运维行业相关融资事件共有25起,融资金额约为57.7亿元,金额达到历史高峰。
数据来源:观研天下数据中心整理
总体上来说,国内IT智能运维行业处于一个高速发展,投资火热的阶段。
三、IT智能运维行业竞争
国内IT智能运维行业主要有三类玩家:一是以擎创科技、云智慧、日志易、听云、西骏数据等为代表的创业公司,二是以外包和项目为主的传统IT技术公司,三是基于阿里、腾讯、百度、头条、美团、滴滴等互联网大厂研发的产品线,主要搭建自己的AIOps平台,进而实现对自身业务的精细化管理。
传统IT技术公司已积累多年优势,目前占据我国IT智能运维主要市场。以联想为例,联想运维服务提供丰富产品组合,包括传统企业IT服务、应用系统服务、资产管理服务及专业人力外包、巡检服务等。同时,联想采用订阅制收费模式,结合硬件、软件及服务打包出售,根据客户使用量收费,使得企业客户可以在运维服务方面灵活投入。在终端运维市场,联想行业客户积累广泛,涵盖IT和互联网行业、金融行业、制造行业等,已经连续7年成为市场第一。
资料来源:公开资料整理
创业公司发展空间较大。从美国市场经验来看,美国本身有很多IT领域的巨头,但近些年像IBM、CA、bmc、ORACLE这些行业头部企业在智能运维领域的市场份额逐年萎缩,竞争力尚不及创业公司,这说明了IT智能运维的落地具有较高的技术壁垒,并不是一个巨头通吃的行业。
资料来源:观研天下整理
近几年随着IT投入在企业中占比逐年增长,国内敏锐的创业公司和投资机构已经快速布局该领域,并且发展迅速。其中云智慧是在业内首家提出“智能业务运维”理念的公司。云智慧依托自身运维产品和服务模式,一度战胜了国际大厂的竞争对手。擎创科技主要做指标数据、调用链数据、日志数据,把这三种数据放在一个all in one的平台里,以业务为视角对它进行融合的处理,然后达到运维的可观测性。日志易在2020年初推出了基于日志、指标数据、调用链追踪的可观察性产品“观察易”,并把机器学习算法用于可观察性分析。有数据做支撑,场景算法可以不断地衍生进化,日志易SPL也提供了几十种经典机器学习算法做更灵活的分析探索。
IT智能运维创业公司布局情况
企业名称 | 布局情况 |
云智慧 | 在数据层面,云智慧早已洞察到AIOps将对系统的实时数据采集、存储和分析能力的要求越来越高,团队认为要解决的第一件事就是构建企业数据中心。即AIOps要想落地,在贯穿检测、分析、发现(告警)、处置四大环节之中,先要解决数据的收集问题,之后才基于客户实际应用场景,解决实际业务问题,有效地提升IT运维效率。在统一监管、管理平台方面,云智慧率先构筑了“全栈”、“全场景”及“全行业”的三大优势,构建了贯穿数字化系统从IT咨询、运维建设、工具和服务的产品矩阵,形成了面向运维全生命周期的解决方案;涵盖ITSM、ITOM、ITOA、AIOps等多个领域。 |
擎创科技 | 擎创科技发展方向与Datadog比较趋近,主要做指标数据、调用链数据、日志数据,把这三种数据放在一个 all in one的平台里,以业务为视角对它进行融合的处理,然后达到运维的可观测性。公司相比Datadog不同之处是,前者会对这三类支柱数据产生的告警进行实时智能分析和处理,同时利用配置关系数据,起到迅速降低告警噪音,大幅提高应急处置效率的功效,所以擎创科技比对Datadog的数据处理类别更广一些,但是方式方法趋同,目标也是趋同的。 |
听云 | 听云总裁赵宇辰指出数据收集和管理是大趋势,之前有人只做前端的监控,有人只做后端的监控,但这两个数据是割裂的,并不能联动起来,但客户更希望有一个整体的解决方案,所以听云做了端到端全站打通的形态。现在听云在为一些客户做试点,希望把客户各种各样的内部运维数据、IT数据汇聚到一起,同时数据之间的关联性建立起来,这样分析起来才更有意义。 |
日志易 | 日志易有一个数据工厂,专门做数据治理。日志易在2020年初推出了基于日志、指标数据、调用链追踪的可观察性产品“观察易”,并把机器学习算法用于可观察性分析。有数据做支撑,场景算法可以不断地衍生进化,日志易SPL也提供了几十种经典机器学习算法做更灵活的分析探索。日志易的特点是,自主研发了国内首个高性能高可用性的日志搜索引擎Beaver,每天可处理PB级日志,相比通用开源搜索引擎来说,Beaver性能提升了10倍且硬件成本降低了50%。此外,日志易自研的低代码编程语言SPL(Search Processing Language)已实现了300多个函数及指令,全面覆盖智能运维分析和安全分析工作需求,对接了后台几十种机器学习算法,实现了智能运维AIOps。 |
西骏数据 | 西骏数据的AIOps是赋能平台,帮助客户更好地使用原来的监控系统、日志分析系统,把分析结果给原来的监控系统分享过去,让客户的监控工具更安全和智能。与原来的系统变成一种共生关系,而不是替代的关系。 |
资料来源:观研天下整理(zlj)
四、IT智能运维行业总结
在数字化大趋势下,IT运维本身的复杂度在不断提升,IT智能运维的发展是必然趋势。相比手工运维、自动运维,IT智能运维的发展阶段比较早,未来提升渗透率的空间比较大,将是一片蓝海市场。但无论是手工运维、自动运维还是智能运维,本身的可验证性需求非常强,只有真正帮客户解决问题,才能得到认可,最终这个市场还是需要靠口碑进一步做大,经过5~10年的充分竞争之后,智能运维市场格局将趋于稳定。
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。