一、智能运维优势明显,可解决传统技术系统运维模式面临的难题
智能运维是指通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。
根据观研报告网发布的《中国智能运维行业发展现状分析与投资趋势预测报告(2023-2030年)》显示,早期的IT运维工作大部分是由运维人员手工完成,这种运维模式不仅低效,也消耗了大量的人力资源。利用工具来实现大规模和批量化的自动化IT运维,能极大地减少了人力成本,降低了操作风险,提高了运维效率。但是自动化运维的本质依然是人与自动化工具相结合的运维模式,受限于人类自身的生理极限以及认识的局限,无法持续地面向大规模、高复杂性的系统提供高质量的运维服务。
智能运维最早由Gartner提出,它是将人工智能科技融入运维系统中,以大数据和机器学习为基础,从多种数据源中采集海量数据(包括日志、业务数据、系统数据等)进行实时或离线分析,通过主动性、人性化和动态可视化,增强传统运维的能力。智能运维能快速分析处理海量数据,并得出有效的运维决策,执行自动化脚本以实现对系统的整体运维,能有效运维大规模系统,解决传统技术系统运维模式的面临的难题。当前主流运维技术已从自动化运维向智能运维发展。
资料来源:观研天下整理
手工运维、自动运维、智能运维模式对比
维度 | 手工运维 | 自动化运维 | 智能运维 |
运维效率 | 受限于人为因素,运维效率较低 | 部分操作自动化后.运维效率较高 | 自动分析处理事件.将多种自动化工具实现联动,运维效率高 |
系统可用性 | 手工运维时处理异常效率低,系统可用性相对较低 | 得益于自动化工具,异常处理与恢复速度较快,系统可用性相对较高 | 采用智能分析、预警、决策等手段,异常处理效率高,甚至可规避异常,系统可用性高 |
系统可靠性 | 手工运维时系统的可靠性较低 | 将重复性操作实现为自动化工具,采用自动化运维时系统可靠性较高 | 结合自动化工具.并采眵种策略使用工具.可靠性高 |
学习成本 | 需掌握多个系统的运维知识利和操作指令,学习难度高、成本高 | 需对自动化工具有一定掌握,学习难度较高、成本较高 | 故障分析、预警及异常处理可由智能运维自动实现,学习难度低、成本低 |
建设与使用成本 | 建设运维的工具成本低。可采用系统自带的运维命令,但对复杂系统的运维需投入大量的人力,人力成本高 | 建设自动化运维的成本较高.投入运维的人力成本则相对较低 | 建设智能运维的成本较高,投入运维的人力成本低 |
应用范围 | 运维基础手段,应用广泛,但不适用于分布式、大规模系统运维 | 在互联网企业金融行业得到广泛应用,适用于集群系统、服务器数量一般的分布式系统运维 | 新技术,目前有部分金融企业互联网企业开展研究与实践,适用于大规模分布式系统运维 |
资料来源:观研天下整理
二、智能运维国内外关注度持续提高
当前智能运维研究与应用在国内外各行业中都属于起步阶段,但在高利润、低成本的驱动下,智能运维已经成为科研机构研究的热点。如卡内基梅隆大学与Netflix公司合作,在网络视频运维领域提出并应用多种人工智能方法:利用不同数据分析及统计分析方法,灵活使用可视化、相关分析、信息熵增益等工具,将杂乱无章数据转化为直观清晰信息,从而分析海量数据背后视频体验不佳的规律和瓶颈。
随着金融、运营商、政府、互联网、制造、能源等下游市场需求增长,国内对智能运维关注度也不断提升。如南京大学周志华教授团队提出的isolation forest孤立森林算法可用于挖掘异常数据,检测和分析异常。清华大学NetMan智能运维实验室则专注于异常检测、分析与预测,提出了多种算法和工具。阿里巴巴研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。
数据来源:观研天下数据中心整理
国内外智能运维研究与应用情况
研究主体 | 研究情况 |
卡内基梅隆大学与Netflix公司合作 | 在网络视频运维领域提出并应用多种人工智能方法:利用不同数据分析及统计分析方法,灵活使用可视化、相关分析、信息熵增益等工具,将杂乱无章数据转化为直观清晰信息,从而分析海量数据背后视频体验不佳的规律和瓶颈。双方共同设计了视频传输智能优化方案,可根据客户的网络状态,动态地优化视频传输;通过决策树模型建立用户参与度的预测模型,指导关键性能指标的优化策略,改善用户的体验质量。 |
南京大学周志华教授团队 | 专注于机器学习算法的研究,所提出的isolation forest孤立森林算法可用于挖掘异常数据,检测和分析异常。该方法已经在360公司系统运维中用以实时检测异常,腾讯公司也将其用于检测微信中的异常点击。 |
清华大学NetMan智能运维实验室 | 专注于异常检测、分析与预测,提出了多种算法和工具。该团队目前已经和交通银行、阿里巴巴、IBM等多家机构开展合作,实现了产学研相结合。 |
阿里巴巴 | 研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。通过时间序列分析和机器学习,对未来一段时间的业务指标趋势进行预测。针对业务异常时间,自动调用各类型AP接口实现一键切换,快速恢复业务异常。并针对业务异常事件自动拆解相关维度,逐层剥离定位故障原因。目前该平台已经在阿里云上成功实践,故障发现准确率、故障发现召回率分别提升到80%和90%,每周节省因为误报而花费的操作时间约为29小时。 |
百度 | 实现了基于智能流量调度的单机房故障自愈能力,将止损过程划分为统一的感知、决策、执行三个阶段,通过策略框架支持智能化异常检测、策略编排、流量调度,实现了单机房故障自愈能力。 |
京东金融 | 实现了基于网络拓扑的根源告警分析,结合调用链,通过时间相关性、权重、关联规则算法、神经网络算法等,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数据化管理和高效利用。 |
腾讯 | 在其织云监控平台中建设了基于机器学习的时间序列异常检测方案,在百万条基于时间序列的日志信息中,以少量的时间实现了异常检测。 |
交通银行 | 通过数据中心运维大数据平台的建设,将各类日志、告警等运维数据统一集中存储。通过关联分析、建模预测等方式发现日志、告警信息中潜在联系,并建设监控历史数据分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,实现了事前智能预警、事后快速定位故障。 |
中国银行 | 初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,对系统日志、应用日志、监控数据和网络镜像包等全量数据进行集中存放和处理,并在异常检测、故障快速定位、系统容量预估和动态调配等多个场景中应用。 |
太平洋保险 | 在智能运维方面实现了告警收敛,将多个告警做汇聚合并和主源分析,还开展了云脑项目以实现业务趋势预测和容量管理功能,还开发点点2.0 APP,实现风险监测和智能交互等功能。 |
阳光保险 | 利用大数据和机器学习,实现了智能巡检、报警聚合、故障自愈及故障避免、自动发版与止损等多项功能。招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。 |
上海银行 | 张江数据中心启用了智能巡检机器人,对设备运行状态、机房环境、机柜微环境实时监测,保证数据中心状态实时可视、可控及数据的准确性。 |
资料来源:观研天下整理
三、我国智能运维市场规模快速增长,其中平台市场份额较高
随着用户运维理念的不断刷新,运维新模式、新场景不断面世并落地投产,我国智能运维市场规模快速增长。数据显示,2019-2021年我国智能运维行业市场规模由425亿元增长至782亿元,2022年我国智能运维行业市场规模约达1058亿元,较上年同比增长35.29%。
数据来源:观研天下数据中心整理
从市场结构看,智能运维产品路线主要分为智能运维平台和智能运维工具。其中智能运维平台占比较高,2021年超6成,智能运维工具占比39.4%。
数据来源:观研天下数据中心整理
四、智能运维行业集中度低,以硬件起家的厂商占据较大市场
从行业竞争看,我国智能运维行业参与者众多,市场集中度低,2021年CR3为18.4%,CR5为22.7%,CR10为27.6%。其中华为、浪潮云、联想等以硬件起家的厂商占据较大市场,2021年市场份额分别为8.3%、6.9%、3.2%。
数据来源:观研天下数据中心整理(zlj)
【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。