新闻资讯

服务器智能运维系统能真正的解放运维工程师吗? 上篇

随着互联网、5G、物联网等技术的快速发展,全球大型数据中心数量将以3.6%的综合年增长率增长,数据中心规模将继续扩大,数据中心服务器规模已达到10万台。这不仅需要更多的运营工程师,增加了公司的运营成本,但也给操作工程师带来了很大的困难和挑战。服务器智能运维系统能够实现以下内容吗?如何快速发现异常设备?例外的主要原因是什么?我可以自己修复这个错误吗?你能预测错误吗?性能趋势是什么?你是怎么决定的?

服务器智能运维系统

服务器智能运维系统发展史

经营发展史:人工经营、自动化经营、智能化经营

大多数初始运维工作由运维工程师手动完成,称为“人肉运维”。工作和维护技术人员每天用肉眼检查服务器的运行状态,以发现并解决问题。自动化运维技术的出现,大大提高了设备异常检测的效率,降低了运维成本。然而,考虑到故障原因、误差预测、性能趋势和控制决策,自动化运维人员并不满意。

Gartner于2016年提出了IT运营人工智能的概念。预计智能运维流程的采用率将达到2020%。从服务器操作的角度分析了服务器的智能操作。其目标是收集带外信息(配置信息、状态信息、性能信息、日志等)和磁带信息(配置参数、性能信息和日志等)。通过机器学习解决操作问题,提高系统报警功能和稳定性,降低操作成本,提高操作效率。

服务器智能运维系统--快速检测异常和准确报警问题


服务器智能运维系统

      在服务器运行和维护中,异常检测非常重要。监控数据有三种常见类型:状态指示器、性能指示器和日志数据。状态指示器通常很少出现误报。然而,传统性能指标的阈值设置通常会在某个时间点产生噪声数据和误报。定期更改的数据无法进行动态调整,并且经常出现错误警报,这大大降低了警报的准确性。日志通常是半结构化数据。根据协议级别生成警报。它们的精度很低,只能检测出已知模式的异常。

Wave服务器智能操作不需要阈值警报或手动阈值设置。经过降噪、降维、方差等时间序列数据处理后,可以通过神经网络、LSTM、随机结构等算法进行动态学习,实现监测性能指标,自动、实时、准确地识别异常数据。在日志处理方面,通过训练或维护单个日志语义识别和日志文件时间识别、自然语言、专家系统、神经网络、深度学习等算法,实现日志异常的准确检测。