Search the whole station

案例解读 | 某特种材料上市高新技术企业IT综合运维平台建设实践

项目背景
1.客户简介

案例客户是一家专业从事特种材料研发、生产和销售的国家级高新技术企业,是所属材料领域技术引领者、领先供应商,同时是上交所科创板上市企业。

2.痛点分析

随着业务量的迅猛增长,客户的信息化投资急剧上升,设备和系统种类繁多,使得运维工作变得日益复杂和压力重重。厂区的扩建和信息化投入的增加进一步加剧了运维的挑战,包括数据库死锁、系统频繁卡顿和网络故障等问题,这些问题不仅降低了生产效率,也增加了客户投诉。

随着设备老化,故障率上升,业务支撑系统面临的风险也在逐年增长。目前,公司尚未建立一个统一的运维监控平台,这导致了多个问题:IT运维部门无法提前识别和预防潜在故障,故障发生时难以及时发现,故障分析和处理缺乏有效的全栈监控工具,依赖人工逐层排查,效率不高。此外,故障排查后缺乏持续积累和可复用的知识记录,导致类似问题反复出现。

具体来说,该客户的运维痛点如下:

  • 在线资源庞大,故障发现滞后:运维复杂性持续增加、团队工作负荷持续加大,掌握的组件信息繁杂。
  • 日常重复工作多,工作繁重:大量的定期检查工作、保障工作几乎全部靠人力完成。
  • 运维工作成绩不彰显:没有可视化管理,整个系统健康状况存在于若干员工的脑海里;发现问题需更早一步,最好在在业务部门发现之前进行处理解决。
  • 缺乏实践知识:自己学习也无法得到最宝贵的实践经验,期望拥有优质的外部专家资源,协助解决工作中的难点痛点,并持续提升人员知识技能水平。

鉴于这些挑战,客户迫切需要一个全面的IT运维解决方案,以提升运维效率,确保业务系统的稳定运行,并全方位保障业务支撑系统的可靠性。
p333金沙贵宾会方案

为保障客户信息化系统更加完善,为运维人员提供有效帮助、更高效率实现运维工作。在现有信息化相关维护前提下,有必要建立一套针对信息化的监控平台,做到及早发现故障、提早判断预知故障及时处理,以及合理利用信息化基础资源,达到最大化资源使用,同时为信息化建设提供未来建设提供合理依据,使得业务系统信息化建设健康发展。

1.核心功能概览

结合客户现有信息化建设架构,建设统一监控平台部署内容如下:

1. 集中监控:包括从IT基础架构到业务系统的可用性、性能、日志等指标监控;

2. 集中告警:集中告警展示、告警分发、告警处理等全生命周期管理;

3. 可视化视图:可自动发现的网络拓扑、投屏视图、业务拓扑等可视化功能;

4. 多样性报表:支持自定义、多维度、多指标报表统计功能;

5. 大屏展示:大屏幕集中监控实现自定义展示页面;

6. 网络配置管理:自定义周期自动配置备份、配置一键下发、配置备份对比等功能;

7. IP管理:提供IP地址快速定位功能,支持查看IP状态、Mac地址、接入设备及端口信息。

8. 自动化运维:提供网络设备和操作系统的自动化运维模块;拥有脚本管理、版本管理、软件包管理、定时作业、批量下发等功能。

9. 告警分析:支持告警关联拓扑功能,实现故障影响范围分析,可快速打开包含该资源的拓扑界面。02系统架构

经了解,本次监控对象为包括涵盖了操作系统、网络设备、数据库、中间件、虚拟化、服务器、存储,总体监控对象在1000个以内。定义本次系统架构部署如下:

架构说明:

  • 可视化区
  1. 两台WEB服务器之间做高可用,使用 pcs 构建高可用集群方案;
  2. web 服务器通过数据库 VIP 获取数据展现;
  3. 通过web服务器来对监控对象进行管理;
  • 存储区
  1. 数据库服务器主节点和备节点实现流复制热备, 使用 pcs 构建高可用集群方案;
  • 处理区
  1. 两台采集服务器构建高可用集群方案,对接 N 台代理服务器;
  2. 采用高可用集群策略的时候,一台 采集服务器 down 掉后,会在极短的时间内自动切换到另一台 采集服务器,一定程度上保证数据处理的稳定性;down掉的主机恢复后,会自动加入到集群;
  3. 采集服务器管理采集代理服务器;
  • 采集区
  1. 两台采集代理服务器,使用 pcs 构建高可用集群方案;
  2. 采用高可用集群策略的时候,一台采集代理服务器 down 掉后,会在极短的时间内自动切换到另一台采集代理服务器;down掉的主机恢复后,会自动加入到集群;
  3. 采集代理服务器各自监控服务器互不干扰;
  4. 采集代理服务器的监控数据保存在本地 SQLlit上最终统一存储在主采集服务器的主数据库上并同步到备数据库上;
  5. 采集代理服务器与采集服务器之间只需要放通网络策略即可;
  6. 采集代理服务器支持压缩传输和加密传输;
  7. 采集代理服务器可扩展,针对不同域可以追加代理。

3.告警配置

完成监控对象纳管后,通过和客户沟通、培训,进一步确认相关监控阈值配置,即根据客户实际情况配置告警阈值,当监控指标达到阈值设置后,即触发告警。同时将不同阈值对应到不同告警级别,分别为紧急、严重、一般等常用级别。

4.大屏展示配置

投屏展示通常可直观、简介的查看整个IT资源或某个业务的实际情况,经过和客户交流沟通后,确定本次创建如下:

5.故障自愈配置

故障自愈可以根据预设的规则,针对一些常见故障,自动触发相应的处理脚本脚本,降低人工干预成本,提高故障处理效率,保障系统稳定性。经过和客户交流沟通后,确定创建以下故障自愈场景:

客户收益

  • 提升运维效率:通过自动化运维工具和智能运维服务,减少人工干预,提高运维工作的效率和响应速度。
  • 降低运营成本:利用智能分析和预测,优化资源配置和系统运行,减少不必要的开支,实现成本效益最大化。
  • 增强业务连续性:通过统一的监控和管理,确保业务流程的顺畅,减少因系统故障导致的业务中断。
  • 改善用户体验:实时监控和快速响应机制能够保障服务的可用性和响应速度,从而提升最终用户的满意度。
  • 提高系统稳定性:通过指标采集和分析,及时发现并解决系统潜在的问题,增强系统的稳定性和可靠性。
  • 实现故障自愈:通过配置自动化脚本和自愈规则,系统能够在检测到问题时自动进行修复,减少故障影响时间。
  • 提升运维团队能力:通过统一的运维管理平台,提升运维团队对复杂IT环境的掌控能力,降低运维工作的复杂性。
  • 知识积累与传承:通过记录和分析故障处理过程,积累经验,形成知识库,为未来类似问题的解决提供参考。
  • 业务和IT的紧密结合:通过业务拓扑和业务服务的监控,实现业务和IT运维的紧密结合,确保业务目标的达成。
  • 提升竞争力:通过优化IT基础设施和运维流程,提高企业整体的运营效率和市场竞争力。

这些收益将帮助该客户在面对快速变化的市场和技术环境时,保持竞争力,实现可持续发展。

p333金沙贵宾会社区已经永久开放p333金沙贵宾会监控免费版p333金沙贵宾会MCM免费版(CMDB+监控),欢迎下载使用!

The prev: The next:

Related recommendations

Expand more!
XML 地图