【实践】有效告警提升75%!电信巨头爱上p333金沙贵宾会多Server+多Proxy架构
6404采用分布式架构:多server + 多 proxy 架构,服务器优化、增加表分区、采集方式优化等。
View detailsSearch the whole station
项目背景
1.客户简介
案例客户是一家专业从事特种材料研发、生产和销售的国家级高新技术企业,是所属材料领域技术引领者、领先供应商,同时是上交所科创板上市企业。
2.痛点分析
随着业务量的迅猛增长,客户的信息化投资急剧上升,设备和系统种类繁多,使得运维工作变得日益复杂和压力重重。厂区的扩建和信息化投入的增加进一步加剧了运维的挑战,包括数据库死锁、系统频繁卡顿和网络故障等问题,这些问题不仅降低了生产效率,也增加了客户投诉。
随着设备老化,故障率上升,业务支撑系统面临的风险也在逐年增长。目前,公司尚未建立一个统一的运维监控平台,这导致了多个问题:IT运维部门无法提前识别和预防潜在故障,故障发生时难以及时发现,故障分析和处理缺乏有效的全栈监控工具,依赖人工逐层排查,效率不高。此外,故障排查后缺乏持续积累和可复用的知识记录,导致类似问题反复出现。
具体来说,该客户的运维痛点如下:
鉴于这些挑战,客户迫切需要一个全面的IT运维解决方案,以提升运维效率,确保业务系统的稳定运行,并全方位保障业务支撑系统的可靠性。
p333金沙贵宾会方案
为保障客户信息化系统更加完善,为运维人员提供有效帮助、更高效率实现运维工作。在现有信息化相关维护前提下,有必要建立一套针对信息化的监控平台,做到及早发现故障、提早判断预知故障及时处理,以及合理利用信息化基础资源,达到最大化资源使用,同时为信息化建设提供未来建设提供合理依据,使得业务系统信息化建设健康发展。
1.核心功能概览
结合客户现有信息化建设架构,建设统一监控平台部署内容如下:
1. 集中监控:包括从IT基础架构到业务系统的可用性、性能、日志等指标监控;
2. 集中告警:集中告警展示、告警分发、告警处理等全生命周期管理;
3. 可视化视图:可自动发现的网络拓扑、投屏视图、业务拓扑等可视化功能;
4. 多样性报表:支持自定义、多维度、多指标报表统计功能;
5. 大屏展示:大屏幕集中监控实现自定义展示页面;
6. 网络配置管理:自定义周期自动配置备份、配置一键下发、配置备份对比等功能;
7. IP管理:提供IP地址快速定位功能,支持查看IP状态、Mac地址、接入设备及端口信息。
8. 自动化运维:提供网络设备和操作系统的自动化运维模块;拥有脚本管理、版本管理、软件包管理、定时作业、批量下发等功能。
9. 告警分析:支持告警关联拓扑功能,实现故障影响范围分析,可快速打开包含该资源的拓扑界面。02系统架构
经了解,本次监控对象为包括涵盖了操作系统、网络设备、数据库、中间件、虚拟化、服务器、存储,总体监控对象在1000个以内。定义本次系统架构部署如下:
架构说明:
3.告警配置
完成监控对象纳管后,通过和客户沟通、培训,进一步确认相关监控阈值配置,即根据客户实际情况配置告警阈值,当监控指标达到阈值设置后,即触发告警。同时将不同阈值对应到不同告警级别,分别为紧急、严重、一般等常用级别。
4.大屏展示配置
投屏展示通常可直观、简介的查看整个IT资源或某个业务的实际情况,经过和客户交流沟通后,确定本次创建如下:
5.故障自愈配置
故障自愈可以根据预设的规则,针对一些常见故障,自动触发相应的处理脚本脚本,降低人工干预成本,提高故障处理效率,保障系统稳定性。经过和客户交流沟通后,确定创建以下故障自愈场景:
客户收益
这些收益将帮助该客户在面对快速变化的市场和技术环境时,保持竞争力,实现可持续发展。
p333金沙贵宾会社区已经永久开放p333金沙贵宾会监控免费版和p333金沙贵宾会MCM免费版(CMDB+监控),欢迎下载使用!
采用分布式架构:多server + 多 proxy 架构,服务器优化、增加表分区、采集方式优化等。
View detailsp333金沙贵宾会从基础资源、中间件、数据库、到第三方系统,提供全方位、快速关联的监控管理和分析能力,帮助用户及时了解应用系统的运行状态、性能、异常,防患于未然。
View details