发布信息

生产线上监控告警复盘,保姆级checklist整理

作者:本站编辑      2026-05-24 14:39:35     0
生产线上监控告警复盘,保姆级checklist整理

转眼就年中了,生产线上可能又即将迎来新一轮的线上问题、线上故障事件、监控告警的现状梳理和复盘。

作者根据自己的工作经验,从告警方案/平台、告警项、告警渠道、告警接收人等四个场景梳理了告警复盘checklist清单。清单系根据个人工作经验梳理,仅供参考。

1. 复盘清单表:

复盘类型
检查项
检查结果
复盘整改结果
告警平台复盘
当前使用中的告警方案/平台是否存在优化空间?如容量、数据传输/存储方案等
告警平台可补齐哪些能力支撑线上监控告警?
是否每一条告警项都选择了适当的告警平台/方案?(存在多套告警方案/平台时)
告警项复盘
告警项的等级是否依然合理?是否存在等级过高/过低的告警项?
每个告警项的告警阈值是否依然合理?
告警频率是否合理?是否需要提升/降低告警频率?
是否存在应该下线而尚在运行中的告警项?
是否可以创建哪些自动化工具/脚本以便彻底弃用某个告警项?
历次线上变更评审,是否严格评审和及时执行关联变更的告警项?
历次的线上问题/故障是否准确发出和送达了相应的告警信息,告警是否存在误告/漏告/延迟告警?
是否存在可优化的底层监控方案/工具,让告警更加精确?
每个告警项是否能准确传达关键问题所在,告警指标是否反映了关键问题?
告警文本/标题/提示语是否准确,让oncall人员收到告警后立刻知道自己应该做什么?
最高等级告警是否有合理的应急处理预案?
告警项的编辑、使用权限是否都正确?确保SRE有权管理告警项配置。
告警渠道复盘
每一条告警项是否都采用了合理的告警渠道?(例如:最低等级的告警用了电话渠道加急告警)。
不同等级的告警是否存在合理的等级升级、告警通知升级机制?升级机制是否恰当?
是否存在特殊告警项需特殊调整告警渠道(如某个特殊低等级告警需要配置电话通知)。
告警接收人复盘
告警接收人是否需要变动(如人员增减调动、角色变动)?
新进成员是否存在告警项编辑维护、接收告警的权限漏洞?如某些电话告警需要加白、激活等。
当前oncall排班是否依旧合理?是否需做出调整?
接收告警的角色是否依然合理?如某些告警不仅SRE需要接收,研发测试甚至可能运营也需要接收。
每次告警,oncall人员都做出了迅速、正确的反应吗?是否存在发送了告警而无人响应的情况?

2. 告警接收人注意事项:

  • 慎重选择告警接收人,发给主要相关人员,减少不必要的打扰和“狼来了”的情况;

  • 做好岗位(研发/测试/运营/SRE等)值班安排,明确每天处理告警的oncall责任人;

  • 为oncall准备B岗,以备不时之需;

  • 加强oncall人员培训,使其清楚知道升级上报机制和策略;

  • 对oncall机制要妥善安排,处于oncall状态不仅精神会比较紧张,而且还会打断日常工作。有条件的业务线不建议同一位同事长时间处于oncall状态。

END

如果喜欢本文,就分享给你的好盆友吧
往期推荐

记录ClickHouse部署并开通AI远程对接

k8s之HPA梳理与实践

【知识梳理】Docker容器如何限定CPU


总结,让成长更轻松。

—— SRE成长记   


点分享
点收藏
点在看
点点赞

相关内容 查看全部