生产线上监控告警复盘,保姆级checklist整理
转眼就年中了,生产线上可能又即将迎来新一轮的线上问题、线上故障事件、监控告警的现状梳理和复盘。
作者根据自己的工作经验,从告警方案/平台、告警项、告警渠道、告警接收人等四个场景梳理了告警复盘checklist清单。清单系根据个人工作经验梳理,仅供参考。
1. 复盘清单表:
| | | |
|---|
| 当前使用中的告警方案/平台是否存在优化空间?如容量、数据传输/存储方案等 | | |
| | |
| 是否每一条告警项都选择了适当的告警平台/方案?(存在多套告警方案/平台时) | | |
| 告警项的等级是否依然合理?是否存在等级过高/过低的告警项? | | |
| | |
| | |
| | |
| 是否可以创建哪些自动化工具/脚本以便彻底弃用某个告警项? | | |
| 历次线上变更评审,是否严格评审和及时执行关联变更的告警项? | | |
| 历次的线上问题/故障是否准确发出和送达了相应的告警信息,告警是否存在误告/漏告/延迟告警? | | |
| 是否存在可优化的底层监控方案/工具,让告警更加精确? | | |
| 每个告警项是否能准确传达关键问题所在,告警指标是否反映了关键问题? | | |
| 告警文本/标题/提示语是否准确,让oncall人员收到告警后立刻知道自己应该做什么? | | |
| | |
| 告警项的编辑、使用权限是否都正确?确保SRE有权管理告警项配置。 | | |
| 每一条告警项是否都采用了合理的告警渠道?(例如:最低等级的告警用了电话渠道加急告警)。 | | |
| 不同等级的告警是否存在合理的等级升级、告警通知升级机制?升级机制是否恰当? | | |
| 是否存在特殊告警项需特殊调整告警渠道(如某个特殊低等级告警需要配置电话通知)。 | | |
| 告警接收人是否需要变动(如人员增减调动、角色变动)? | | |
| 新进成员是否存在告警项编辑维护、接收告警的权限漏洞?如某些电话告警需要加白、激活等。 | | |
| 当前oncall排班是否依旧合理?是否需做出调整? | | |
| 接收告警的角色是否依然合理?如某些告警不仅SRE需要接收,研发测试甚至可能运营也需要接收。 | | |
| 每次告警,oncall人员都做出了迅速、正确的反应吗?是否存在发送了告警而无人响应的情况? | | |
2. 告警接收人注意事项:
慎重选择告警接收人,发给主要相关人员,减少不必要的打扰和“狼来了”的情况;
做好岗位(研发/测试/运营/SRE等)值班安排,明确每天处理告警的oncall责任人;
为oncall准备B岗,以备不时之需;
加强oncall人员培训,使其清楚知道升级上报机制和策略;
对oncall机制要妥善安排,处于oncall状态不仅精神会比较紧张,而且还会打断日常工作。有条件的业务线不建议同一位同事长时间处于oncall状态。
如果喜欢本文,就分享给你的好盆友吧


总结,让成长更轻松。
—— SRE成长记