用 Claude Skills 掌握事件响应:Runbook、事后分析与值班自动化
了解 SRE 和 DevOps 团队如何使用 Claude Skills 自动化事件 runbook、编写结构化的事后分析、简化值班交接,以及在压力下强制执行 GitOps 工作流。

值班是无情的。凌晨 2 点警报响起,你的 runbook 埋在 Notion 里,事后分析模板在另一个 Confluence 空间,接班的工程师需要一个不丢失上下文的交接。事件期间每一分钟的认知开销都是系统持续降级的一分钟。
Claude Skills 改变了这种动态。通过将事件工作流编码为结构化的 skill 文件,您给 Claude 一个知道您 runbook 的副驾驶,它按规格编写事后分析,并格式化值班交接,无需从上周的事件复制粘贴。本教程介绍四个 skills——wsh-incident-runbook-templates、wsh-postmortem-writing、wsh-on-call-handoff-patterns 和 wsh-gitops-workflow——并展示如何将它们连接成完整的事件响应系统。
步骤 1:安装事件响应 Skills
mkdir -p ~/.claude/commands
cp wsh-incident-runbook-templates.md ~/.claude/commands/
cp wsh-postmortem-writing.md ~/.claude/commands/
cp wsh-on-call-handoff-patterns.md ~/.claude/commands/
cp wsh-gitops-workflow.md ~/.claude/commands/
步骤 2:在事件中运行 Runbook
wsh-incident-runbook-templates skill 生成一个您可以在事件展开时填写的实时 runbook 文档。
/wsh-incident-runbook-templates
事件:API 网关在所有 /checkout 端点返回 503
严重级别:P1
受影响系统:payment-service、api-gateway
症状:503 错误率在 14:32 UTC 飙升至 40%,所有区域
初始假设:部署 #4471 后连接池耗尽
Claude 产出包含事件元数据、系统上下文、调查检查清单、缓解选项和利益相关者更新模板的结构化 runbook。
步骤 3:解决后编写无指责事后分析
/wsh-postmortem-writing
服务:payment-service
持续时间:14:32-15:17 UTC(45 分钟)
影响:40% 的结账请求返回 503;约 $120K GMV 受影响
根因:部署 #4471 通过错误配置的环境变量将连接池大小从 200 减少到 20
解决:回滚部署 #4471,恢复池大小,验证结账成功率
贡献因素:环境变量更改没有金丝雀部署流程;没有池耗尽告警
该 skill 输出包含摘要、时间线、根因分析和行动项的完整事后分析文档,格式即可直接放入内部 wiki。
步骤 4:交接给下一位值班工程师
wsh-on-call-handoff-patterns skill 生成保留跨轮班边界上下文的结构化交接文档。
Claude 生成的交接涵盖:已解决的事件摘要、活跃的监控变更、待处理的行动项、风险日历和升级联系人。
步骤 5:用工作流 Skill 强制 GitOps 纪律
wsh-gitops-workflow skill 是事件期间或之后进行更改的安全网。它为每次更改强制执行正确的 GitOps 模式。
组合所有四个 Skills:完整的事件生命周期
| 阶段 | Skill | Claude 产出 |
|---|---|---|
| 检测与响应 | wsh-incident-runbook-templates | 实时 runbook、调查检查清单、利益相关者更新 |
| 缓解 | wsh-gitops-workflow | 回滚命令、PR 模板、验证步骤 |
| 事后 | wsh-postmortem-writing | 带时间线和行动项的无指责事后分析 |
| 轮班交接 | wsh-on-call-handoff-patterns | 给接班工程师的结构化交接文档 |
自定义 Skills 以适配您的技术栈
每个团队的技术栈不同。这些 skills 开箱即用,但当您添加特定工具时变得更强大。打开任何 skill 文件并扩展工作流部分:
<!-- 添加到 wsh-incident-runbook-templates.md -->
## 技术栈特定调查步骤
- 检查 Datadog 仪表板:https://app.datadoghq.com/dashboard/your-id
- 查询 PagerDuty 相关告警:`pd incident list --status=triggered`
- 检查部署历史:`argocd app history payment-service`
- 事件 Slack 频道:#incidents-p1
接下来做什么
今天就安装这四个 skills,在下次计划的演练或混沌工程练习中进行演练。在低风险环境中使用 Claude Skills 让您的团队在需要之前建立肌肉记忆。
在 Claude Skills Hub 浏览完整的 SRE 和 DevOps skills 合集,找到用于基础设施自动化、安全事件响应和部署验证的额外 skills。
事件总会发生。团队恢复的速度是您可以控制的变量。Claude Skills 使正确的流程自动化,让您的团队可以专注于系统,而不是文书工作。


