部署实践

部署运行手册

本页是“可照着执行”的运维流程模板,强调上线前验证、上线中监测、上线后复盘。

阶段 1:建立基线

没有基线就无法判断“升级是否真的变好”。

建议指标

  • P50 / P95 DNS 响应时延
  • 超时率、重试率、失败率
  • 关键域名解析成功率

记录方式

  • 按网络区域和终端类型分组
  • 保存 7 天以上连续观测样本
  • 保留变更前配置快照

阶段 2:灰度发布

推荐分三批次推进,禁止一次性全网切换。

批次 A(5%)

先覆盖技术团队与测试终端,重点观察协议握手和兼容性异常。

批次 B(20%)

覆盖多个办公区域,验证跨网络场景下的稳定性与用户反馈。

批次 C(全量)

满足阈值后再放量,同时保留至少 1 个版本周期的回退开关。

阶段 3:监控告警

指标要能区分“协议问题、网络问题、上游问题”。

维度 关键指标 告警阈值建议 处置动作
可用性 解析失败率 > 1% 切换备用上游并开启事件追踪
性能 P95 解析时延 较基线上涨 30% 检查链路质量与缓存命中率
安全 证书异常事件 任意触发 阻断相关链路并人工复核

阶段 4:回滚演练

真正可用的系统,必须在异常时“快速、安全、可预期”地回到稳定状态。

回滚触发条件

失败率、时延、核心业务告警任一触发阈值即进入回滚流程,不等人工拍脑袋判断。

回滚后动作

保留证据、记录时间线、复盘根因、更新 runbook,确保同类事件不重复发生。