OPERATIONS

排错与运维

把问题拆成“解析链路 + 证书 + 网络策略 + 上游可用性”,排错会快很多。

常见故障模式

90% 的问题集中在证书、端口可达性、策略冲突与回退链路。

看起来“能上网但解析慢”

检查上游距离、缓存命中率、超时重试策略、是否发生协议回退或多层加密叠加。

某些站点打不开

检查企业策略/过滤名单、EDNS 相关兼容、以及是否存在分流域名走了不同解析路径。

建议监控指标

没有指标就无法判断“变慢了”还是“变稳了”。

指标 意义 建议阈值/关注点
P50/P95 解析时延 体验基线 P95 变化最敏感
失败率/超时率 稳定性 按域名/按上游分维度
回退比例 策略是否生效 异常升高通常意味着网络阻断或证书问题
证书有效期 可用性风险 提前告警避免“突然全挂”