服务问题排查方法论

通常我们的web服务出故障,最多的有两类

  1. 资源问题
  2. 服务逻辑问题

资源问题

资源问题又包括资源是否不够造成系统瓶颈、或资源是否连通性上有问题等子问题,这里的资源指的服务依赖的一切资源比如DNS、上游接口、数据库资源等

服务逻辑问题

服务逻辑问题包括服务自己逻辑错误、多服务间异常影响造成的错误等

应对方法

  • 对资源及服务添加必要监控,包括连通性监控(端口),阈值监控,稳定性监控等等
  • 构建完善的服务保障系统,包括汇总实时监控、实时决策等,在故障时一键降级/扩容
    ** 降级分多级降级,不同级别有不同的反馈,比如一级自动降级、二级电话报警