通常我们的web服务出故障,最多的有两类
- 资源问题
- 服务逻辑问题
资源问题
资源问题又包括资源是否不够造成系统瓶颈、或资源是否连通性上有问题等子问题,这里的资源指的服务依赖的一切资源比如DNS、上游接口、数据库资源等
服务逻辑问题
服务逻辑问题包括服务自己逻辑错误、多服务间异常影响造成的错误等
应对方法
- 对资源及服务添加必要监控,包括连通性监控(端口),阈值监控,稳定性监控等等
- 构建完善的服务保障系统,包括汇总实时监控、实时决策等,在故障时一键降级/扩容
** 降级分多级降级,不同级别有不同的反馈,比如一级自动降级、二级电话报警