运维避坑指南
运维保命指南
- 对高风险的操作谨慎小心,比如
drop table
或rm -rf
- 数据库得有备份并验证备份有效性
- 交接和休假最容易出故障变更请谨慎,节前3天停止一切发版操作
- 搭建报警,及时获得出错信息
- 变更要有回滚方案,在同样的环境测试过
- 对生产环境要有敬畏之心
故障处理的原则
以恢复业务优先
恢复业务优先是指,不管在任何情况下,也不管任何级别的故障,都要做到先恢复业务,这个和故障定位不同
及时升级
任何故障在发生时,对故障的影响任何人只能做一个简单的预测,所以要及时升级到你的领导那里,让他掌握第一手的信息,协调资源,如果有如下情况,那么必须马上上升:
- 有明确业务影响,例如 PV、UV、购物车、订单或者支付等业务指标波动
- 非常重要的业务的发生严重以上的告警故障,比如订单系统、交易系统等
- 处理时效明显超长(时效参考故障处理时效定义)
- 有高级别领导,监控中心或者客服已经关注到这个故障
- 很明确超出了自己的能力范围