运维避坑指南

运维保命指南

  • 对高风险的操作谨慎小心,比如 drop tablerm -rf
  • 数据库得有备份并验证备份有效性
  • 交接和休假最容易出故障变更请谨慎,节前3天停止一切发版操作
  • 搭建报警,及时获得出错信息
  • 变更要有回滚方案,在同样的环境测试过
  • 对生产环境要有敬畏之心

故障处理的原则

以恢复业务优先

恢复业务优先是指,不管在任何情况下,也不管任何级别的故障,都要做到先恢复业务,这个和故障定位不同

及时升级

任何故障在发生时,对故障的影响任何人只能做一个简单的预测,所以要及时升级到你的领导那里,让他掌握第一手的信息,协调资源,如果有如下情况,那么必须马上上升:

  • 有明确业务影响,例如 PV、UV、购物车、订单或者支付等业务指标波动
  • 非常重要的业务的发生严重以上的告警故障,比如订单系统、交易系统等
  • 处理时效明显超长(时效参考故障处理时效定义)
  • 有高级别领导,监控中心或者客服已经关注到这个故障
  • 很明确超出了自己的能力范围
Copyright © www.sqlfans.cn 2024 All Right Reserved更新时间: 2024-06-28 10:26:15

results matching ""

    No results matching ""