[草稿] 华为云-ces告警配置指导
[TOC]
创建告警通知主题
创建主题
入口:控制台 - 应用服务 - 消息通知服务 - 主题管理
主题名称:xxx-fin-db-alarm
显示名:xxx-金融区-db告警
添加订阅
选中db监控的主题,添加订阅:
协议:邮件
订阅终端:yuxiukai@xxx.com
创建告警模板
- 入口:控制台 - 管理与部署 - 云监控服务 - 告警 - 告警模板
mysql自定义告警模板
- 名称:xxx-alarm-module-mysql
- 描述:xxx-告警模板-mysql
- 指定资源:关系型数据库
- 维度:MySQL实例
指标名称 | 告警策略 | 告警级别 | 注意 |
---|---|---|---|
CPU使用率 | 原始值 在 原始周期 内 > 80 % 且 连续5个周期 则 每10分钟告警一次 | 紧急 | - |
内存使用率 | 原始值 在 原始周期 内 > 90 % 且 连续5个周期 则 每1小时告警一次 | 重要 | - |
磁盘使用率 | 原始值 在 原始周期 内 > 80 % 且 连续5个周期 则 每1小时告警一次 | 重要 | - |
连接数使用率 | 平均值 在 监控周期5分钟 内 > 80 % 且 持续3个周期 则 每30分钟告警一次 | 紧急 | - |
实时复制时延 | 平均值 在 监控周期5分钟 内 > 300 秒 且 持续3个周期 则 每10分钟告警一次 | 重要 | 取值 seconds_behind_master |
慢日志个数统计 | 平均值 在 监控周期5分钟 内 > 600 个/分钟 且 持续3个周期 则 每30分钟告警一次 | 次要 | - |
redis自定义告警模板
- 名称:xxx-alarm-module-redis
- 描述:xxx-告警模板-redis
- 指定资源:分布式缓存服务
- 维度:DCS Redis实例
指标名称 | 告警策略 | 告警级别 | 注意 |
---|---|---|---|
CPU使用率 | 原始值 在 原始周期 内 > 60 % 且 连续5个周期 则 每10分钟告警一次 | 重要 | 业务对Redis的CPU、内存、网络的波动比较敏感 |
内存使用率 | 原始值 在 原始周期 内 > 40 % 且 连续5个周期 则 每1小时告警一次 | 紧急 | 业务对Redis的CPU、内存、网络的波动比较敏感 |
磁盘使用率 | 原始值 在 原始周期 内 > 40 % 且 连续5个周期 则 每1小时告警一次 | 重要 | AOF持久化不占用实例的磁盘空间 |
带宽使用率 | 原始值 在 原始周期 内 > 80 % 且 连续5个周期 则 每1小时告警一次 | 重要 | 业务对Redis的CPU、内存、网络的波动比较敏感 |
网络瞬时输入流量(KB/s) | 原始值 在 原始周期 内 > 规格基准带宽的80 % 且 连续5个周期 则 每1小时告警一次 | 重要 | 业务对Redis的CPU、内存、网络的波动比较敏感 |
网络瞬时输出流量(KB/s) | 原始值 在 原始周期 内 > 规格基准带宽的80 % 且 连续5个周期 则 每1小时告警一次 | 重要 | 假设基准带宽为40 Mb/s,则阈值为 40 Mb/s x 80% x 1024 / 8 = 4096 KB/s |
命令最大时延 | 原始值 在 原始周期 内 > 200ms 且 连续2个周期 则 每30分钟告警一次 | 紧急 | - |
每秒并发操作数 | 原始值 在 原始周期 内 > 400000 且 连续3个周期 则 每1小时告警一次 | 重要 | - |
活跃的客户端数量 | 原始值 在 原始周期 内 > 5000x分片数 且 连续3个周期 则 每1小时告警一次 | 重要 | - |
连接数使用率 | 原始值 在 原始周期 内 > 50 % 且 连续3个周期 则 每1小时告警一次 | 重要 | 针对redis 实例-Proxy节点(4.0以上) |
mongodb自定义告警模板
- 名称:xxx-alarm-module-mongo
- 描述:xxx-告警模板-mongo
- 指定资源:文档数据库服务
- 维度:文档数据库主节点
指标名称 | 告警策略 | 告警级别 | 注意 |
---|---|---|---|
CPU使用率 | 原始值 在 原始周期 内 > 80 % 且 连续5个周期 则 每10分钟告警一次 | 紧急 | - |
内存使用率 | 原始值 在 原始周期 内 > 90 % 且 连续5个周期 则 每1小时告警一次 | 重要 | - |
磁盘使用率 | 原始值 在 原始周期 内 > 80 % 且 连续5个周期 则 每1小时告警一次 | 重要 | - |
当前活跃连接数百分比 | 平均值 在 监控周期5分钟 内 > 80% 且 连续3个周期 则 每30分钟告警一次 | 紧急 | 华为云暂无连接数使用率 可按照最大连接数折算 |
ecs监控指定进程
- 登录管理控制台。
- 单击“服务列表 > 云监控服务”。
- 单击页面左侧的“主机监控”,进入“主机监控”页面
- 单击资源所在行的“查看监控指标”,进入“操作系统监控”页面
- 单击“操作系统监控”右侧的“进程监控”,进入“进程监控”页面
- 在“进程监控”页面,单击自定义进程数右侧的“配置”,进入“配置自定义进程监控”页面,配置进程名称或进程名关键字,如下图所示:
- 配置完成后,在“进程监控”页面的“自定义进程数”区域框,单击自定义进程数右侧的“配置”,进入“配置自定义进程监控”页面
- 单击需要创建告警规则的进程后的“创建告警规则”
- 配置告警规则基本信息,在“告警策略”参数配置为“(Agent)指定进程数”
创建告警规则
- 入口:控制台 - 管理与部署 - 云监控服务 - 告警 - 告警规则
名称 | 资源类型 | 维度 | 监控范围 | 模板 | 通知组/通知主题 | 描述 |
---|---|---|---|---|---|---|
xxx-alarm-mysql | 关系型数据库 | MySQL实例 | 指定资源 | xxx-alarm-module-mysql | xxx-fin-db-alarm | mysql监控 |
xxx-alarm-redis | 分布式缓存服务 | DCS Redis实例 | 指定资源 | xxx-alarm-module-redis | xxx-fin-db-alarm | redis监控 |
xxx-alarm-mongo | 文档数据库服务 | 文档数据库主节点 | 指定资源 | xxx-alarm-module-mongo | xxx-fin-db-alarm | mongo监控 |