-
Notifications
You must be signed in to change notification settings - Fork 45
Open
Milestone
Description
需求说明:
1,简化相关性配置逻辑
2,新增相关性规则的筛选范围
3,统一event字段
4,调整相关性底层算法
需求拆解
原型
备注:
1,降噪策略-聚合维度:有四个key分别为service(服务)、location(物理位置)、resource_name(对象实例)、item(指标名称),最少必须选择一个key,选择后运行排序
2,降噪策略的选择,本质上是一种有利于用户体验的套餐选择,最终落地还是聚合维度和检测窗口的初始化配置
3,自愈检查:指的是当匹配到了规则认为是告警时,先达到观察时间,等待恢复事件,如果恢复事件始终没到或者alert没有新的event加入进来,再产生告警,举例:
【有恢复事件,没有产生告警】
- event1: 流水线server01 流水线server01打包失败 0 2026-1-16 10:28:30
- event2: 流水线server01 流水线server01打包失败 0 2026-1-16 10:38:30
- event3: 流水线server01 流水线server01打包成功 1 2026-1-16 10:58:30
- 关闭:整个alert都没有产生,因为产生了恢复事件 1
【event在持续变化,没有产生告警】
- event1: 流水线server01 流水线server01打包失败 0 2026-1-16 10:28:30
- event2: 流水线server01 流水线server01打包失败 0 2026-1-16 10:32:30
- event3: 流水线server01 流水线server01打包失败 0 2026-1-16 10:34:30
- 依旧观察,不产生告警
【产生告警的情况】
- event1: 流水线server01 流水线server01打包失败 0 2026-1-16 10:28:30
- event2: 流水线server01 流水线server01打包失败 0 2026-1-16 10:38:30
- 等待了60min(观察时间),依旧没有新的event或者恢复事件进来
- 产生alert告警
event字段说明:
### 智能降噪场景举例:
#### 原始event
应用优先
基础设施优先
需要注意,下一次窗口来临,如果发现新的groupby也是service=service1,需要归拢到上一个窗口产生的alert1上,即alert上需要打上对应场景的指纹信息。
Metadata
Metadata
Assignees
Labels
No labels

