Skip to content

【告警中心】相关性规则补充参数逻辑 #1858

@roger060353

Description

@roger060353

需求说明:

1,简化相关性配置逻辑
2,新增相关性规则的筛选范围
3,统一event字段
4,调整相关性底层算法

需求拆解

原型

新增告警策略-简化版
Image

新增告警策略-展开版
Image

备注:
1,降噪策略-聚合维度:有四个key分别为service(服务)、location(物理位置)、resource_name(对象实例)、item(指标名称),最少必须选择一个key,选择后运行排序
2,降噪策略的选择,本质上是一种有利于用户体验的套餐选择,最终落地还是聚合维度和检测窗口的初始化配置
3,自愈检查:指的是当匹配到了规则认为是告警时,先达到观察时间,等待恢复事件,如果恢复事件始终没到或者alert没有新的event加入进来,再产生告警,举例:
【有恢复事件,没有产生告警】

  • event1: 流水线server01 流水线server01打包失败 0 2026-1-16 10:28:30
  • event2: 流水线server01 流水线server01打包失败 0 2026-1-16 10:38:30
  • event3: 流水线server01 流水线server01打包成功 1 2026-1-16 10:58:30
  • 关闭:整个alert都没有产生,因为产生了恢复事件 1

【event在持续变化,没有产生告警】

  • event1: 流水线server01 流水线server01打包失败 0 2026-1-16 10:28:30
  • event2: 流水线server01 流水线server01打包失败 0 2026-1-16 10:32:30
  • event3: 流水线server01 流水线server01打包失败 0 2026-1-16 10:34:30
  • 依旧观察,不产生告警

【产生告警的情况】

  • event1: 流水线server01 流水线server01打包失败 0 2026-1-16 10:28:30
  • event2: 流水线server01 流水线server01打包失败 0 2026-1-16 10:38:30
  • 等待了60min(观察时间),依旧没有新的event或者恢复事件进来
  • 产生alert告警

event字段说明:

Image ### 智能降噪场景举例: #### 原始event Image

应用优先

Image

基础设施优先

Image

需要注意,下一次窗口来临,如果发现新的groupby也是service=service1,需要归拢到上一个窗口产生的alert1上,即alert上需要打上对应场景的指纹信息。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions