Skip to content

支持按节点/标签配置 Prometheus 告警阈值 #248

Description

@myrat92

💡 Feature Request

感谢你对 WatchAlert 的关注与支持!如果你有一个改进本项目的想法,请按照以下模板提交你的建议。这将有助于我们更好地评估和实现新功能。


功能名称(Feature Name)

支持按节点/标签配置 Prometheus 告警阈值


功能描述(Description)

希望Prometheus 告警规则支持基于指标标签配置不同的告警阈值。

当前同一条告警规则通常只能配置一组统一阈值,例如所有节点内存使用率 > 95 持续 300 秒告警。但在实际生产环境中,不同节点、不同业务、不同系统类型的告警阈值往往不一样。

例如:

  • 节点 A 内存使用率超过 98% 才告警
  • 节点 B 内存使用率超过 95% 就告警
  • 核心业务节点和普通业务节点的 CPU、内存、磁盘阈值策略不同

希望在保留全局默认阈值的基础上,可以按指标标签覆盖阈值


使用场景(Use Cases)

  • 同一条节点资源告警规则中,不同节点配置不同阈值
  • 按业务标签配置差异化告警策略,例如 service=core
  • 按系统类型配置不同阈值,例如 os_type=Linuxos_type=Windows
  • 减少为了少量特殊节点复制多条告警规则的问题
  • 降低 Prometheus 告警规则维护成本

示例(Examples)(可选)


实现建议(Implementation Suggestions)(可选)


其他信息(Optional)

我已经基于 fork 仓库实现了初步版本,准备分别提交后端和前端 PR。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Fields

    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions