Alerting¶
Wenn ein Check CRITICAL wird, soll jemand davon erfahren — aber nicht der falsche, nicht zu spät, nicht 50 Mal hintereinander, nicht für jedes abhängige Symptom. Genau das macht das Alerting-Subsystem.
flowchart LR
R[Check-Result CRIT] --> RULE[Alert Rule trifft?]
RULE -->|nein| NOP[nichts tun]
RULE -->|ja| INHIB[Inhibition: Eltern CRIT?]
INHIB -->|ja| MUTE[Alert unterdrücken]
INHIB -->|nein| GROUP[Gruppieren]
GROUP --> CHAN[Notification Channels]
CHAN --> EMAIL[E-Mail]
CHAN --> PUSH[Mobile Push]
CHAN --> WH[Webhook]
CHAN --> SLACK[Slack/Teams]
GROUP --> ESC[Eskalation Stufe 1, 2, 3 ...]
-
Alert Rules — Schwellwerte, Pattern, Eskalation, Test-Button
-
Notification Channels — E-Mail, Push, Webhook, Slack, Teams
-
Dependencies & Inhibition — Eltern down → Folge-Alerts unterdrücken
-
Downtimes — geplante Wartung, RRULE, Mobile-Schnellanlage
-
Acknowledgements — „gesehen, ich kümmere mich"