Acknowledgements¶
Ein Acknowledgement (ACK) heißt: „Ich habe das Problem gesehen, brauche keine weiteren Notifications, der Status bleibt aber wahrheitsgemäß auf CRIT bis es behoben ist."
Im Gegensatz zur Downtime: ACK ist keine Erwartung („das ist Wartung"), sondern eine Reaktion („ich kümmere mich gerade").
ACK setzen¶
Drei Wege:
| Wo | Wie |
|---|---|
| Web-UI | Host-Detail / Error-Overview → Service-Zeile → Ack |
| Mobile-App | Host-Detail → Service → Ack-Button |
| Notification-Channel | Slack/Teams haben einen „Ack"-Button direkt in der Message |
Pflichtfeld: Kommentar — was passiert gerade, wer kümmert sich.
Wirkung¶
- Weitere Notifications dieser Alert-Rule sind unterdrückt
- Eskalation pausiert
- Status sichtbar im UI mit Ack-Badge + Author + Kommentar
- SLA: Ack zählt nicht als Downtime — der Service ist weiter im Ausfall, das wird gewertet
Auto-Clear bei Recovery¶
Sobald der Service wieder OK ist:
- ACK wird automatisch entfernt
- Status zurück auf OK
- Optional Recovery-Notification (channelweise einstellbar)
Was passiert bei neuem Hard-State¶
Wenn ein acknowledged Service erneut von OK auf CRIT springt (Flapping oder neues Problem):
- Default: ACK bleibt, keine Notification
- Konfigurierbar pro Alert-Rule: „bei neuem Hard nach Recovery ACK auto-clear" → dann fließt es als neue Welle durch
Variante 2 ist sinnvoll, wenn nach Recovery ein neuer Vorfall ein eigenständiges Problem darstellt.
Sticky-ACK¶
Optional pro ACK: Sticky = bleibt auch nach Recovery erhalten. Sinnvoll wenn man weiß, dass das Problem mehrfach kommt und auf eine größere Lösung wartet (z. B. Hardware-Tausch in 2 Wochen).
Default: nicht-sticky.
ACK + Downtime¶
Beide gleichzeitig möglich. ACK ist die Aktion eines Operators, Downtime ist die geplante Wartung. Ein Service kann acknowledged sein, während eine Downtime drüber gelegt wird.
ACK in Bulk¶
Im Error-Overview: mehrere Services auswählen → Ack alle mit gemeinsamem Kommentar. Schreibt ein ACK pro Service mit gleichem Comment.
ACK widerrufen¶
Service-Detail → Ack entfernen. Status bleibt CRIT, Notifications laufen wieder, Eskalation startet neu (Stufe 1).
Audit¶
ACKs werden mit track_change geloggt — Author, Service, Kommentar, Zeitpunkt. Filter im Audit-Log: action = ack.create / ack.clear.
Permission¶
Permission service.ack (Default für Operator+). Ohne diese Permission ist der Ack-Button ausgegraut.
Anschluss¶
- Alert Rules — Eskalations-Logik und ACK-Verhalten
- Downtimes — Abgrenzung