Acknowledgements¶

Ein Acknowledgement (ACK) heißt: „Ich habe das Problem gesehen, brauche keine weiteren Notifications, der Status bleibt aber wahrheitsgemäß auf CRIT bis es behoben ist."

Im Gegensatz zur Downtime: ACK ist keine Erwartung („das ist Wartung"), sondern eine Reaktion („ich kümmere mich gerade").

ACK setzen¶

Drei Wege:

Wo	Wie
Web-UI	Host-Detail / Error-Overview → Service-Zeile → Ack
Mobile-App	Host-Detail → Service → Ack-Button
Notification-Channel	Slack/Teams haben einen „Ack"-Button direkt in der Message

Pflichtfeld: Kommentar — was passiert gerade, wer kümmert sich.

Wirkung¶

Weitere Notifications dieser Alert-Rule sind unterdrückt
Eskalation pausiert
Status sichtbar im UI mit Ack-Badge + Author + Kommentar
SLA: Ack zählt nicht als Downtime — der Service ist weiter im Ausfall, das wird gewertet

Auto-Clear bei Recovery¶

Sobald der Service wieder OK ist:

ACK wird automatisch entfernt
Status zurück auf OK
Optional Recovery-Notification (channelweise einstellbar)

Was passiert bei neuem Hard-State¶

Wenn ein acknowledged Service erneut von OK auf CRIT springt (Flapping oder neues Problem):

Default: ACK bleibt, keine Notification
Konfigurierbar pro Alert-Rule: „bei neuem Hard nach Recovery ACK auto-clear" → dann fließt es als neue Welle durch

Variante 2 ist sinnvoll, wenn nach Recovery ein neuer Vorfall ein eigenständiges Problem darstellt.

Sticky-ACK¶

Optional pro ACK: Sticky = bleibt auch nach Recovery erhalten. Sinnvoll wenn man weiß, dass das Problem mehrfach kommt und auf eine größere Lösung wartet (z. B. Hardware-Tausch in 2 Wochen).

Default: nicht-sticky.

ACK + Downtime¶

Beide gleichzeitig möglich. ACK ist die Aktion eines Operators, Downtime ist die geplante Wartung. Ein Service kann acknowledged sein, während eine Downtime drüber gelegt wird.

ACK in Bulk¶

Im Error-Overview: mehrere Services auswählen → Ack alle mit gemeinsamem Kommentar. Schreibt ein ACK pro Service mit gleichem Comment.

ACK widerrufen¶

Service-Detail → Ack entfernen. Status bleibt CRIT, Notifications laufen wieder, Eskalation startet neu (Stufe 1).

Audit¶

ACKs werden mit track_change geloggt — Author, Service, Kommentar, Zeitpunkt. Filter im Audit-Log: action = ack.create / ack.clear.

Permission¶

Permission service.ack (Default für Operator+). Ohne diese Permission ist der Ack-Button ausgegraut.

Anschluss¶

Alert Rules — Eskalations-Logik und ACK-Verhalten
Downtimes — Abgrenzung