Zum Inhalt

Acknowledgements

Ein Acknowledgement (ACK) heißt: „Ich habe das Problem gesehen, brauche keine weiteren Notifications, der Status bleibt aber wahrheitsgemäß auf CRIT bis es behoben ist."

Im Gegensatz zur Downtime: ACK ist keine Erwartung („das ist Wartung"), sondern eine Reaktion („ich kümmere mich gerade").

ACK setzen

Drei Wege:

Wo Wie
Web-UI Host-Detail / Error-Overview → Service-Zeile → Ack
Mobile-App Host-Detail → Service → Ack-Button
Notification-Channel Slack/Teams haben einen „Ack"-Button direkt in der Message

Pflichtfeld: Kommentar — was passiert gerade, wer kümmert sich.

Wirkung

  • Weitere Notifications dieser Alert-Rule sind unterdrückt
  • Eskalation pausiert
  • Status sichtbar im UI mit Ack-Badge + Author + Kommentar
  • SLA: Ack zählt nicht als Downtime — der Service ist weiter im Ausfall, das wird gewertet

Auto-Clear bei Recovery

Sobald der Service wieder OK ist:

  • ACK wird automatisch entfernt
  • Status zurück auf OK
  • Optional Recovery-Notification (channelweise einstellbar)

Was passiert bei neuem Hard-State

Wenn ein acknowledged Service erneut von OK auf CRIT springt (Flapping oder neues Problem):

  • Default: ACK bleibt, keine Notification
  • Konfigurierbar pro Alert-Rule: „bei neuem Hard nach Recovery ACK auto-clear" → dann fließt es als neue Welle durch

Variante 2 ist sinnvoll, wenn nach Recovery ein neuer Vorfall ein eigenständiges Problem darstellt.

Sticky-ACK

Optional pro ACK: Sticky = bleibt auch nach Recovery erhalten. Sinnvoll wenn man weiß, dass das Problem mehrfach kommt und auf eine größere Lösung wartet (z. B. Hardware-Tausch in 2 Wochen).

Default: nicht-sticky.

ACK + Downtime

Beide gleichzeitig möglich. ACK ist die Aktion eines Operators, Downtime ist die geplante Wartung. Ein Service kann acknowledged sein, während eine Downtime drüber gelegt wird.

ACK in Bulk

Im Error-Overview: mehrere Services auswählen → Ack alle mit gemeinsamem Kommentar. Schreibt ein ACK pro Service mit gleichem Comment.

ACK widerrufen

Service-Detail → Ack entfernen. Status bleibt CRIT, Notifications laufen wieder, Eskalation startet neu (Stufe 1).

Audit

ACKs werden mit track_change geloggt — Author, Service, Kommentar, Zeitpunkt. Filter im Audit-Log: action = ack.create / ack.clear.

Permission

Permission service.ack (Default für Operator+). Ohne diese Permission ist der Ack-Button ausgegraut.

Anschluss