24.5.5. Post-mortem sablon

2025.10.06.
AI Biztonság Blog

Egy incidens utáni post-mortem olyan, mint egy repülőgép fekete dobozának elemzése. Nem a bűnösöket keressük, hanem a rendszerszintű okokat, hogy a jövőben elkerülhessük a hasonló eseményeket. A cél a tanulás és a megerősödés. Egy jól strukturált, „blameless” (vádaskodásmentes) post-mortem a proaktív védekezés egyik legfontosabb eszköze.

Kapcsolati űrlap

AI Biztonság kérdésed van? Itt elérsz minket:

A sablon felépítése

Az alábbi sablon egy szilárd kiindulási alapot ad, amelyet a szervezet saját folyamataihoz és az incidens súlyosságához igazíthatsz. A lényeg a következetesség és az alaposság.

1. Összefoglaló (Executive Summary)

Ez a TL;DR (Too Long; Didn’t Read) szekció a vezetők és más csapatok számára. Legyen rövid, tömör és lényegre törő.

  • Incidens neve: Egyedi, beszédes azonosító (pl. „PROD-DB-LATENCY-2024-10-26”).
  • Dátum és idő: Az incidens kezdete, észlelése és teljes megoldása.
  • Súlyosság: Előre definiált skála szerint (pl. SEV-1, SEV-2).
  • Rövid leírás: 1-2 mondatban mi történt.
  • Hatás: Milyen üzleti, felhasználói vagy technikai hatása volt az incidensnek? (pl. 15 perces teljes szolgáltatáskiesés, 5% hibaarány a bejelentkezésnél).
  • Fő tanulságok: 2-3 kulcsfontosságú pont, ami a legfőbb tanulság.

2. Részletes idővonal (Detailed Timeline)

Ez a dokumentum legobjektívebb része. Szigorúan a tényekre koncentrál, pontos időbélyeggel ellátva minden eseményt. Itt rögzítesz mindent, a riasztás első jelétől a kommunikáción át a javításokig.

# Időpont (UTC) - Esemény
2024-10-26 14:32:15 - Automatikus riasztás érkezik: "API Gateway P99 Latency > 2000ms"
2024-10-26 14:34:02 - Kovács János (ügyeletes) nyugtázza a riasztást és megkezdi a vizsgálatot.
2024-10-26 14:41:50 - Első hipotézis: a felhasználói adatbázis túlterhelt.
2024-10-26 14:45:10 - Eskaláció a DB csapat felé (Nagy Mária).
2024-10-26 14:58:30 - A DB csapat azonosít egy rosszul optimalizált lekérdezést, amit egy új feature telepítése okozott.
2024-10-26 15:05:00 - A hibás feature flag kikapcsolásra kerül.
2024-10-26 15:07:00 - A rendszermetrikák (latencia, hibaarány) visszaállnak a normál szintre.
2024-10-26 15:15:00 - Az incidens lezárva, a post-mortem folyamat elindítva.

3. Kiváltó Ok Elemzése (Root Cause Analysis – RCA)

Itt mélyebbre ásunk. Nem elégszünk meg az elsődleges okkal („egy rossz lekérdezés”). A cél megtalálni a folyamatbeli vagy rendszerszintű hiányosságot, ami lehetővé tette a hiba bekövetkezését. Az „5 Miért” (5 Whys) technika itt különösen hasznos.

  • Miért lassult le az API? Mert egy lekérdezés túlterhelte az adatbázist.
  • Miért került be ez a lekérdezés a rendszerbe? Mert egy új funkció részeként került telepítésre.
  • Miért nem vettük észre a problémát a telepítés előtt? Mert a terheléses tesztkörnyezet nem szimulálta pontosan az éles forgalmi mintázatokat.
  • Miért nem volt pontos a tesztkörnyezet? Mert a tesztadatok nem reprezentálták az éles adatok eloszlását.
  • Miért nem voltak reprezentatívak a tesztadatok? Mert a tesztadat-generálási folyamatunk elavult és nem követi a felhasználói bázis növekedését. (Ez már egy rendszerszintű, orvosolandó probléma.)

4. Hatáselemzés (Impact Analysis)

Itt számszerűsítjük a kárt. Ez segít a prioritások meghatározásában és a jövőbeli befektetések indoklásában.

  • Felhasználói hatás: Hány felhasználót érintett? Mennyi ideig? Milyen funkciók nem működtek?
  • Üzleti hatás: Elvesztett bevétel, SLA sértés, brand kár.
  • Technikai hatás: Adatvesztés, adatkonzisztencia-problémák, egyéb rendszerekre gyakorolt hatás.
  • Belső hatás: Hány mérnök hány munkaóráját kötötte le az incidens kezelése?

5. Megoldási Lépések és Rövid Távú Intézkedések

Ez a rész azt dokumentálja, hogy mit tett a csapat az incidens alatt a helyzet stabilizálására. Mi működött jól, és mi nem? Ez értékes visszajelzés az incidens-reagálási folyamat (IRP) finomításához.

6. Hosszú Távú Tanulságok és Akcióterv (Action Items)

Ez a post-mortem legfontosabb eredménye. Konkrét, felelőshöz rendelt, határidős feladatok listája, amelyek megakadályozzák a probléma újbóli előfordulását. SMART célokat (Specifikus, Mérhető, Elérhető, Releváns, Időhöz kötött) tűzz ki!

Azonosító Feladat Leírása Felelős Határidő Státusz
AI-01 A terheléses tesztkörnyezet adatbázisának frissítése anonimizált éles adatokkal. Infra Csapat 2024.11.15. Folyamatban
AI-02 CI/CD pipeline kiegészítése automatikus lekérdezés-elemző (query analyzer) lépéssel. DevOps Csapat 2024.12.01. Tervezett
AI-03 Feature flag rendszerekhez kapcsolódó telepítési playbook felülvizsgálata. Alfa Csapat 2024.11.20. Befejezett

7. Résztvevők és Felelősök

Egy egyszerű lista azokról, akik részt vettek az incidens kezelésében és a post-mortem megbeszélésen. Ez nem a felelősségre vonásról, hanem az átláthatóságról szól.

  • Incidens parancsnok (Incident Commander): Kovács János
  • Kommunikációs felelős: Kiss Anna
  • Résztvevő mérnökök: Nagy Mária (DB), Szabó Péter (Backend)
  • Post-mortem moderátor: Horváth Zita