Når et system går ned, handler de første 15 minutter sjældent om teknik alene — de handler om kaos eller kontrol.
I denne artikel får du en praktisk “incident playbook”, der kan bruges i en travl hverdag: hvem gør hvad, hvordan du prioriterer og kommunikerer (internt og eksternt), og hvilke data du skal samle for at kunne løse hurtigere, dokumentere korrekt og lære af hændelsen.
Du får også konkrete eksempler, typiske faldgruber og en afsluttende 1-sides tjekliste samt forslag til forebyggelse, så næste incident bliver mindre dyr og mindre stressende.
Hvad er en incident playbook — og hvorfor betyder den noget?
En incident playbook er en foruddefineret handleplan for, hvordan du opdager, eskalerer, koordinerer, kommunikerer og afslutter en IT-hændelse (incident) på en ensartet måde. Det kan være alt fra ransomware, nedetid på webshop, mail-udfald, læk af data, fejl i integrationer eller en kritisk server, der løber tør for disk.
Grunden til, at det betyder noget, er enkel: Når presset er højt, falder beslutningskvaliteten. En playbook flytter beslutningerne fra “hvad gør vi nu?” til “vi følger planen”. I praksis er forskellen ofte timer i nedetid og markant færre fejl undervejs.
Mini-konklusion: En playbook er ikke bureaukrati; den er en genvej til ro, tydelige roller og hurtigere gendannelse.
Overblik: Faser og mål i en god incident-proces
En brugbar playbook kan holdes enkel og stadig være effektiv. Tænk i fem faser, som kan gentages og skaleres op/ned efter alvor:
- Triagering: Bekræft incident, vurder alvor og stop blødningen.
- Stabilisering: Gør systemet sikkert/driftsklart nok til at arbejde videre.
- Fejlfinding: Find årsag eller sandsynlig årsag og plan for varig løsning.
- Gendannelse: Normal drift, verificering og oprydning.
- Efterbehandling: Tidslinje, læring, forbedringer og opfølgning.
En typisk fejl er at hoppe direkte til fejlfinding. I virkeligheden er “stop blødningen” ofte mest værdifuldt: isolér, begræns skade, og køb tid.
Mini-konklusion: Hvis alle kender faserne, bliver incidenten håndteret mere som et projekt og mindre som en brandøvelse.
Roller og ansvar: hvem gør hvad, når det brænder på?
En incident kræver flere roller end “den der kan mest teknik”. Du kan have få mennesker og stadig følge strukturen — én person kan dække flere roller i små teams, men rollerne skal være tydelige.
De 6 kerneroller (kan skaleres)
- Incident Manager: Leder processen, prioriterer, holder tempo, sikrer opdateringer.
- Teknisk Lead: Ejer den tekniske retning, koordinerer fejlfinding og fixes.
- Kommunikationsansvarlig: Formulerer interne/eksterne updates, styrer budskaber.
- Scribe (logfører): Samler tidslinje, beslutninger, ændringer og observationer.
- Stakeholder-ejer: Kontakt til forretning/ledelse, afklarer konsekvens og prioritet.
- Security/Compliance (ved behov): Vurderer data/risiko, rådgiver om lovkrav og bevis-sikring.
RACI-light: sådan undgår du dobbeltarbejde
Brug en enkel ansvarsfordeling: Én er ansvarlig for beslutninger (Incident Manager), én for den tekniske løsning (Teknisk Lead), og resten støtter. Aftal også hvem der må “trykke på knappen” (fx rollback, DNS-ændringer, firewall-blokering).
Mini-konklusion: Hvis to personer tror, de leder, taber I tid. Hvis ingen leder, taber I endnu mere.
Prioritering og alvor: sådan triagerer du uden at gætte
En klassisk udfordring er at få sat et severity-niveau hurtigt og rimeligt. Her er en praktisk model, der virker i både SMB og enterprise: vurder påvirkning og hast.
Severity-skala (S1–S4) med konkrete kriterier
Tilpas tallene til din virkelighed, men hold kriterierne faste:
- S1 Kritisk: Total nedetid eller sikkerhedshændelse med høj risiko. Mange brugere ramt, omsætning stopper, eller data kompromitteret.
- S2 Høj: Væsentlig forringelse. Centrale funktioner nede, workaround begrænset, flere teams involveret.
- S3 Mellem: Afgrænset problem. Få brugere ramt, workaround findes, lav risiko.
- S4 Lav: Kosmetisk/ikke tidskritisk. Planlægges i normal backlog.
Spørgsmål der afgør prioritet på 3 minutter
- Hvor mange kunder/brugere er ramt, og hvor kritisk er funktionen?
- Er der tegn på aktivt angreb, datalæk eller lateral bevægelse?
- Stopper incidenten omsætning, produktion eller levering?
- Er der en hurtig workaround (fx feature toggle, rute om, failover)?
- Hvad er “worst case” hvis vi venter 30 minutter?
Praktisk tommelfingerregel: Hvis du er i tvivl mellem S1 og S2, så start som S1 og nedgrader, når du har fakta. Det er lettere at skrue ned end at forklare, hvorfor I reagerede for sent.
Mini-konklusion: Prioritering handler ikke om følelser; det handler om fælles kriterier og hurtig afklaring.
Kommunikation internt: rytme, kanaler og eskalering
Under en incident er “manglende information” ofte det, der skaber mest støj: folk ping’er hinanden, laver parallel fejlfinding, eller ledelsen får uens historier. Derfor bør din playbook definere faste kommunikationsregler.
Opsæt et “war room” og en opdateringskadence
Vælg én primær kanal (Teams/Slack) og én sekundær (telefon) til kritiske beslutninger. Ved S1/S2: opdater hver 15.–30. minut, også selvom der ikke er nyt. En standard-sætning som “vi undersøger fortsat, næste update kl. 10:30” reducerer stress og afbrydelser.
Interne statusbeskeder: hold det kort og beslutningsklart
Brug en fast skabelon:
- Status: Hvad ved vi nu?
- Påvirkning: Hvem/hvad er ramt (antal, funktioner, geografi)?
- Handling: Hvad gør vi, og hvem gør det?
- Næste milepæl: Hvornår ved vi mere?
Mini-konklusion: Hyppige, ensartede updates skærer “støj” væk og giver teamet arbejdsro.
Kommunikation eksternt: kunder, partnere og det du ikke bør love
Ekstern kommunikation kræver disciplin: Du skal være hjælpsom uden at spekulere. Det er bedre at sige “vi undersøger” end at gætte på årsag eller tidshorisont.
Hvis du vil have en fast plan og support til hændelser (inkl. hvem der ringer til hvem, og hvordan du melder ud), kan det give stor ro at have en lokal partner som IT-support i Holbæk til at hjælpe med processer og drift i hverdagen.
Best practice: tre niveauer af ekstern besked
- Bekræftelse: “Vi oplever problemer med X og undersøger.”
- Workaround: “Midlertidigt kan du gøre Y.”
- Afslutning: “Fejlen er løst, og vi overvåger.”
Undgå de klassiske faldgruber i krisekommunikation
- At love en deadline (“løst om 20 min”) uden sikkerhed.
- At dele tekniske detaljer, der øger risiko (fx IP’er, sårbarheder) før du er sikker.
- At give forskellige beskeder på tværs af kanaler.
- At vente for længe med første udmelding.
Mini-konklusion: Ekstern kommunikation handler om tillid: vær hurtig, faktuel og konsekvent.
Data og dokumentation: tidslinje, påvirkning og sandsynlig årsag
Hvis du kun “fikser” og ikke dokumenterer, kommer problemet igen — og næste gang tager det lige så lang tid. Den bedste dokumentation er enkel og kan føres live under incidenten.
Incident-log: hvad du skal samle undervejs
- Tidslinje: Første alarm, bekræftelse, ændringer, beslutninger, gendannelse.
- Påvirkning: Hvilke services, kunder, lokationer, antal brugere, omsætningskritiske flows.
- Symptomer: Fejlbeskeder, performance-mønstre, timeouts, spikes.
- Handlinger: Hvad blev ændret (og af hvem), inkl. rollback/failover.
- Beviser: Logs, screenshots, audit events, netflow (ved sikkerhed).
Hurtig root cause vs. “sandsynlig årsag”
I praksis skal du ofte vælge mellem at få drift op nu og at lave fuld årsagsanalyse. Skriv tydeligt om det er “bekræftet årsag” eller sandsynlig årsag. Eksempel: “Vi har midlertidigt stabiliseret API’en ved at rulle tilbage til version 2.3; den sandsynlige årsag er en ændring i rate limiting, men vi mangler at verificere i logs.”
Mini-konklusion: En god tidslinje gør efterbehandlingen 5x nemmere og reducerer gentagelser.
Teknisk håndtering i praksis: stop blødningen før du optimerer
Selv med stærke folk kan man spilde tid ved at optimere for tidligt. Tænk i tre “værktøjer”, der ofte redder mest tid:
Stabiliseringsværktøjer (hurtige greb)
- Rollback til sidste kendte gode release.
- Failover til sekundært miljø eller read-only mode.
- Feature toggle for at slå problemfunktioner fra uden fuld nedetid.
- Rate limiting eller midlertidig blokering ved mistænkelig trafik.
Verificering: hvornår er det “løst”?
Definér “done” før du erklærer sejr: 1) overvågning viser normal drift, 2) forretningen har testet kritiske flows, 3) der er ingen nye fejlspikes i 30–60 minutter (afhængigt af system). Ved sikkerhed: 4) bevis-sikring og vurdering af kompromittering er i gang, ikke først bagefter.
Mini-konklusion: En løsning er først en løsning, når den er verificeret og ikke kun “ser ud til” at virke.
Efterbehandling, omkostninger og læring: sådan får du incidenten til at betale sig tilbage
“Hvad koster det?” bliver ofte først spurgt om bagefter, men det er en del af playbooken at kunne estimere. Omkostninger er typisk en kombination af nedetid, tabt produktivitet og ekstra timer. En enkel beregning for en webshop kan være: tabt omsætning pr. time + ekstra support/marketing + udviklertid. Selv for mindre virksomheder kan en S1 hurtigt løbe op, hvis 10–30 medarbejdere står stille i to timer.
Post-incident review (PIR): 30 minutter der flytter meget
Hold et kort møde inden for 3–5 arbejdsdage. Fokusér på læring, ikke skyld. En god PIR besvarer:
- Hvad skete der (tidslinje med fakta)?
- Hvad var påvirkningen (tal og scope)?
- Hvad var den primære årsag og evt. bidragende årsager?
- Hvad gik godt i responsen?
- Hvilke 3 forbedringer giver mest effekt inden for 30 dage?
Typiske fejl og hvordan du undgår dem
- Ingen ejer: Udpeg Incident Manager hver gang, også i små teams.
- Ingen log: Hav en scribe fra start, ellers mangler du fakta.
- For mange kanaler: Én sandhedskanal, ellers opstår rygter.
- Overfokus på root cause for tidligt: stabilisér først.
- Manglende beslutningsspor: Notér hvorfor I valgte rollback vs. hotfix.
Mini-konklusion: Den største værdi kommer ofte efter incidenten: bedre processer, mindre gentagelse og kortere MTTR næste gang.
1-sides tjekliste + forebyggelse (klar til at kopiere)
Tjekliste: Incident playbook (1 side)
- 1) Bekræft incident: Hvad er symptom, hvilke systemer, hvornår startede det?
- 2) Sæt severity: S1–S4 ud fra påvirkning og hast. Start højt ved tvivl.
- 3) Roller: Incident Manager, Teknisk Lead, Kommunikationsansvarlig, Scribe, Stakeholder-ejer (og Security ved behov).
- 4) War room: Én kanal, én beslutningslinje, opdateringskadence (S1/S2: 15–30 min).
- 5) Stop blødningen: Isolér, rollback, failover, toggles, begræns trafik.
- 6) Logfør live: Tidslinje, beslutninger, ændringer, påvirkning, beviser/logs.
- 7) Kommunikation: Intern skabelon (status/påvirkning/handling/næste). Ekstern: bekræftelse + workaround + næste update.
- 8) Verificér løsning: Overvågning OK + forretningstest + stabil periode + evt. sikkerhedstjek.
- 9) Efterbehandling: PIR inden 3–5 dage, 3 konkrete forbedringer, ejer og deadline.
Forebyggelse: 8 tiltag der typisk giver mest effekt
- Overvågning med alarmer der kan handles på: færre, bedre alarmer (latency, fejlrate, kapacitet).
- Backup og restore-test: test gendannelse kvartalsvist; backup uden restore er en antagelse.
- Patch- og sårbarhedsstyring: faste vinduer og ansvar, især for eksternt eksponerede systemer.
- Adgangsstyring: