Ik loop al jaren rond in beheeromgevingen. Daar heerst vooral de mindset van 'zero mistakes'. Fouten maken is not done. Sla’s en contracten zijn vooral gericht op het minimaliseren van het aantal fouten of incidenten. Maar is dit niet vreselijk old-skool en achterhaald? Steeds meer organisaties adopteren de DevOps-filosofie. DevOps is gericht op het multidisciplinair samenwerken tussen ontwikkeling (dev) en beheer (ops).
Sterker nog, voor een effectieve ketensamenwerking worden ook aangrenzende domeinen nauw betrokken, zoals de klant, architectuur, security, testen en leveranciers. In de praktijk leidt dit tot zelforganiserende teams, waar feedback, snelheid en voortdurend experimenteren van cruciaal belang zijn. Waarde en risico’s krijgen een totaal andere invulling dan voorheen.
Traditionele organisaties kennen nog vaak een zogenaamde “blaming culture”. Als mensen gestraft worden zodra fouten worden ontdekt, dan worden fouten in het vervolg bedekt. Maar wat gebeurt er als fouten gezien worden als waardevolle leerpunten, als cadeautjes? Juist, dan wordt de organisatie er beter van, sterker, sneller, effectiever.
Nassim Nicholas Taleb, één van de grote denkers van deze tijd, omschreef dit soort organisaties als 'antifragile'-systemen. Antifragile systemen, tegenovergesteld aan fragile systemen, leren en groeien door stressoren of tegenslagen. Dit geldt voor alle denkbare systemen, zoals organisaties, community’s, maar bijvoorbeeld ook spiermassa. Pas als je de gewichten voldoende verhoogt, zal spiermassa werkelijk toenemen. It-systemen werken net zo.
Bij Netflix hebben ze dit wel heel innovatief opgepakt. Met een uitermate bedrijfskritische productieomgeving, is betrouwbaarheid nogal een issue. Netflix ontwikkelde de (inmiddels open source) tool Chaos Monkey om deze betrouwbaarheid te optimaliseren. Deze destructieve agent haalt mogelijke gaten in het systeem naar boven, door willekeurig services in productie (!!!) onderuit te trekken. Het team staat klaar om problemen direct op te lossen. Het team leert hierdoor op zeer effectieve wijze van fouten of imperfecties en kan deze direct herstellen.
Ook zie ik steeds meer blameless postmortems ontstaan. Deze meetings vormen een veilige omgeving waarbinnen alle stakeholders de feiten boven tafel halen van het betreffende productieincident. Er wordt niet alleen gezocht naar een mogelijke root cause, maar vooral ook naar de condities waarbinnen de root cause zich heeft kunnen ontwikkelen. Dit accelereert het zelflerend vermogen van de gehele organisatie.
Zo willen we in it-servicemanagement onze it-diensten leveren. Met oog voor continue verbetering van de diensten, processen en mensen die de dienstverlening mogelijk maken. En met managers die ruimte scheppen en genomen risico’s belonen. Want fouten maken is menselijk. En dat is maar goed ook.
Dit artikel is eerder verschenen in Computable magazine jaargang 48, nummer 2 van februari 2015.