Journalistiek

Onpartijdig, onafhankelijk nieuws, uitsluitend in dienst van het branchebelang.

ProRail datacenter storing: De mens en redundantie als storingsfactor

  • Door
  • Arnout Veenman
  • geplaatst op
  • 4 februari 2015 14:45 uur

Afgelopen dinsdag lag het treinverkeer rondom Utrecht CS volledig plat. De oorzaak daarvan was een storing in het datacenter dat ProRail gebruikt. Opvallend is dat de storing veroorzaakt werd door een stroomstoring tijdens gepland onderhoud aan de stroomvoorziening van het datacenter. Deze storing leidde tot een kettingreactie die er uiteindelijk voor zorgde dat het treinverkeer niet meer kon worden geregeld.

Stroomstoring datacenter

In een verklaring over de storing schrijft ProRail dat het gebruik maakt van het datacenter van British Telecom in Nieuwegein. Dit datacenter volledig redundant is opgezet en voldoet aan de Tier III-standaard. Volgens ProRail is dat de ‘hoogst mogelijke internationale vereiste standaard’, maar er is natuurlijk nog één stap hoger, namelijk de Tier IV-standaard.

Het afgelopen weekend werd er onderhoud verricht aan het datacenter om de stroomvoorziening van het datacenter uit te breiden. In totaal heeft het datacenter drie stroomvoorzieningspaden (feeds). In het weekend werd er aan één van die feeds gewerkt. Het onderhoud ging goed, maar één van de andere twee feeds kreeg tegelijkertijd wel een storing:

De aanpassing aan het ene stroomvoorzieningskanaal is afgelopen zondag zonder problemen verlopen. We werden zondag echter wel geconfronteerd met een kortstondige uitval van de systemen. Deze systemen zijn verbonden aan één van de twee stroomvoorzieningskanalen, waar niet aan is gewerkt. De systemen functioneerden na de kortstondige uitval weer normaal.

Storing Storage Area Network

Op maandagochtend om 8:00 uur viel één van de computersystemen van verkeersleidingpost Utrecht uit. Dit systeem maakte gebruik van de zondag daarvoor uitgevallen servers in het datacenter. Als gevolg daarvan werd er overgeschakeld op een backup-systeem. De overschakeling zorgde voor een te zware belasting van het Storage Area Network (SAN) van ProRail.

Door de overschakeling naar de back-up ontstond, naar nu blijkt een te zware belasting op het systeem waar de data van het treinverkeersysteem wordt opgeslagen: de dataserver (Storage Area Network). Hierdoor werd het systeem traag. Er trad een onwerkbare situatie op voor onze treinverkeersleiders. De treinverkeersleiders konden de seinen en wissels buiten niet goed bedienen. Er is toen besloten om een aantal werkplekken van treindienstleiders uit te schakelen. Hierdoor kreeg het totale systeem ‘lucht’ en kon de treindienst rond 12:30 uur beperkt worden opgestart.

De voorlopige conclusie die ProRail over de storing trekt is interessant:

De eerste conclusie is dat het totale systeem inclusief de redundantie (de backupsystemen) in het weekend een ‘tik’ hebben gekregen vanwege de kortstondige uitval die zeer waarschijnlijk ontstond door een verstoring in de stroomvoorziening.

De mens en redundantie als storingsfactor?

Hoe is het mogelijk dat het totale systeem inclusief het backupsysteem een ‘tik’ krijgen van een kortstondige stroomstoring? Redundantie betekent toch dat een systeem kan doordraaien juist wanneer er sprake van een storing is? Hopelijk kan ProRail ons daar later meer over vertellen.

Wel bevestigt deze storing bij ProRail twee dingen:

  • Allereerst dat storingen aan de infrastructuur in datacenters vaak ontstaan wanneer er dingen worden veranderd of meer in het algemeen als het gevolg van menselijk handelen. Wanneer de datacenterinfrastructuur draait, dan blijft het meestal wel draaien. Pas wanneer er mensen in de buurt zijn of nog sterker wanneer die dingen gaan veranderen. Dan worden storingen een serieus risico.
  • Ten tweede laat het ook zien hoe belangrijk het is om redundantie goed op te zetten. Wanneer de redundantie nodig is, dan is er iets aan de hand. Het overschakelen op de backup zal daarom vrijwel nooit gebeuren onder ideale omstandigheden. Is elk onderdeel van het redundantiesysteem daar geschikt voor (en is er geen single point of failure zoals in dit geval het Storage Area Network)? Daarnaast kan een systeem redundant maken, ook betekenen dat er een nieuwe single point of failure in het systeem ontstaat. Daardoor kun je dan van de regen in de drup raken.

Imago van de branche

Een laatste, een beetje grappig maar wel serieus punt is, hoe lastig het voor de goegemeenschap is om te begrijpen wat een datacenter en complexe IT-infrastructuur betekent. De volgende reactie werd door iemand onder de uitleg van ProRail geplaatst (en is daarna ook verwijderd). Het is heel grappig om te zien, maar laat ook zien dat de hosting- en datacenterbranche nog werk te doen heeft om niet alleen te werken aan het eigen imago, maar ook bekendheid te krijgen bij ‘de onderbuik van Nederland’.

https://twitter.com/veenman/status/562687075234103297

Wieger, 4 februari 2015 4:17 pm

Een tik? Ze moeten die man een tik geven, richting het UWV. Schandalig dit.

benjamin b, 5 februari 2015 10:30 am

Wanneer accepteren wij als samenleving dat alles wat met technieken te maken heeft een keer faalt? Redundantie inclusief HA is allemaal mooi, maar het maakt de techniek ook een stuk complexer en zolang wij mensen deze technieken (deels) handmatig blijven bedienen, programmeren of beheren zie ik uitval van systemen de komende 20-30 jaar nog vaker gebeuren (in alle sectoren).

Het systeem van Prorail werd tot een aantal jaren geleden volledig beheerd door Atos, door een aantal technische storingen is door Prorail gekozen om de techniek binnenshuis te laten beheren. Dit geintje heeft (los van het uitkopen van de contracten met verschillende dienstverleners) al miljoenen euro's gemeenschapsgeld gekost.

Ik neem aan dat de protocollen m.b.t. het reguliere onderhoud netjes zijn opgevolgd en dat er geen schuldige valt aan te wijzen.

Laatste reacties

Bedankt voor het succes van ISPam.nl
Koen Stegeman, Editor-in-Chief & founder Hostingjournalist.com: Jammer Arnout, maar je hebt een mooie bijdrage aan de hosting industrie geleverd, en dat jaren lang....

Bedankt voor het succes van ISPam.nl
Dillard Blom: Jammer dat een 'instituut' verdwijnt, en daarmee een bron van informatie over actuele zaken (en opin...

Bedankt voor het succes van ISPam.nl
L.: Uit automatisme kijk ik toch nog steeds elke dag naar ispam.nl, toch de hoop dat er nog een berichtj...

Bedankt voor het succes van ISPam.nl
Toni Donkers: Arnout bedankt! ik ga het missen dat is een feit!

Bedankt voor het succes van ISPam.nl
Marcel Stegeman: Ik zie het nu pas. Inderdaad jammer maar ik kijk nu al uit naar het volgende project.