Journalistiek

Onpartijdig, onafhankelijk nieuws, uitsluitend in dienst van het branchebelang.

Zeven vragen aan SIDN over zeer ernstige storing DRS

  • Door
  • Arnout Veenman
  • geplaatst op
  • 17 december 2010 08:07 uur

Het rapport (pdf) over de zeer ernstige storing bij SIDN van zowel het primaire als de fallback van het domeinregistratie systeem bevatte in de ogen van de ISPam.nl redactie te weinig achtergrondinformatie. Daarom hebben wij SIDN zeven kritische vragen gesteld, die door SIDN-manager Sieger Springer per e-mail zijn beantwoord. Om de lezer een zo goed mogelijk beeld te geven publiceren wij de vragen en antwoorden hier integraal en zonder bewerking.

1. Hoe kan het zijn dat de configuratie-fout niet eerder is ontdekt?

In de infrastructuur van SIDN is onder meer  sprake van scheiding op basis van VLAN’s. Een aantal systemen is op meerdere VLAN’s aangesloten, waarbij elk VLAN zijn eigen gebruiksdoel heeft. Afhankelijk van dit gebruiksdoel is er sprake van wel of geen redundantie in de vorm van dubbele switches en netwerk-interfaces. De genoemde configuratie-fout had betrekking op een dergelijke VLAN-configuratie. Hoewel de betreffende systemen voorafgaand aan de storing goede connectiviteit hadden, verliep deze connectiviteit niet over het daarvoor bedoelde redundante VLAN. In plaats daarvan verliep de connectiviteit over een ander VLAN dat niet redundant was uitgevoerd. Toen dit VLAN tijdens de storing werd uitgeschakeld middels het herstarten van een switch, in de veronderstelling dat hier geen belangrijk verkeer over werd afgehandeld, kwam aan het licht dat dit onbedoeld wel het geval was.

Om te verklaren waarom deze configuratie-fout niet eerder werd ontdekt kan het beste de vergelijking met een software-bug worden gemaakt. Die sluipt in de software en blijft onopgemerkt, totdat zich bepaalde een situatie voordoet. Tot die tijd functioneert het programma in kwestie normaal. Dit was ook het geval met DRS.

2. Waarom was er helemaal geen (identieke) spare switch aanwezig?

Redundantie in het netwerk maakt cold stand-by ter plaatse overbodig. Mocht er apparatuur uitvallen, dan neemt andere apparatuur de taken over, totdat de defecte hardware is vervangen. Voor vervanging van defecte hardware is voorzien in een combinatie van hardware op voorraad en goede servicecontracten met leveranciers. Vervanging duurt dus in de regel maximaal enkele uren maar zou vanwege de beschikbare redundantie geen verstoring van het systeem tot gevolg moeten hebben.

3. Waarom worden de logs, waar op basis van eventuele fouten in het systeem worden hersteld naar het zelfde volume weggeschreven, waardoor beide in het geval van corruptie dan wel vollopen van het volume vatbaar is?

De zogenaamde ‘archive logs’ worden wel degelijk naar een ander volume geschreven, dat op zijn beurt onderdeel uitmaakt van een RAID-configuratie. Dit geldt ook voor de zogenaamde alert logs.

4. Blijkt uit de storing dat in de architectuur van het systeem dat nou DRS is of het onderliggende (hardwmatige en/of softwarematige) platform, ontwerp-fouten bevat?

Nee, de architectuur en het ontwerp daarvan is in orde, ware het niet dat de configuratie en het ontwerp uiteenliepen. SIDN streeft naar een robuust en onfeilbaar systeem. Daarvoor worden kosten noch moeite gespaard. Er is voorzien in redundantie en ‘high availability’ in de ruimste zin van het woord.

5. De belangrijkste vraag, die niet uit het rapport blijkt is, wat de rol van SIDN hierin is. Hoe heeft dit zou fout kunnen gaan. Waarom heeft SIDN deze problematiek niet eerder kunnen voorkomen/voorzien?

In het rapport staat wel degelijk wat de rol van SIDN is en het rapport geeft ook aan dat het om een opeenstapeling van tegenslagen ging.

6. Erkent SIDN dat ze niet alleen een inspanningsverplichting maar ook een resultaatsverplichting naar de registrars en via de registrars naar alle .nl-stakeholders heeft om er voor te zorgen dat DRS daadwerkelijk highly available is (99.99%+)?

Vanzelfsprekend streeft SIDN naar een zo hoog mogelijke beschikbaarheid van haar systemen. Hierin heeft de beschikbaarheid van de .nl-zone (resolving) de hoogste prioriteit. Ook ten aanzien van de beschikbaarheid van het registratiesysteem en verwante diensten (Whois) wordt naar een zo hoog mogelijke beschikbaarheid gestreefd.

Op dit moment heeft SIDN geen concrete service levels met haar registrars afgesproken. Wat ons betreft zou dit een goed onderwerp van gesprek zijn met de komende Vereniging van Registrars.

7. Hoe kijkt SIDN in het licht van de storing naar haar eigen competentie met betrekking tot het beheren en beschikbaar houden van het systeem waarmee domeinnamen worden geregistreerd?

Het .nl-domein behoort tot de selecte groep van meest betrouwbare, stabiele en veilige top level domeinen. Dit wordt ook internationaal erkend. Dat zegt genoeg over (de competentheid van) SIDN als beheerder van het .nl-domein.

Over de twee laatste vragen hebben we nadere uitleg gevraagd, met name wilden wij een ja- of nee-antwoord op de vraag of de SIDN erkent dat men een resultaatverplichting heeft om het DRS daadwerkelijk high available te houden. SIDN-manager Sieger Springer gaf echter aan dat men bij de SIDN van mening is afdoende informatie te hebben verstrekt over de verstoring middels het RFO en de antwoorden op onze vragen.

Jeroen, 17 december 2010 9:41 am

Ooooooh, dus de onbeschikbaarheid van de primaire locatie en het falen van iets dat op een failover lijkt kwam alleen maar omdat 1 vlan verkeerd geconfigureerd stond!

Wat is de SIDN toch een topbedrijf <3!

Ik had graag nog de vraag gezien waarom er geen failover testen hebben plaats gevonden en waarom de redundantie nooit getest is. Dit had bij de start van DRS5 kunnen gebeuren en dan was dit minimale configuratiefoutje aan het licht gekomen.

Sebastiaan Stok, 17 december 2010 10:10 am

Inderdaad! een fout in een complexe configuratie kan voorkomen, maar een fout in één enkel VLAN die niet eens is getest voor een organisatie van deze omvang is echt laakbaar ten top :|


"Op dit moment heeft SIDN geen concrete service levels met haar registrars afgesproken. "
Dat is allerminst opmerkelijk, gezien de bedragen die je moet betalen vind ik het niet meer dan normaal dat je een service contract hebt.

patrick, 17 december 2010 12:42 pm

Erg jammer dat de SIDN fouten gewoon niet wil toegeven en dit afschuift op configuratie foutjes. (*nee dat is naar mijn mening niet toegeven dat er een fout is gemaakt, maar je verstoppen achter configuraties*) het zou de SIDN sieren om gewoon te zeggen; We fucked up; and have learned from the situation and are working on improving our services. i.p.v. je te verschuilen achter hoe goed je het allemaal wel niet hebt gedaan.

Memnon, 18 december 2010 9:11 am

Wat een genuil @ sidn toch altijd. Ok, dit wint niet de schoonheids prijs maar waarom kijkt u naar de splinter in het oog van een ander, en merkt u de balk niet op in uw eigen oog?

patrick, 18 december 2010 9:53 am

@memnon kan iedereen gebeuren, maar de duur van deze outage komt waarschijnlijk bij de bezoekers van dit blog ERG weinig voor, en zeker niet door een klein configuratie foutje (SIDN's woorden, niet die van mij)daarom zou het de SIDN sieren om gewoon toe te geven dat ze een FOUT hebben gemaakt en het niet proberen te downplayen, het is toch van de zotte dat men tegenwoordig niet meer accountable en responsible wil zijn voor de eigen toko ? Lijkt wel een trent in nederland.

Casper Bakker, 20 december 2010 9:09 am

Patrick slaat de spijker op z'n kop. Iedereen in de IT weet dat storingen voor kunnen komen, ook als ze 'dom' zijn of veel te lang duren. Maar het zou de SIDN een stuk volwassener maken als ze gewoon zeggen dat het een fout is geweest en dat ze er van hebben geleerd.

Andre, 29 december 2010 2:59 pm

"Het .nl-domein behoort tot de selecte groep van meest betrouwbare, stabiele en veilige top level domeinen. Dit wordt ook internationaal erkend. Dat zegt genoeg over (de competentheid van) SIDN als beheerder van het .nl-domein."

Wat een lachwekkend/weerzinwekkend antwoord. Ten eerste zijn er maar weinig TLD's die zo vaak problemen hebben. Daarnaast zegt erkenning over zoiets abstracts helemaal niets over competentie (en ik zou ook wel eens een bronvermelding willen zien, want ik betwijfel sterk of dit uberhaupt klopt). Bovenal blijkt in de praktijk die competentie ver te zoeken (c.q. compleet afwezig).

Na zo'n gigantische blunder nog aan durven komen zetten met argumenten over internationale erkenning.. en daarbij de hele kwestie van de hand doen als een opstapeling van kleine foutjes. Ongelooflijk.

Laatste reacties

Bedankt voor het succes van ISPam.nl
Koen Stegeman, Editor-in-Chief & founder Hostingjournalist.com: Jammer Arnout, maar je hebt een mooie bijdrage aan de hosting industrie geleverd, en dat jaren lang....

Bedankt voor het succes van ISPam.nl
Dillard Blom: Jammer dat een 'instituut' verdwijnt, en daarmee een bron van informatie over actuele zaken (en opin...

Bedankt voor het succes van ISPam.nl
L.: Uit automatisme kijk ik toch nog steeds elke dag naar ispam.nl, toch de hoop dat er nog een berichtj...

Bedankt voor het succes van ISPam.nl
Toni Donkers: Arnout bedankt! ik ga het missen dat is een feit!

Bedankt voor het succes van ISPam.nl
Marcel Stegeman: Ik zie het nu pas. Inderdaad jammer maar ik kijk nu al uit naar het volgende project.