Routing-Störung nach Schaltsekunde

Am heutigen 01. Juli 2015 kam es durch einen Fehler in unseren Routern, der durch die heutige Schaltsekunde verursacht wurde, zu einem Totalausfall der Außenanbindung.

Die von uns eingesetzten Router synchronisieren ihre Systemzeit regelmäßig mit der Atomuhr der Physikalisch-Technischen Bundesanstalt in Braunschweig und dienen gleichzeitig als Synchronisations-Quelle für alle internen Systeme.

Das NTP-Protokoll sieht dabei explizit auch Schaltsekunden, die zur Korrektur der Tageslängen benötigt werden, vor. Eine solche Schaltsekunde wurde am heutigen 01.Juli 2015 (bzw. korrekterweise am 30. Juni 2015 um 23:59:60 Uhr UTC) festgelegt. In der westeuropäischen Zeitzone (CET) fand diese Schaltsekunde um 01:59:60 Uhr (CET) statt.

Durch einen Fehler in der eingesetzten Firmware kam es allerdings zu einer Störung in den Betriebsabläufen, die auf beiden Routern zeitgleich auftrat und so beide Systeme außer Betrieb nahm. Es war ein kompletter Reset der Geräte notwendig, welcher durch das Personal vor Ort im Rechenzentrum durchgeführt wurde.

Wir arbeiten nun mit dem Hersteller zusammen, um die Ursache zu lokalisieren und für zukünftige Schaltsekunden (die nächste ist allerdings erst in ca. zwei Jahren geplant) gerüstet zu sein.

Post navigation