button cirs

Veröffentlichung des Falls am 27.07.2021

Art des Zwischenfalls

Festzustellen war, dass ELDIS immer langsamer wurde und plötzlich keine Alarmierungen mehr über das System gingen. Kurz darauf hat GEO nicht mehr funktioniert. Hier war die erste Maßnahme an einem Einsatzleitplatz (ELP), dass ELDIS neu gestartet wird. Ohne Erfolg, da der Kollege sich nicht mehr an der ELDIS Datenbank anmelden konnte und nun auch alle anderen ELP nicht mehr funktionierten. Hier wurde sofort die IT und die freien im Haus befindlichen Mitarbeiter in den Einsatzleitraum (ELR) beordert und der Betrieb sofort auf Rückfallebene mit den unten beschriebenen Maßnahmen umgestellt. Die ILS war ca. 30 Minuten offline und im Notbetrieb.

In der Woche davor gab es ein Datenbankupdate durch Eurofunk Kappacher und dies zeigte sich auch als Grund des Vorfalls:
Vor dem Update wurde richtiger Weise ein Backup gemacht und dieses gesichert. Die Festplatten sind aber immer am Limit. Nach dem erfolgreichen Update der Datenbank wurde das Backup nicht gelöscht. An dem Tag des Zwischenfalls hat das System ein routinemäßiges Backup durchgeführt. Da jedoch die Festplattenkapazität erschöpft war, hat sich die Datenbank aufgehangen und es war kein Arbeiten mehr möglich. Normalerweise wird im ersten Step für Rückfallebenen das Schulsystem genutzt. Dies war wegen einer Wartung nicht möglich und so musste auf die Rückfallebene "Papier" umgestiegen werden.

Es erfolgte Aufbau Rückfallebene 2 (Notausdruck --> war nicht mehr möglich; Papierlisten, Vorhaltelisten, Vorbereitung händische Alarmierung, Einsatzmittelkettenordner etc.); sofortige Alarmierung der EDV und durch diese Eurofunk Kappacher; sofortige Information der Nachbarleitstellen, dass ab sofort Notbetrieb ohne ELDIS herrscht; Nachbesetzung durch Mitarbeiter der Verwaltung / Leitung.
Rückfallebene 1 (ELDIS Schulungssystem und Schnittstellenschwenk) konnte nicht erfolgen, da Eurofunk Kappacher am Schulungssystem eine Wartung durchführte und dieses daher nicht verfügbar war. Allerdings war dies auch Zeitvorteil, da Eurofunk Kappacher bereits per Fernwartung aufgeschaltet war und so sofort reagieren konnte.
Betrieb auf Rückfallebene 2 für ca. 40 Minuten bis der Fehler behoben werden konnte und das System wieder stabil lief. Zur Sicherheit  erfolgte 10 Minuten parallel Betrieb (ELDIS / Rückfallebene).

Der Melder schlägt vor, dass der Vorfall mit Eurofunk Kappacher aufgearbeitet werden sollte mit der Anforderung, dass Checklisten für Update / Wartungsarbeiten zu erstellen sind analog wie in der Luftfahrt und diese konsequent abgearbeitet werden müssen.

 

Ursache

Kernproblem des Falls:
Bei einem Update wurde das Backup der Datenbank nicht gelöscht. Dies führte dazu, dass die Festplattenkapazität erschöpft war und sich dadurch die Datenbank "aufhängte". Ein Arbeiten war nicht mehr möglich.
Der geschilderte Fall ist auf jeden Fall durch Löschen des Backups vermeidbar (-> Checkliste des SWC bei Updates), die Gefahr einer Wiederholung des Vorfalls ist immer wieder möglich.

 

Fehlerbegünstigende Faktoren (nach London-Protokoll):

  • organisations‐ und managementabhängig:
    • Jede ILS in Bayern besitzt mit dem Systemlieferanten Eurofunk einen eigenen, individuellen Wartungsvertrag.
      Die Wartung, durch Eurofunk, kann mittels zwei Möglichkeiten stattfinden:
      • Vor Ort Termin, der Software Consultant (SWC), Techniker, befindet sich im Gebäude der ILS und führt in Anwesenheit die Wartung durch.
      • Remote Zugriff, der SWC, Techniker bekommt die Freigabe der ILS, sich per Fernwartung auf das System ELDIS/IDDS 512 oder ELDIS/IDDS UcIP aufzuschalten, die Wartung durch zu führen.
    • Je nach Zugang befindet sich der SWC im System des ILS. Sowohl persönlich anwesend, wie aber auch per Fernwartung, agiert der SWC alleine und unabhängig im System. Es ist der Systemadministration nur in Bruchstücken bekannt, was der SWC macht/ausführt. Viele Arbeiten ergeben sich teilweise auch durch die dementsprechenden Arbeiten und Konfigurationen, weil hier teilweise selbst oder durch Dritte festgestellt wird, dass die Konfiguration nicht stimmt.
    • Es wäre hier eine grundlegende Forderung, dass der Systemlieferant anzeigt, was am System gemacht wird, was für Auswirkungen das haben kann, welche Module betroffen sind. Dies ist im Vorhinein schriftlich dem Betreiber der ILS anzuzeigen. Nach dieser Anzeige erfolgt die Freigabe zur Durchführung der Arbeiten.
  • teamabhängig::
    • Das ILS-Team hat sehr schnell bemerkt, dass sich das ELS auffällig verhält, es zu deutlichen Performance Problemen kommt. Hierbei kam der glückliche Umstand zu tragen, dass eine interne Fortbildung im Haus war, somit in kürzester Zeit die Notfallebene hochgefahren werden konnte.
    • Die Kommunikation innerhalb der ILS war allem Anschein nach sehr gut. Das umschwenken von Regelbetriebsebene auf Notfallebene wurde ohne Probleme vollzogen.
  • individuell:
    • Die ILS hat durch bestehende Vorarbeiten, dementsprechende Schulungen schon dazu beigetragen, dass ein Umschwenken von Regelbetrieb auf Notfallbetrieb, für das Personal kein Stress verursacht hat.
    • Durch die im Haus bestehende Personalstärke, auch aufgrund der In-House Schulung, hielt sich die persönliche Belastung der einzelnen Mitarbeiter in Grenzen, da es zu keinem Mangelverhältnis gekommen ist.

Ergänzende Anmerkung:
In diesem speziellen Fall hat die ILS richtig, kompetent und zeitgerecht reagiert. Es kann aber bei zukünftigen Arbeiten am ELS durch den Systemlieferanten jederzeit wieder zu solch einem Zwischenfall kommen. Wenn man sich jetzt die Ursache, den Auslöser und die damit verbundene Konsequenz betrachtet, kann man eine Verkettung unglücklicher Umstände, ausgelöst durch individuelle Fehler, erkennen.
Es gibt aktuell kein dokumentiertes Verhalten, Anweisungen für die Software Consultants (SWC) der Firma Eurofunk. Jeder kann individuell für sich agieren wie er möchte. Beispielhaft konnte in einigen ILS eine falsche Konfiguration identifiziert werden, welche auf einen einzelnen SWC zurück zu führen war.

 

Vom AAT vorgeschlagene Interventionsmaßnahmen

  • Von Seiten der Betreiber, welche individuelle Wartungsverträge mit dem Systemlieferanten Eurofunk haben, sollte gefordert werden, dass gewisse Verfahren standardisiert werden, evtl. auch per SOP, Checklisten dokumentiert werden.
  • Auch sollte darüber nachgedacht werden, ob das Zwei-Augen-Prinzip, das hier durch den SWC/Techniker durchgeführt wird, ausreichend ist (der aktuelle Fall belegt eindeutig, dass es nicht ausreichend ist), oder ob man solche Fehler durch ein Vier-Augen-Prinzip (Einbindung des Systadmin der ILS?) verhindern kann.

 

Diese Meldung wird inhaltlich verantwortet von H. Mielke und der ILS-AAT-Leitung (M. Harrer, F. Dax und T. Drevermann).

 

Hinweis

Bitte beachten Sie, dass nicht jede durch ein AAT vorgeschlagene Interventionsmaßnahme auch durch die Steuerungsgruppe unmittelbar beschlossen werden kann. Nach erfolgter Beratung über die vorgeschlagenen Maßnahmen bzw. deren Umsetzung und unter Berücksichtigung finanzieller oder rechtlicher Aspekte werden nötigenfalls Änderungen innerhalb der beteiligten Organisationen und Institutionen getroffen. Die Steuerungsgruppe ist in einem solchen Fall immer bemüht, durch Abwandlung der Interventionsmaßnahme eine Umsetzbarkeit herzustellen. Leider ist dies jedoch nicht in jedem Fall möglich.
Bitte beachten Sie auch, dass die Lösungsvorschläge nicht immer bzw. nicht immer zeitnah und in gleicher Form für ganz Bayern umgesetzt werden können.
Aus Gründen der besseren Nachvollziehbarkeit sind die von der Steuerungsgruppe beschlossenen Maßnahmen nicht einzeln bei der jeweiligen Meldung aufgeführt, sondern als Übersicht unter Interventionsmaßnahmen.

partner links

logo arge komm ils

logo asb

logo bf-muenchen

logo bkg


logo johanniter

logo_adac



partner rechts

logo lpr

logo malteser

logo dlrg bayern










C17 Rettungshubschrauber Logo negativ 4C CMYK