Schlüsselwörter

1 Grundlagen der Verfügbarkeit

Dieses Kapitel befasst sich mit den grundliegenden Kenngrößen zur Berechnung der Verfügbarkeit von hochverfügbaren Systemen. Wichtige Begriffe, wie z. B. MTTF, MTTR und MTBF werden eingeführt. Anhand von einigen Berechnungsbeispielen soll erläutert werden, wie zusammengeschaltete Topologien zu berechnen sind.

1.1 Kenngrößen der Verfügbarkeit

Die ,,Mean Time to Failure“ (MTTF) ist eine statistische Zahl, mit der sich die Dauer des störungsfreien Betriebs einer elektronischen Baugruppe beschreiben lässt. Unter Betrachtung einer konstanten Ausfallrate λ ergibt sich die MTTF zu: [1, 4, 5]

$$ \textit{MTTF}=\frac{1}{\lambda } $$
(1)

Die Berechnung der MTTF erfolgt z. B. gemäß Telcordia SR332 [2] oder MIL-HDBK-217F [3]. Die Funktionsfähigkeit eines Geräts muss nicht zwangsläufig mit der zuvor ermittelten MTTF übereinstimmen, da es sich um eine statistische Kenngröße handelt. Die Höhe der MTTF hängt im Wesentlichen von folgenden Einflussfaktoren ab: Anzahl und Typ der Bauelemente, Einsatz-/ und Umgebungstemperatur und sonstige Umgebungsbedingungen. Typische Zeiten für die MTTF liegen im Bereich mehrerer Jahre. Die zweite wichtige Kenngröße für die Berechnung der Verfügbarkeit ist die MTTR, dass im Englischen für ,,Mean Time to Recover“ oder ,,Mean Time to Repair“ steht. Unter diesem Begriff ist der durchschnittliche Zeitbedarf für die Reparatur oder Austausch eines defekten Geräts zu verstehen. Hierin enthalten sind z. B. Zeit zur Ortung der Fehlerquelle, Austauschzeit des Gerätes und gegebenenfalls die Beschaffungszeit von Ersatzteilen. In der Regel liegt der typische Wert für die MTTR in einem Intervall zwischen mehreren Stunden und wenigen Tagen.

Eine weitere wichtige Kenngröße ist die MTBF, deren Abkürzung für ,,Mean Time Between Failures“ steht. Hierbei handelt es sich um die mittlere Betriebsdauer zwischen zwei Ausfällen, die sich aus den zuvor vorgestellten Kenngrößen MTTF und MTTR gemäß Gl. (2) berechnen lässt. [1, 4, 5]

$$ \textit{MTBF}= \textit{MTTF}+ \textit{MTTR} $$
(2)

Anhand von Abb. 1 soll der Zusammenhang zwischen MTTF, MTTR und MTBF verdeutlicht werden.

Abb. 1
figure 1

Zusammenhang zwischen MTTF, MTTR und MTBF

Aus den bereits definierten Kenngrößen von MTTF und MTTR lässt sich der Begriff der Verfügbarkeit V ableiten. Die Verfügbarkeit beschreibt die Funktionsfähigkeit von Geräten, Komponenten oder Systemen und kann Zahlenwerte zwischen 0 und 1 annehmen. Gl. (3) zeigt das grundliegende Berechnungsverfahren zur Ermittlung der Verfügbarkeit V. [1, 4, 5]

$$ V=\frac{\textit{MTTF}}{\textit{MTBF}}=\frac{\textit{MTTF}}{\textit{MTTF}+ \textit{MTTR}}=\frac{\textit{Zeit~st\"orungsfreier~Betrieb}}{\textit{Gesamtzeit}} $$
(3)

Demzufolge führen geringe Ausfallraten und kurze Wiederherstellungszeiten zu einer hohen Verfügbarkeit.

1.2 Verfügbarkeitsberechnung

Dieser Abschnitt beschäftigt sich mit der Verfügbarkeitsberechnung von Systemen, die aus mehreren Komponenten bestehen. Eine erste Variante zur Berechnung der Verfügbarkeit zeigt Abb. 2 mit der seriellen Verknüpfung von mehreren Komponenten.

Abb. 2
figure 2

Serienschaltung unter Berücksichtigung der Verfügbarkeit

Für seriell angeordnete Komponenten lässt sich die Gesamtverfügbarkeit nach Gl. (4) ermitteln. [1, 4, 5]

$$ {V}_{\textit{Seriell}}=\prod\limits_{i=1}^n{V}_i={V}_1\cdotp {V}_2\cdotp {V}_3\cdotp {V}_4=0,6\cdotp 0,7\cdotp 0,8\cdotp 0,9=0,3024 $$
(4)

Für die Gesamtverfügbarkeit der Reihenschaltung zeigt sich, dass die Gesamtverfügbarkeit des Gesamtsystems kleiner ist, als die der einzelnen Komponenten. Diese leuchtet ein, weil für die Funktion des Gesamtsystems alle Teilsysteme arbeiten müssen.

Abb. 3 zeigt den Aufbau einer Parallelschaltung. Hier kann der Ausfall einer Komponente kompensiert werden, unter der Voraussetzung, dass die zweite parallel aufgebaute Komponente noch einsatzfähig ist.

Abb. 3
figure 3

Parallelschaltung unter Berücksichtigung der Verfügbarkeit

Für die Berechnung einer Parallelschaltung wird die Nichtverfügbarkeit N gemäß Gl. (5) wie folgt definiert: [1, 4, 5]

$$ {N}_i=1-{V}_i $$
(5)

Die Berechnung der Nichtverfügbarkeit einer Parallelschaltung N Parallel lässt sich durch das Produkt aller Nichtverfügbarkeiten bestimmen, womit der gleichzeitige Ausfall der gesamten Parallelstruktur ausgedrückt wird.

$$ {N}_{\textit{Parallel}}=\left(1-{V}_1\right)\cdotp \left(1-{V}_2\right)\cdotp \dots \cdotp \left(1-{V}_n\right) $$
(6)

Im nächsten Schritt wird die Gegenwahrscheinlichkeit V Parallel zur Nichtverfügbarkeit N Parallel gebildet. [1, 4, 5]

$$ {V}_{\textit{Parallel}}=1-{N}_{\textit{Parallel}}=1-\left[\left(1-{V}_1\right)\cdotp \left(1-{V}_2\right)\cdotp \dots \cdotp \left(1-{V}_n\right)\right] $$
(7)

Die Parallelschaltung aus Abb. 3 lässt sich anhand von Gl. (8) folgendermaßen berechnen:

$$ {V}_{12}=1-{N}_{12}=1-\left[\left(1-{V}_1\right)\cdot \left(1-{V}_2\right)\right]=1-\left[\left(1-0,7\right)\cdot \left(1-0,8\right)\right]=0,94 $$
(8)

Unter Berücksichtigung des Ergebnisses von Gl. (8) lässt sich feststellen, dass die Gesamtverfügbarkeit durch den Einsatz einer Parallelschaltung gesteigert werden konnte. Ebenfalls lassen sich Netzstrukturen, die aus einer Kombination von Parallel- und Reihenschaltung bestehen, sich durch sukzessives Auflösen berechnen. Die bisher beschriebenen Methoden zur Berechnung zusammengeschalteter Systeme kommt bei ringförmigen und vermaschten Systemen an seine Grenzen, wie in Abb. 4 dargestellt.

Abb. 4
figure 4

Vermaschte Netzstruktur

Um Netzarchitekturen dieser Art berechnen zu können reicht die Auflösung von Reihen- und Parallelschaltungen nicht mehr aus. Es ist alternativ ein Berechnungsansatz nach dem Prinzip der minimalen Wege anzuwenden, dass unter [5] ausführlich beschrieben wird. Hierfür wurden an der Hochschule Hannover eine Software entwickelt, die für die Berechnungen in diesem Beitrag eingesetzt wurde.

1.3 Verfügbarkeitsklassen

Zur Einordung der Verfügbarkeitswerte stellt das Bundesamt für Sicherheit in der Informationstechnik (BSI) eine tabellarische Auflistung zur Verfügung, mit der sich Verfügbarkeitswerte und Ausfallzeiten kategorisieren lassen, siehe Tab. 1.

Tab. 1 Klassenzuordnung der Verfügbarkeit (BSI) [6]

Die Angaben zu den Ausfallzeiten beziehen sich auf eine Betriebslaufzeit von 7x24 Stunden und sollen dem Leser ermöglichen, die folgenden Verfügbarkeitszahlen einzuordnen.

2 Topologiekonzepte für hochverfügbare Netzwerke und Systeme

Dieses Kapitel beschäftigt sich mit der exemplarischen Analyse von vier verschiedenen Topologien für das Bussystem PROFINET. Für PROFINET wurden verschiedene Redundanzkonzepte definiert. Diese werden über die Kennungen S1, S2, R1 und R2-Redundanz beschrieben [4, 9,10,11]. Jeweils ein typischer Vertreter dieser Redundanzkonzepte soll im Folgenden in Bezug auf seine Verfügbarkeitskennzahlen betrachtet werden. Die nachfolgende Verfügbarkeitsberechnung orientiert sich dabei an der Berechnungsmethode der minimalen Wege durch den Gebrauch einer Netzwerkanalyse-Software, die speziell für die Untersuchung von vermaschten Automatisierungsnetzwerken an der Hochschule Hannover entwickelt wurde. Als Basis werden zunächst die MTTF-Werte realer Baugruppen [7] herangezogen. Auf dieser Basis wurde dann ein Beispiel-IO-Device mit fünf Digitaleingabebaugruppen, einer Digitalausgabe, einer Analogeingabe und einer Analog-Ausgabe und Trägermodul definiert. Netzteile wurden nicht berücksichtigt. Abhängig vom Redundanzkonzept verfügt dieses IO Device dann über einen Buskoppler mit zwei Ports (integrierter Switch) oder vier Ports (redundanten Anschaltung mit je einem integrierten Switch) Für die MTTR wird pauschal ein Wert von 1 h für elektronische Komponenten und von 8 Stunden für Steckverbinder (aufwändigere Fehlersuche, ggf. Einziehen von Kabeln) gemäß Tab. 2 angesetzt.

Tab. 2 Zahlenwerte für die Berechnung der Netzwerkverfügbarkeit [4]

Auf Basis von hochverfügbaren Systemen wurden die dargestellten Zahlenwerte für die Verfügbarkeit V mit den grundliegenden Berechnungsverfahren aus Kap. 1 ermittelt.

2.1 Topologie 1: Nicht-redundantes PROFINET-Netzwerk

Das Topologiesystem aus Abb. 5 beschreibt zunächst als Referenz den Aufbau eines nicht-redundanten PROFINET-Netzwerks, dass sich aus einem Controller, zwei externen Switches und sechs IO Devices zusammensetzt. Die platzierten Feldgeräte und Switches in den beiden Schaltschränken sind über eine sternförmige Anordnung miteinander verbunden. Der Datenverkehr zwischen der CPU und den Switches ,,Sw1“ und ,,Sw2“ erfolgt über eine einfache Linienverbindung. Die Kombination von Linien- und Sterntopologie wird in der Literatur auch als Baumtopologie beschrieben. Im folgenden wird nun der ungänstigste Fall, die Verfügbarkeit der Verbindung von der CPU zum am weitesten entfernten IO Device (hier IO-D6) berechnet.

Abb. 5
figure 5

Nicht-redundante Baumtopologie [4]

Ergebnis der Netzwerkverfügbarkeit: V(CPU- IO-D6) = 99,997339012904 %

Die verwendeten Komponenten müssen hier keine Redundanzfunktionen aufweisen. Verzögerungszeiten bei der Weiterleitung von Daten sind wegen der geringen Linientiefe gering. Die Kommunikation zwischen der CPU und den IO Devices erfolgt hier über eine einfache Systemanbindung, die leider in der Spezifikation [10, 11] etwas irreführend als Systemredundanz S1 bezeichnet wird. Wie bereits angedeutet verfügt dieses System jedoch über keine Redundanz. Ein Defekt der PROFINET-Geräte CPU, Switch Sw1 oder die Verbindung V01 daher nicht kompensiert werden und würden daher zu einem Kommunikationsausfall führen. Der Begriff der Redundanz wäre folglich nicht geeignet.

2.2 Topologie 2: Kombination von Medien- und S2 Systemredundanz

In Abb. 6 ist der Aufbau einer redundanten PROFINET-Topologie dargestellt. Diese Topologie kombiniert Controller-Redundanz und Medienredundanz. Die Medienredundanz ist speziell für ringförmige Netzwerkstrukturen entwickelt. Für das Controller-Paar ist die Funktion der PROFINET Systemredundanz S2 zu berücksichtigen. Als wichtige Voraussetzung gilt hierbei, dass der Datenaustausch zwischen der aktiven CPU und den Feldgeräten nur über ein singuläres Netzwerk erfolgen darf. Für die weitere Betrachtung werden die beiden redundanten Baugruppen CPU_1a und CPU_1b zu einer Funktionseinheit mit der Bezeichnung CALC zusammengefasst. Im Folgenden wird dann berechnet, wie hoch die Verfügbarkeit der Verbindung vom redundanten CPU-Paar bis zum entferntesten IO Device ist.

Abb. 6
figure 6

Systemredundanz S2 und Medienredundanz [4]

Ergebnis der Netzwerkverfügbarkeit: V(Calc- IO-D6)= 99,998486186813 %

Der ringförmige-Aufbau aus Hauptring und zwei unterlagerten Sub-Ringen liefert gegenüber dem nicht redundanten System eine erhöhte Verfügbarkeit. Das Erkennen von Fehlfunktionen und umleiten von Datenpaketen wird durch die Verwendung von Ringredundanz-Protokollen sichergestellt, wie z. B. durch MRP oder MRPD [8, 10, 12, 13]. Für die Topologie aus Abb. 6 ist die Bereitstellung eines Ringmanagers (RM) zu berücksichtigen, der bei der Projektierung zu konfigurieren ist. Für drei Ringe werden dementsprechend drei RM benötigt, die für dieses Netzwerk durch Sw1, Sw2, Sw3 und Sw4 als externe Switches gekennzeichnet sind. PROFINET-Geräte in Form von externen Switches unterstützen vorwiegend diese Funktion, wobei einige Hersteller auch bestimmte CPU-Modelle für diese Funktion anbieten. Die weiteren Teilnehmer der drei Ringtopologien sind als Redundanz-Clients zu definieren, die für die Weiterleitung der Daten verantwortlich sind. Es ist zu beachten, dass bei der Verwendung des MRP-Protokolls, abhängig von der Ringgröße, Rekonfigurationszeiten von bis zu 200 ms auftreten können. Für MRPD trifft dieser Fall nicht zu, womit eine stoßfreie Umschaltung erzielt wird. Weitere Informationen hierzu finden Sie unter [8, 10, 12, 13].

Neben der Medienredundanz nutzt die beschriebene Topologie ein weiteres Redundanzformat, die Systemredundanz S2 [9, 11]. Mithilfe dieser Funktion wird eine redundante Kommunikation zwischen IO Devices und IO Controllern ermöglicht. Die redundante Controller-Auslegung ist in der Lage einen Ausfall der primär definierten Kommunikationsverbindung durch eine Backup-Verbindung zu kompensieren. Der Umschaltvorgang für diese Redundanzform erfolgt stoßfrei und benötigt daher keine nennenswerte Rekonfigurationszeit. Bei der Kombination von Medien- und der S2 Systemredundanz ist zu berücksichtigen, dass anfallende Störungen und Unterbrechungen in den Ringstrukturen durch die S2-Konfiguration wesentlich schneller kompensiert werden können, als mit der Medienredundanz durch MRP.

2.3 Topologie 3: Kombination von Medien- und R1 Systemredundanz

Eine weitere PROFINET-Topologie, die aus drei Redundanzarten kombiniert, ist in Abb. 7 dargestellt. Eine besondere Eigenschaft dieser Automationsanlage ist die Kombination von Medien-, Netzwerk- und Controller-Redundanz. Unter genauerer Betrachtung ermöglicht die Kombination von Netzwerk- und Controller-Redundanz die Verwendung der Systemredundanz R1 [9,10,11]. Für die Controller und IO Devices gilt es zu berücksichtigen, dass zwei getrennte PROFINET-Schnittstellen vorhanden sein müssen, um eine Kommunikation über zwei Netzwerke zu realisieren. Die Vernetzung der Feldgeräte in den Schaltschränken erfolgt dabei über eine serielle Linienverbindung in doppelter Ausführung, die netzwerktechnisch voneinander getrennt sind. Gleichermaßen von der Netzwerktrennung betroffen, ist die doppelt vorhandene Ringstruktur, das als Bindeglied für die Kommunikation zwischen der Controller-Einheit und den Feldgeräten fungiert. Im Folgenden wird wieder die Verfügbarkeit vom redundanten Controllerpaar (CALC) zum entferntesten IO Device IO-D6 berechnet.

Abb. 7
figure 7

Systemredundanz R1 und Medienredundanz [4]

Ergebnis der Netzwerkverfügbarkeit: V(Calc- IO-D6)= 99,998670110029 %

Um PROFINET-Anlagen gegen potenzielle Netzwerkausfälle zu schützen, ist die Funktion der Netzwerkredundanz ein geeignetes Hilfsmittel. Für die Automatisierungsanlage in Abb. 7 begünstigt diese Redundanzform die Verwendung der Systemredundanz R1. Die redundante Kommunikation zwischen IO Devices und IO Controllern setzt für dieses Anlagenbeispiel wiederum voraus, dass alle IO Devices zwei Interfacemodule mit insgesamt 4 Ports besitzen müssen, die netzwerktechnisch voneinander getrennt sind (Verdoppelung der PROFINET-Schnittstellen). Ein Ausfall der primären Kommunikationsverbindung kann wie bei der S2-Konfiguration durch eine sekundäre Verbindung ausgeglichen werden.

Die Medienredundanzverwaltung ist für die beiden Ringe des primären und sekundären Netzwerks vorgesehen, die zu einer Steigerung der Verfügbarkeit beitragen. Pro Netzwerk ist ein Ringredundanz-Manager (RM) zu bestimmen, der anhand von Abb. 7 durch die Verwendung eines Managed Ethernet Switches beschrieben wird. Eine Rekonfigurationszeit von 200 ms ist für das Ringredundanz-Protokoll MRP bei Störungen und Unterbrechungen zu beachten. Jedoch wird diese Umschaltzeit durch die Verwendung der Systemredundanz R2 kompensiert.

Um die Daten bei einem Netzwerkausfall zu sichern, ermöglichen bestimmte Hersteller die Funktion der Ring-Kopplung. Mit dieser Methode können Datenframes vom primären Netzwerk zum sekundären Netzwerk oder umgekehrt mithilfe der Verbindungen V03 oder V04 übertragen werden. Die PROFINET-Anlage aus Abb. 7 zeigt, dass eine hohe Verfügbarkeit erzielt werden konnte. Allerdings verursachen hochverfügbare Systeme i.d.R. auch hohe Kosten, die zu berücksichtigen sind.

2.4 Topologie 4: Linientopologie mit Systemredundanz R2

Abb. 8 zeigt den Aufbau einer Automatisierungsanlage, dass die Funktion der Systemredundanz R2 [9, 11] unterstützt. Die Vernetzung der PROFINET-Geräte erfolgt über eine doppelt vorhandene Netzwerkstruktur, worüber alle Teilnehmer durch die Auslegung einer Linientopologie miteinander verbunden sind. Die Controller-Redundanz zeichnet sich im Vergleich zu den bisherigen Modellen durch eine Verdoppelung der Kommunikationsverbindungen aus. Das bedeutet, dass jede CPU über zwei PROFINET-Schnittstellen verfügen muss, um die Anforderungen der Systemredundanz R2 erfüllen zu können.

Abb. 8
figure 8

Linientopologie mit Systemredundanz R2 [4]

Ergebnis der Netzwerkverfügbarkeit: V(Calc- IO-D6)= 99,998670108594 %

Verglichen mit der Systemredundanz R1 besitzt die R2-Konfiguration den grundlegenden Vorteil, dass beide IO Controller eine redundante Kommunikationsverbindung über jeweils beide Netzwerke aufbauen können. Welche Kommunikationsverbindung zwangsläufig genutzt wird, hängt am Ende vom Ort der Störung und der entsprechenden Verbindungsrekonfiguration ab. Für die Kommunikation zwischen der CPU-Einheit und den IO Devices ist wie bei der R1-Konfiguration darauf zu achten, dass alle IO Devices mit zwei Interfacemodulen ausgestattet sind, also die R2-Redundanz unterstützen.

2.5 Prognostizierte Ausfallzeiten der Topologien

Die für dieses Projekt verwendete Netzwerkanalyse-Software besitzt nicht nur die Fähigkeit Verfügbarkeitsberechnungen durchzuführen, sondern auch Prognosen zu den Ausfallzeiten bereitzustellen. Das folgende Balkendiagramm zeigt die prognostizierten Ausfallzeiten für einen Zeitraum von 10 Jahren, dass in Abb. 9 dargestellt ist.

Abb. 9
figure 9

Prognosen zu den Ausfallzeiten der Topologiekonzepte

3 Fazit

Mit den Ergebnissen der Netzwerkverfügbarkeitsberechnung lässt sich feststellen, dass der Einsatz der vorgestellten Redundanzfunktionen zu einer Steigerung der Verfügbarkeit beitragen. Für die redundanten Netzwerkarchitekturen konnte erwartungsgemäß nachgewiesen werden, dass die eingesetzten Redundanzfunktionen zur Verbesserung der Gesamtverfügbarkeit der PROFINET-Topologien beitrugen. Die Redundanzformen Medien-, Netzwerk- und Controller-Redundanz sind daher ein bewährtes Mittel, um Ausfallzeiten so gering wie möglich zu halten. Es ist zu berücksichtigen, dass die hier untersuchten Topologien relativ klein sind. Zahlenwerte für größere Konfigurationen können geringer ausfallen.

Unter genauerer Betrachtung der Verfügbarkeitsergebnisse besitzt die Topologie ,,Medien- und R1 Systemredundanz“ aus Abschn. 2.3 die beste Verfügbarkeit. Dieser Wert ist ungefähr vergleichbar mit dem Ergebnis der Verfügbarkeit für das IO Device mit 4 Ports aus Tab. 2. Anhand der Ergebnisse stellt sich jedoch die Frage, warum die PROFINET-Topologien keine höheren Verfügbarkeitswerte aufweisen. Dies lässt sich damit begründen, dass die nicht-redundanten IO Devices als Single Point of Failure verbleiben. Mit anderen Worten: Die Verfügbarkeit der redundanten CPU-Baugruppen und des redundanten Netzwerkes ist so groß, dass die IO Devices als limitierender Faktor übrigbleiben und eine weitere Erhöhung der Verfügbarkeit begrenzen. Als nächster Schritt wären demzufolge die IO Devices redundant auszuführen.