Die mittlere Reparaturzeit (MTTR) ist die durchschnittliche Zeit, die benötigt wird, um ein ausgefallenes System, Gerät oder eine ausgefallene Komponente wieder voll einsatzfähig zu machen. MTTR wird in allen möglichen Systemen verwendet, von mechanischen Geräten bis hin zu Software. In der IT ist dies eine wichtige Metrik für digitale Resilienz, die anzeigt, wie schnell die Teams nach Störungen die Systeme wieder in den Normalzustand versetzen können. In der Praxis berechnen Teams die MTTR, indem sie die Gesamtausfallzeit in einem bestimmten Zeitraum durch die Anzahl der Vorfälle, die einen Ausfall verursachen, teilen.
Eine Verringerung der MTTR begrenzt sowohl den betrieblichen als auch den finanziellen Schaden. Untersuchungen von ITIC haben ergeben, dass eine Stunde Ausfallzeit viele Unternehmen rund 300.000 USD kostet – in Branchen wie dem Gesundheitswesen oder dem Bankensektor können diese Kosten sogar fünf Millionen USD erreichen.
Indem Sie sich auf die Verkürzung der MTTR konzentrieren, können Sie die Erholung Ihres Unternehmens von Ausfallzeiten beschleunigen. Dabei stärken Sie die Geschäftskontinuität, schützen den Umsatz und schaffen Vertrauen bei den Kunden.
MTTR ist für die Zwecke der US-Bundesberichterstattung definiert als die Zeit, die benötigt wird, um ein ausgefallenes Bauteil oder Gerät zu reparieren. Die Defense Acquisition University hat eine etwas strukturiertere Definition: Es handelt sich um die Zeit, die für die Durchführung der korrektiven Wartung aufgewendet wird, geteilt durch die Anzahl der korrektiven Wartungsmaßnahmen in einem bestimmten Zeitraum.
Um dies zu veranschaulichen, stellen Sie sich eine IT-Abteilung vor, die im Laufe eines Tages mit drei verschiedenen Vorfällen konfrontiert wird:
Ein Datenbankausfall um 9:05 Uhr, der bis 10:10 Uhr diagnostiziert und behoben wurde
Ausfall eines Cache-Knotens um 14:20 Uhr, Wiederherstellung um 14:40 Uhr
Ein Speichercontroller-Problem um 22:00 Uhr, das um 23:30 Uhr behoben wurde.
Die Reparaturen dauerten 65, 20 und 90 Minuten, insgesamt also 175 Minuten. Teilt man dies durch drei (die Gesamtzahl der Vorfälle), erhält man eine MTTR von 58,3 Minuten.
Ein typischer Vorfallszeitplan sieht in etwa so aus:
Die MTTR umfasst das Zeitfenster für die Instandsetzung vom Beginn der Reparatur bis zur Wiederherstellung des Betriebszustands. Teams verfolgen zusammenhängende, aber unterschiedliche Intervalle (Erkennung, Bestätigung oder Wiederherstellung) oft separat als MTTR-Varianten. Es ist erwähnenswert, dass einige dieser Varianten, wie z. B. die mittlere Zeit bis zur Behebung oder die mittlere Zeit bis zur Wiederherstellung, ebenfalls als MTTR abgekürzt werden; verwenden Sie eine klare operationelle Definition, wenden Sie diese konsequent an und vermeiden Sie es, verschiedene MTTRs im selben Datensatz zu mischen.
Zwei weitere Fallstricke, auf die Sie achten sollten:
Lassen Sie nicht zu, dass durchschnittliche MTTRs langwierige Reparaturen verbergen: Ein niedriger Mittelwert kann mehrstündige oder mehrtägige Sonderfälle verbergen, die das Geschäft beeinträchtigen. Ziehen Sie in Erwägung, neben der MTTR auch separate Metriken für längere Ausfälle zu verfolgen.
Berücksichtigen Sie keine Verzögerungen, die nicht mit der Reparatur zusammenhängen: Intervalle wie Wartezeiten für die Beschaffung von Ersatzteilen oder die Genehmigung von Änderungen sollten nicht in die Berechnung der MTTR einfließen, wenn Sie speziell die Zeit für die korrigierende Wartung messen wollen.
Bevor wir fortfahren, müssen wir einige weitere Metriken mit ähnlichen Abkürzungen erläutern:
Mittlere Zeit zwischen Ausfällen (MTBF): Die durchschnittlich verstrichene Zeit zwischen aufeinanderfolgenden Ausfällen bei einem reparierbaren System.
Mittlere Zeit bis zum Ausfall (MTTF): Die durchschnittliche Zeit, bis ein nicht reparierbares System oder Element ausfällt und ersetzt werden muss.
Die folgende Tabelle gibt einen Überblick über die verschiedenen Verwendungszwecke der einzelnen Metriken:
Metrik | Was sie misst | Anwendungsfall | Wichtigste Stärke | Häufiger Nachteil |
|---|---|---|---|---|
MTTR | Zeit von der Fehlererkennung (oder dem Beginn der Reparatur) bis zur vollständigen Wiederherstellung | Incident Response, Effizienz der Reparatur (Messung) | Direkte Messung der Auswirkungen von Ausfallzeiten | Sagt nichts darüber aus, wie oft Ausfälle auftreten |
MTBF | Zeit zwischen Ausfällen für reparierbare Systeme | Zuverlässigkeitsplanung, Wartungsterminierung | Zeigt die Systemverfügbarkeit im Zeitverlauf an | Kann lange Reparaturzeiten verbergen, wenn nur die Betriebszeit überwacht wird |
MTTF | Lebensdauer nicht reparierbarer Assets | End-of-Life-Planung, Ersatzstrategie | Hilft bei der Prognose des Ersatzbedarfs | Entfällt, wenn das System repariert und nicht ersetzt wird |
Wenn Ihre Priorität darin besteht, Ausfallzeiten zu minimieren und die Produktivität schnell wiederherzustellen – z. B. beim IT-Betrieb, beim Vorfallsmanagement oder bei geschäftskritischen Diensten – ist die MTTR der wichtigste KPI. Wenn Sie hingegen die langfristige Systemzuverlässigkeit bewerten oder Wartung und Ersatz planen (z. B. Hardware-Lebenszyklus, Produktionsanlagen), werden Sie sich stärker auf MTBF oder MTTF stützen.
Wenn Sie sich ausschließlich auf die MTTR verlassen, kann dies ein System verbergen, das häufig ausfällt: Sie können zwar schnell reparieren, haben aber trotzdem immer wieder mit Ausfällen zu kämpfen. Umgekehrt kann der ausschließliche Fokus auf die MTBF zu langen Reparaturzeiten führen, wenn es zu Ausfällen kommt. Bei der ausschließlichen Verwendung von MTTF wird möglicherweise die Reparierbarkeit von Anlagen übersehen und Möglichkeiten zur Verbesserung der Wiederherstellungszeit verpasst. Die Analyse von Systemen anhand von zwei oder allen drei Metriken vermittelt ein umfassenderes Bild von Systemzustand, Resilienz und Betriebsbereitschaft.
Die Optimierung der MTTR kann dazu beitragen, die betriebliche Leistung in strategischen Wert umzusetzen. Die Verbesserung der MTTR kann Ihnen beispielsweise ganz direkt dabei helfen, Ihre Service-Level-Agreements (SLAs) zu erfüllen oder zu übertreffen. Schnellere Reparaturzeiten verringern die Ausfallzeiten, was Unternehmen hilft, ihre SLA-Verpflichtungen einzuhalten.
Die MTTR steht auch in engem Zusammenhang mit der digitalen Resilienz und der Einhaltung von Vorschriften. Ein Beispiel ist der Digital Operational Resilience Act (DORA) in der Europäischen Union: Er schreibt vor, dass Finanzunternehmen und ihre IT-Dienstleister über ein Framework verfügen müssen, um auf IT-bezogene Vorfälle zu reagieren, sie zu beheben und zu melden. Eine hohe MTTR zeigt, dass ein Unternehmen in der Lage ist, sich schnell von Störungen zu erholen, was die Einhaltung der DORA-Anforderungen in Bezug auf Vorfallsmanagement, Tests und Servicekontinuität unterstützt.
Schließlich hat die Reduzierung der MTTR auch einen bedeutenden Einfluss auf die Erfahrung der Endbenutzer und die Geschäftskontinuität. Wenn die Systeme schneller wiederhergestellt werden, bleibt die interne Produktivität konstant, die Kundenzufriedenheit hoch und die umsatzsteigernden Dienste bleiben online. Die durchschnittlichen Kosten für unerwartete Ausfallzeiten belaufen sich mittlerweile auf mehrere Millionen Dollar pro Vorfall – eine schnellere Reparaturzeit wirkt sich also unmittelbar auf die Gewinnspanne und das Vertrauen in die Marke aus.
Die Verringerung der MTTR ist ebenso eine Frage der Unternehmenskultur und der Prozesse wie der Tools. Unternehmen, die eine konsistent schnelle Wiederherstellung erreichen, haben drei Gewohnheiten gemeinsam: Sie automatisieren, was automatisiert werden kann, sie investieren in Transparenz und Zusammenarbeit, und sie dokumentieren und verfeinern jede Reaktion.
Nutzen Sie die Automatisierung, um die Reaktion auf Vorfälle und die Reparatur zu beschleunigen: Durch Automatisierung wird der kritische Pfad zwischen Erkennung und Wiederherstellung verkürzt. Die automatisierte Alarmweiterleitung und Eskalation stellen sicher, dass der richtige Ansprechpartner sofort benachrichtigt wird, wodurch Verzögerungen von Minuten oder sogar Stunden vermieden werden. Moderne Incident-Response-Plattformen können auch automatisierte Abhilfeworkflows für häufige Fehlermodi auslösen, z. B. den Neustart eines Dienstes, das Leeren eines Caches oder das Zurücksetzen einer fehlerhaften Bereitstellung, während sie gleichzeitig Diagnosen für eine tiefergehende Analyse sammeln. Viele Teams integrieren heute KI-gesteuerte Runbooks, die den Kontext vorfüllen, wahrscheinliche Ursachen aufdecken oder sogar routinemäßige Wiederherstellungsschritte automatisch ausführen, was die MTTR drastisch verkürzt.
Verwenden Sie die richtigen Tools, um die MTTR zu verfolgen und zu reduzieren: Einblick in Ihre Infrastruktur und Anwendungen ist für eine schnelle Wiederherstellung unerlässlich. Überwachungs- und Beobachtungsplattformen helfen Teams, Anomalien früher zu erkennen und herauszufinden, wo Fehler ihren Ursprung haben, sodass weniger Untersuchungszeit verschwendet wird. Integrierte Tools für das Vorfallsmanagement, die Alarmierung, Zusammenarbeit und Nachbereitung in einem Workflow vereinen, ermöglichen es Teams, zu handeln, ohne den Kontext zu wechseln. Analyse-Dashboards, die historische MTTR-Daten visualisieren, können wiederkehrende Probleme oder langwierige Reparaturen aufdecken und aufzeigen, wo Automatisierung oder Schulungen den größten Einfluss haben.
Standardisieren Sie Prozesse und dokumentieren Sie Verfahren zur kontinuierlichen Verbesserung: Geschwindigkeit hängt von Vorhersehbarkeit ab. Standardisierte Reaktionspläne für verschiedene Arten von Vorfällen geben Mitarbeiter einen klaren ersten Schritt vor, sodass sie unter Druck nicht bei Null anfangen müssen. Jeder Vorfall sollte mit einer Überprüfung abgeschlossen werden, bei der diese Pläne aktualisiert werden, um den Kreis zwischen Erfahrung und Vorbereitung zu schließen. Eine zentralisierte Wissensdatenbank, in der Zeitpläne für Vorfälle, Problemursachen und wirksame Lösungen gespeichert werden, beschleunigt künftige Wiederherstellungen und hilft neuen Teammitgliedern, sich schnell einzuarbeiten. Regelmäßige Simulationen und Reaktionsübungen festigen diese Praktiken weiter, indem sie die Theorie in Routinehandlungen umsetzen.
Wer: Weisen Sie die Verantwortung für den Vorfall eindeutig zu. Bestimmen Sie einen Bereitschaftsingenieur, einen Leiter für die Ersteinschätzung und eine Kontaktperson für die Kommunikation.
Was: Definieren Sie Schweregrade für Vorfälle und verknüpfen Sie diese mit einem vorab genehmigten Reaktionsplan, der die ersten Schritte und Eskalationspfade festlegt.
Wann: Verfolgen Sie die Zeit in jeder Phase (Erkennung, Bestätigung, Reparaturbeginn, Validierung), um Verlangsamungen zu erkennen und die Workflows zu verbessern.
Was: Dokumentieren Sie den Vorfall innerhalb von 24–48 Stunden nach der Wiederherstellung und halten Sie die Erkenntnisse fest, die Sie für Prozessaktualisierungen nutzen können.
Wann: Überprüfen Sie die MTTR-Daten vierteljährlich, um systembedingte Verzögerungen zu identifizieren, und investieren Sie bei Bedarf in Automatisierung oder Schulungen.
Durch die Kombination dieser Praktiken mit einer Plattform für Datenresilienz wie Rubrik Security Cloud können Unternehmen die Wiederherstellungszeiten noch weiter verkürzen. Die automatisierte Backup-Validierung, die Überwachung von Bedrohungen und die schnellen Wiederherstellungsfunktionen von Rubrik helfen Teams, Ausfallzeiten zu minimieren und saubere Daten schnell wiederherzustellen – so wird MTTR von einer Schwachstellenmetrik zu einem Maß für Resilienz.