Large Language Models sind die Grundlage vieler generativer KI-Systeme, die Chatbots, Programmier-Copilots, autonome Agenten und andere Anwendungen antreiben, die direkt mit Benutzern und Unternehmensdaten interagieren. Im Gegensatz zu herkömmlichen Softwaresystemen arbeiten LLMs nicht mit festen logischen Pfaden oder statischen Eingaben. Sie erzeugen probabilistische Outputs, indem sie Kontext aus Eingabeaufforderungen, abgerufenen Daten und Toolaufrufen ziehen – und häufig in Echtzeit mit externen Systemen interagieren. Gerade diese Flexibilität macht sie so wertvoll, führt aber auch zu neuen Sicherheitsrisiken.
Da Unternehmen zunehmend LLMs einsetzen, wird der Schutz dieser Systeme zu einem zentralen Unternehmensanliegen. Die traditionelle Anwendungssicherheit konzentriert sich auf den Schutz von Code und Infrastruktur mit genau definierten Schnittstellen. Die LLM-Sicherheit muss zusätzlichen Bedrohungen Rechnung tragen, wie z. B. Prompt Injection, Offenlegung von Trainingsdaten, unsicheren Modelleingaben und -ausgaben und unbeabsichtigter Verbreitung sensibler Informationen.
Das LLM-Verhalten wird jedoch durch Daten, Kontext und Laufzeitinteraktionen geprägt, sodass die Absicherung generativer KI-Systeme Kontrollen erfordert, die über herkömmliche Software-Sicherheitspraktiken hinausgehen. Wie können die Sicherheitsteams von Unternehmen das Potenzial von LLMs aktivieren, ohne den Betrieb neuen Risiken auszusetzen?
LLMs werden zunehmend in Unternehmensanwendungen eingebettet, die sensible Daten verarbeiten, darunter interne Dokumente, Kundeninteraktionen, Quellcode und betrieblichen Kontext. Um diese Systeme nutzbar zu machen, verknüpfen Unternehmen sie oft direkt mit Unternehmensdatenspeichern und Workflows. Dies birgt einzigartige Risiken: LLMs trennen Anweisungen, Daten und Ausgaben nicht klar voneinander, und sie erzeugen Antworten dynamisch, anstatt festen Ausführungspfaden zu folgen. Infolgedessen können vertrauliche Informationen auf eine Art und Weise offengelegt oder missbraucht werden, die nicht von herkömmlichen Sicherheitskontrollen für Anwendungen unterbunden werden kann.
Jüngste Vorfälle zeigen, wie sich diese Risiken in der Praxis auswirken. Leistungsfähigere Modelle stellen ein erhöhtes Cyber-Sicherheitsrisiko dar, da sie an Autonomie gewinnen und Zugang zu immer mehr Tools und Systemen haben, was das Potenzial für Missbrauch und unbeabsichtigte Datenweitergabe erhöht. Praktische Schwachstellen in implementierten Unternehmens-Copiloten zeigen, wie es zu solchen Risiken kommen kann: Ein Zero-Click-Problem in Microsoft 365 Copilot („EchoLeak“, CVE-2025-32711) hat gezeigt, wie eine manipulierte E-Mail die Offenlegung sensibler Daten ohne Benutzerinteraktion ermöglichen kann.
Wissenschaftliche Arbeiten haben auch gezeigt, dass indirekte Prompt Injection, bei der versteckte Anweisungen in Inhalte eingebettet werden, die das Modell später abruft oder verarbeitet, das Verhalten des Modells manipulieren und zu unbeabsichtigten Aktionen oder Offenlegungen führen kann – insbesondere bei Agenten, die Tools verwenden oder Zugang zum Internet haben.
LLMs bringen Sicherheitsrisiken mit sich, die über herkömmliche Anwendungsbedrohungen hinausgehen und sich darauf stützen, wie Modelle Eingaben interpretieren, Kontextinformationen speichern und mit Daten und Tools interagieren. Tabelle 1 zeigt die häufigsten LLM-Sicherheitsrisiken, die Unternehmen beim Einsatz von generativen KI-Systemen kennen sollten.
Tabelle 1. Allgemeine LLM-Sicherheitsrisiken
Art des Risikos | Beschreibung | Beispielszenario |
|---|---|---|
Prompt Injection | Manipulation von Benutzereingaben zur Änderung des Verhaltens von Modellen oder KI-Agenten | Ein Angreifer erstellt eine Eingabeaufforderung, die die Sicherheitskontrollen umgeht und das Modell dazu bringt, Inhaltsfilter oder Systemanweisungen zu ignorieren. |
Indirektes Prompting | Einbettung versteckter Anweisungen in Inhalte, die das Modell später verarbeitet | Ein Dokument oder eine Webseite enthält versteckte Anweisungen, die ein LLM dazu bringen, sensible Unternehmensdaten auszugeben, wenn sie zusammengefasst werden. |
Datenvergiftung | Verfälschung von Trainingsdaten oder Feinabstimmung von Daten zur Verzerrung der Ergebnisse | Böswillige Akteure bringen schädliche oder irreführende Inhalte in Datensätze ein, die zum Trainieren oder Anpassen eines Unternehmensmodells verwendet werden. |
Memory Poisoning | Einspeisung falscher Daten in den Datenspeicher eines KI-Agenten, um künftiges Verhalten zu beeinflussen | Ein böser Akteur manipuliert einen Agenten im Laufe der Zeit so, dass er sich geänderte Bankleitzahlen „merkt“ und sie später wiederholt. |
Modelldiebstahl | Reverse Engineering oder Extraktion von Modellgewichten oder -verhalten | Ein Angreifer sondiert wiederholt eine API, um ein proprietäres, fein abgestimmtes Modell zu rekonstruieren. |
Erschöpfung der Ressourcen | Überlastung von Modell- oder Agentenressourcen, um Denial-of-Service zu verursachen | Automatisierte Anfragen überschwemmen ein KI-gestütztes Kundensupportsystem, sodass es für echte Nutzer nicht mehr verfügbar ist. |
Unbefugter Zugang | Zugriff auf das Modell, die zugrundeliegenden Daten oder die Berechtigungen des Agenten | Ein Angreifer nutzt die Berechtigungen des Agenten aus, um interne Kundendaten oder Systemdaten abzurufen. |
Ausführung des Codes | Verwendung der Modellausgaben zur Auslösung von schädlichem Code | Erstellte Skripte oder Befehle werden automatisch ausgeführt, was zu unsicherer Codeausführung in nachgelagerten Systemen führt. |
Die Sicherung von LLM-Anwendungen erfordert einen mehrschichtigen Ansatz, der sich mit dem Zugriff auf Modelle, dem ein- und ausgehenden Datenverkehr und dem Modellverhalten im Laufe der Zeit befasst. Anstatt LLMs wie herkömmliche Softwarekomponenten zu behandeln, benötigen Unternehmen Sicherheitskontrollen, die der dynamischen, datengesteuerten Natur von generativen KI-Systemen Rechnung tragen. Dazu gehören:
Zugriffskontrollen: Wenden Sie rollenbasierten Zugriff, starke Authentifizierung und Benutzerverwaltung an, um einzuschränken, wer mit Modellen und den zugrundeliegenden Daten interagieren darf, und um die Berechtigungen der KI-Agenten selbst streng zu kontrollieren, um das Risiko eines unbefugten Zugriffs zu verringern.
Eingabefilterung und -bereinigung: Überprüfen und bereinigen Sie Prompts, abgerufene Inhalte und Tooleingaben, um die Anfälligkeit für Prompt Injection und indirekte Prompting-Angriffe zu verringern.
Moderation der Ausgaben: Durchsuchen Sie Modellausgaben auf sensible Informationen, Richtlinienverstöße oder bösartige Inhalte, bevor die Ergebnisse an Benutzer oder nachgelagerte Systeme zurückgegeben werden.
Sicheres Modell-Hosting: Führen Sie Modelle und die unterstützende Infrastruktur in vertrauenswürdigen, gesicherten Umgebungen mit Netzwerksegmentierung und Least-Privilege-Konfigurationen aus.
Audit und Überwachung: Führen Sie detaillierte Protokolle über Modellinteraktionen, Toolaufrufe und Datenzugriffe, um anomales Verhalten zu erkennen und Untersuchungen zu unterstützen.
Steuerung der Feinabstimmung von Modellen: Überwachen Sie Feinabstimmungsdatensätze und -prozesse, um die Datenqualität, -herkunft und -sicherheit zu validieren und die Auswirkungen von vergifteten oder ungeeigneten Trainingsdaten zu begrenzen.
Risikoüberwachung: Identifizieren und quantifizieren Sie kontinuierlich riskante Modell- oder KI-Agenten-Aktivitäten und weisen Sie auf Richtlinienverstöße oder abnormale Muster hin, bevor sie zu Datenverlusten führen oder den Betrieb beeinträchtigen.
Die Integrität der Trainingsdaten wirkt sich direkt auf die Modellsicherheit aus. Kompromittierte, sensible oder schlecht verwaltete Daten können zu verzerrten Ergebnissen, Verletzungen der Privatsphäre oder Hintertüren führen, die schädliches Verhalten unterstützen. Ohne strenge Kontrollen der Trainingsdaten und der Quellen für die Feinabstimmung riskieren Unternehmen, bereits vorhandene Schwachstellen in LLMs zu verstärken.
Im Folgenden finden Sie einige wichtige Strategien, wie Sie Ihre Trainingsdaten verwalten können, um das Risiko zu minimieren:
Halten Sie sensible oder geschützte Daten aus den Trainingssätzen heraus: Wenn interne oder gesetzlich vorgeschriebene Informationen während des Trainings preisgegeben werden, steigt die Wahrscheinlichkeit, dass sich die Modelle diese Daten versehentlich merken und später weitergeben. So haben beispielsweise viele KI-Unternehmen versehentlich API-Schlüssel, Modellzugriffstokens und interne Trainingsdaten offengelegt, als Anmeldeinformationen in öffentlichen Repositories auftauchten. Dies unterstreicht die Risiken einer unsicheren Datenverwaltung in frühen Entwicklungsphasen.
Verhindern Sie die Datenvergiftung: Die absichtliche oder versehentliche Beschädigung von Trainingsdatensätzen kann schädliches Verhalten oder Hintertüren in Modelle einbetten. Angreifer müssen nur eine kleine Anzahl schädlicher Dokumente in die Trainingsdaten einschleusen, um das Modellverhalten erheblich zu verändern.
Klassifizieren und steuern Sie Datenquellen: Nutzen Sie die strukturierte Datenerkennung und -klassifizierung, um sensible Informationen zu inventarisieren und zu verhindern, dass sie in Trainingspipelines gelangen. Die Klassifizierung hilft den Teams zu verstehen, welche Daten existieren, wo sie sich befinden und wie sie im Rahmen der Sicherheitsrichtlinien behandelt werden sollten.
Anonymisieren und bereinigen Sie Daten vor dem Training: Wenden Sie Anonymisierungstechniken an und entfernen Sie direkte Identifikatoren aus Datensätzen, um Datenschutzrisiken zu verringern und gleichzeitig nützliche Muster für das Training von Modellen zu erhalten.
Überwachen Sie Datenqualität und -herkunft: Verfolgen Sie die Herkunft und den Transformationsverlauf von Trainingsdaten, um Probleme wie duplizierte, falsch klassifizierte oder nicht autorisierte Inhalte zu erkennen, bevor sie für die Feinabstimmung oder Modellanpassung verwendet werden.
Die Nutzung generativer KI in Unternehmen steigt – wie auch die Bedeutung der LLM-Sicherheit. Modelle, die mit Unternehmenssystemen und sensiblen Daten interagieren, bringen neue Risiken mit sich – von Datenlecks und -missbrauch bis hin zu agentengesteuertem Missbrauch von Privilegien –, die Unternehmen direkt angehen müssen.
Die umfassenden Funktionen von Rubrik für das Management der Datensicherheit (und die Datensicherheit selbst) helfen Unternehmen, dieses Risiko zu verringern, indem sie die Daten, die LLM-Anwendungen speisen, einsehbar machen und kontrollieren. Wenn LLMs in Produktionsumgebungen integriert werden, benötigen Unternehmen die entsprechenden Kontextinformationen, um Bedrohungen erkennen, Richtlinien durchsetzen und den Schaden eingrenzen zu können. Dies kann durch die Identifizierung sensibler Daten, die Nachverfolgung ihres Speicherorts und die Überwachung des Zugriffs auf diese Daten erreicht werden.
Rubrik Agent Cloud erweitert diesen Ansatz auf die KI-Agenten selbst und bietet eine zentrale Übersicht über das Verhalten der Agenten, die Nutzung der Tools und den Datenzugang. Diese Transparenz hilft Teams, riskante Agentenaktivitäten zu identifizieren, abnormale Muster zu erkennen und zu steuern, wie Agenten mit Unternehmenssystemen interagieren.
Generative KI entwickelt sich kontinuierlich weiter und Unternehmen benötigen Sicherheitsstrategien, die mithalten können. Die KI-Fähigkeiten von Rubrik können Teams dabei helfen, LLM-gestützte Systeme zu entwickeln, die einen Mehrwert bieten und gleichzeitig eine hohe Datensicherheit, Governance und operative Belastbarkeit gewährleisten.