Indirect Prompt Injections - Intrinsische Schwachstelle in anwendungsintegrierten KI-Sprachmodellen
Bedrohungsstufe 1
Beschreibung
Große KI-Sprachmodelle (engl. Large Language Model (LLM)) erfreuen sich zunehmender Beliebtheit und werden beispielsweise eingesetzt, um Textdokumente automatisiert zu verarbeiten und Anwenderinnen sowie Anwendern mittels Chatbots und autonomer Agenten zu assistieren. Hierbei wird die Funktionalität fortlaufend erweitert. So ist es zum Beispiel Chatbots mittlerweile möglich, mittels Plugins Internetseiten oder Dokumente automatisiert auszuwerten sowie auf Programmierumgebungen oder E-Mail-Postfächer zuzugreifen. Bei vielen der antizipierten Anwendungsfälle werden ungeprüfte Daten aus unsicheren Quellen verarbeitet.
In diesem Fall sind LLMs anfällig für sogenannte Indirect Prompt Injections: Angreifende können die Daten in diesen Quellen manipulieren und dort unerwünschte Anweisungen für LLMs platzieren. Nachdem diese neue Schwachstellenklasse im Februar 2023 das erste Mal in der Wissenschaft diskutiert wurde, hat das BSI den Angriffsvektor bereits in dem Positionspapier "Große KI-Sprachmodelle - Chancen und Risiken für Industrie und Behörden" thematisiert. Da in den letzten Monaten vermehrt die Darstellung und Diskussion konkreter PoCs zur Ausnutzung der Schwachstelle im Internet beobachtet werden konnten und gleichzeitig die Integration von Sprachmodellen in Anwendungen rasant voranschreitet, sensibilisiert das BSI mit dieser Meldung noch einmal verstärkt für diese neue Schwachstellenklasse.