Pfeil- und Text-Symbol

Poisoning Attack - Manipulation von KI-Modellen

Motivation

Künstliche Intelligenz kommt bereits in zahlreichen Branchen zum Einsatz. Die Erkennung von Verkehrsschildern bei autonomen Fahrzeugen und die Krankheitserkennung auf Bildern sind Anwendungsbeispiele, bei denen eine Fehlentscheidung eines KI-Systems schwerwiegende und sogar tödliche Folgen haben kann. Gleichzeitig stellt ein Nachweisen der korrekten Funktionsweise eines KI-Modells sowie die zuverlässige Erkennung von Fehlern ein offenes Problem dar.

Moderne KI-Modelle benötigen große Mengen an Daten, um Muster in Daten adäquat erfassen und lernen zu können. Jedoch sind die Datensammlung sowie die Datenaufbereitung die aufwändigsten Prozesse in KI-Projekten und die Menge der eigenen Daten ist meistens zu klein. Um diese Probleme zu umgehen, verwendet man in der Praxis oft öffentlich verfügbare Datensätze für das Training von KI-Modellen.

Des Weiteren bestehen moderne KI-Modelle aus einer Vielzahl von Parametern, die es ermöglichen, komplexe Muster zu erlernen. Diese Parameter müssen trainiert werden und mit ihrer Anzahl erhöht sich der Rechenaufwand des Trainings. Je nach Komplexität eines KI-Modells kann der Rechenaufwand für das Training enorme Ausmaße annehmen. Die dabei entstehenden Kosten können von den meisten Unternehmen nicht getragen werden. Dieses Problem kann durch vortrainierte Modelle gelöst werden. Vortrainierte Modelle sind auf eine allgemeine Aufgabe trainiert und werden mit entsprechenden Trainingsdaten auf eine spezifische Aufgabe angepasst. Dadurch muss ein KI-Modell nicht von Grund auf trainiert werden, was den Rechenaufwand verringert. Zum Beispiel kann ein allgemeines Bilderkennungsmodell auf die Erkennung von Verkehrsschildern spezialisiert werden. Dies wird auch als Transfer Learning bezeichnet.

Herausforderungen

Während die Verwendung von öffentlich verfügbaren Daten und Modellen ökonomische Vorteile hat, bringt dieses Vorgehen Sicherheitsprobleme mit sich. Bei Daten und Modellen, die von externen Quellen bezogen werden, stellt sich die Frage nach der Vertrauenswürdigkeit und der Integrität.

Fehlerhafte Labels verursachen Schwachstellen

Daten mit fehlerhaften Labels können dazu führen, dass ein KI-Modell die Aufgabe während des Trainings nicht richtig lernt und dadurch im Einsatz falsche Entscheidungen trifft. Häufig wird das Labeln von Daten aus Kostengründen an eine Crowd ausgelagert, anstatt Domänen-Experten einzusetzen. Hinzu kommt, dass Menschen oftmals als fehlerfreie Labeler überschätzt werden. Diese Faktoren verschlechtern die Qualität und Konsistenz von Labels. Wenn Nutzer Feedback geben, ob eine Entscheidung eines KI-Systems korrekt ist, stellt sich die Frage, ob diese Nutzer genug Wissen haben, um dies beurteilen zu können und ob sie die Entscheidung sorgfältig analysiert haben.

Die Gefahr von mangelhafter Datenqualität

Ein weiterer zentraler Punkt stellt die Qualität der Trainingsdaten dar. Wenn bestimmte Fälle in den Trainingsdaten nicht abgedeckt sind, diese jedoch in der Praxis vorkommen, kann es zu Problemen kommen. Zum Beispiel können Verkehrsschilder mit einem Sticker falsch klassifiziert werden, weil in den Trainingsdaten nur ideale Verkehrsschilder vorkommen. Außerdem können mehrdeutige Daten auftreten, für die mehrere Labels korrekt sind. Zum Beispiel ein Bild, auf dem zwei verschiedene Verkehrsschilder abgebildet sind. Bei der Verarbeitung solcher Daten kann das KI-Modell ungewollte Korrelationen lernen. Dies sind nur einige wenige Aspekte der Datenqualität, die es zu beachten gilt.

Darüber hinaus können Daten und Modelle auch in bösartiger Absicht von einem Angreifer manipuliert werden. Eine solche Aktion wird als Poisoning Attack bezeichnet. Ziel des Angreifers ist es, die Leistung eines KI-Modells zu verschlechtern oder es zu seinen Gunsten zu verändern (z. B. einen Spam-Filter manipulieren). Ein solcher Angriff ist trivial, wenn der Angreifer bei der Erstellung und beim Labeling eines Datensatzes involviert ist. Man stelle sich ein offenes KI-Projekt vor, bei dem eine Community Daten hochlädt, Labels erstellt und/oder Feedback gibt, ob eine Entscheidung korrekt ist oder nicht. Bei dieser Art von Projekten können zwar viele Personen mitmachen, andererseits kann ein Angreifer mit geringem Aufwand eine Poisoning Attack durchführen.

Schutzmaßnahmen

Hersteller und Anbieter von Datensätzen und Modellen können Vertrauenswürdigkeit durch Transparenz herstellen. Zu einem Datensatz kann ein sogenanntes Datasheet erstellt werden, welches Details über den Datensatz enthält. Ein Datasheet beschreibt unter anderem folgende Details:

  • Umfang und Zusammensetzung des Datensatzes sowie enthaltene Datentypen.
  • Die Prozesse der Datensammlung, der Datenaufbereitung und wie die Daten gelabelt wurden.
  • Zu welchem Zweck die Daten ursprünglich gesammelt wurden und für welche Zwecke sie ungeeignet sind.
  • Der Zeitraum der Datenerhebung und wann die letzte Aktualisierung durchgeführt wurde.

Dies ermöglicht einem potentiellen Datenkonsument eine Einschätzung der Datenqualität und ob die Daten für seinen Anwendungsfall geeignet sind.

Analog dazu wurden sogenannte Model Cards vorgeschlagen, die Details über ein trainiertes KI-Modell beschreiben. Eine Model Card enthält unter anderem folgende Informationen:

  • Metadaten über das Modell, wie den Ersteller des Modells und die Modellversion.
  • Für welchen Anwendungsfall das Modell entwickelt wurde und wer die Nutzer des Modells sind.
  • Mit welchen Metriken und auf welchen Daten die Leistung des Modells gemessen wurde sowie die Ergebnisse der Messungen.
  • Welche Risiken beim Einsatz des Modells zu beachten sind.
  • Mit welchen Trainingsdaten das Modell trainiert wurde (hier kann auf ein Datasheet referenziert werden, falls vorhanden).

In Ergänzung dazu sollte auch immer eine eigene Überprüfung von extern bezogenen Daten und Modellen erfolgen. So kann die Leistung des Modells testweise beim eigenen Anwendungsfall mit den dokumentierten Werten verglichen werden. Mittels Methoden aus dem Bereich der Explainable AI (XAI) kann überprüft werden, ob das Modell grundsätzlich so funktioniert wie erwartet.

Hersteller und Anbieter von Datensätzen und Modellen sollten ihre Prozesse so entwerfen, dass die oben beschriebene Poisoning Attack verhindert oder zumindest abgeschwächt wird. So können Datenpunkte nicht nur von einem, sondern mehreren Personen gelabelt werden. Bei Diskrepanzen erfolgt eine Mehrheitsabstimmung. Auf gleiche Weise kann verfahren werden, um zu entscheiden, welche Daten für das Training aufgenommen werden und welche ungeeignet sind.

Des Weiteren sollten die zugrunde liegenden IT-Systeme (z. B. Datenbanken und Webserver) mit angemessenen Sicherheitsmaßnahmen geschützt werden, um die Integrität von Daten und Modellen zu gewährleisten.

Weitere Informationen

Auf folgenden Seiten beschreiben wir weitere Angriffe auf KI-Systeme wie zum Beispiel Evasion und Model Extraction:
Maschinelles Lernen in der Cybersicherheit
Model Extraction Attack - Diebstahl von KI-Modellen

Forschung und Kooperation

Das Institut für Internet-Sicherheit – if(is) ist in seiner Forschungsexpertise breit aufgestellt. Unsere verschiedenen Fachbereiche forschen unter anderem in den Bereichen Einsatz von Künstlicher Intelligenz im Cybersicherheitskontext, Sicherheit von Künstlicher Intelligenz, sichere Authentifizierung, Botnetze, Datenschutz und Blockchain. Wir sind in diversen anwendungsorientierten Forschungsprojekten (wie z. B. Service-Meister) involviert und offen für weitere Kooperationen.

Quellen

  • C. Berghoff, M. Neu, and A. Von Twickel, “Vulnerabilities of Connectionist AI Applications: Evaluation and Defense,” Frontiers in Big Data, vol. 3, no. 23, pp. 1–18, Jul. 2020. [link]
  • T. Gu, B. Dolan-Gavitt, and S. Garg, “BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain,” arXiv, vol. abs/1708.06733v2, pp. 1–13, Mar. 2019. [link]
  • B. Biggio, B. Nelson, and P. Laskov, “Poisoning Attacks against Support Vector Machines,” in International Conference on Machine Learning, ser. ICML ’12. Edinburgh, Scotland, GB: Omnipress, Jun. 2012, pp. 1807–1814. [link]
  • J. Steinhardt, P. W. Koh, and P. Liang, “Certified Defenses for Data Poisoning Attacks,” in Advances in Neural Information Processing Systems, ser. NIPS ’17. Long Beach, California, USA: Curran Associates, Dec. 2017, pp. 3517–3529. [link]
  • B. Biggio, B. Nelson, and P. Laskov, “Support Vector Machines Under Adversarial Label Noise,” in Asian Conference on Machine Learning, ser. ACML ’11. Taoyuan, Taiwan: PMLR, Nov. 2011, pp. 97–112. [link]
  • V. S. Sheng, F. Provost, and P. G. Ipeirotis, “Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers,” in ACM International Conference on Knowledge Discovery in Data Mining, ser. KDD ’08. Las Vegas, Nevada, Germany: ACM, Aug. 2008, pp. 614–622. [link]
  • A. Tegen, P. Davidsson, and J. A. Persson, “The Effects of Reluctant and Fallible Users in Interactive Online Machine Learning,” in Workshop on Interactive Adaptive Learning, ser. IAL ’20. Virtual Conference: CEUR-WS.org, Sep. 2020, pp. 55–71. [link]
  • E. Strubell, A. Ganesh, and A. McCallum, “Energy and Policy Considerations for Deep Learning in NLP,” in Annual Meeting of the Association for Computational Linguistics, ser. ACL ’19. Florence, Italy: ACL, Jul. 2019, pp. 3645–3650. [link]

Icon: gehirn-mit-digitaler-schaltung
Copyright © 2022, Bild von vectorjuice auf Freepik

Zum Seitenanfang springen