Pfeil- und Text-Symbol

Sicherheit von Künstlicher Intelligenz

Motivation

Künstliche Intelligenz (KI) hat ein enormes Potenzial für eine Vielzahl von Anwendungen. Bereits heute wird KI in vielen Bereichen eingesetzt und zunehmend auch für kritische Aufgaben (z.B. autonomes Fahren). Dieser Technologie liegt ein Lernprozess zugrunde. Das heißt eine KI muss zunächst mit Daten trainiert werden. Anschließend kann eine trainierte KI neue Daten auswerten und Aussagen über diese treffen. Zum Beispiel, ob auf einem gegebenen Bild ein Stop-Schild abgebildet ist oder nicht.

Eine KI wird oft mit Daten aus kontrollierten Umgebungen trainiert und evaluiert. In der Praxis ist diese Annahme jedoch oft nicht gegeben. In der Forschung wurde dies bereits durch erfolgreiche Angriffe belegt und gilt daher als ein grundlegendes Sicherheitsproblem bei der Anwendung von KI. Je nach Einsatzgebiet und -umgebung einer KI ergeben sich unterschiedliche Angriffspunkte und folglich Risiken.

Ein Angreifer kann Daten so manipulieren, dass sie von einer KI anders klassifiziert werden als erwartet. Solche bösartigen Daten werden als Adversarial Examples bezeichnet. Ein Beispiel für ein Adversarial Example ist in der folgenden Abbildung zu sehen.

Abbildung 1 Goodfellow et al. (2015)

Der Angreifer manipuliert das Originalbild durch Hinzufügen einer Störung. Dies führt dazu, dass das Bild falsch klassifiziert wird. Für das menschliche Auge ist der Unterschied nicht zu erkennen. Ein Angreifer kann so verdächtige Aktivitäten unter dem Radar zu halten und folglich einer Detektion entkommen. Deshalb handelt es sich um eine sogenannte Evasion Attack.

Im Gegensatz dazu ist das Ziel einer Poisoning Attack die Trainingsdaten so zu manipulieren, dass die Zuverlässigkeit der KI verschlechtert wird. Oft wird eine KI mit Daten aus einer unkontrollierten Umgebung trainiert. Zum Beispiel ist das bei einem Chat-Bot der Fall, weil die Trainingsdaten aus den Interaktionen mit Nutzern generiert werden. In solchen Fällen kann ein Angreifer trivial Adversarial Examples einschleusen.

Ein weiteres Problem stellen sogenannte Exploratory Attacks dar. Hierbei sendet der Angreifer Daten an eine KI und versucht anhand der Antworten die KI zu rekonstruieren. Dies hat mehrere Auswirkungen. Geistiges Eigentumkann leicht gestohlen werden und der Angreifer kann mit der Kopie Angriffe testen und optimieren, bevor er die echte KI angreift

Eine Model Inversion Attack stellt eine Gefahr für Datenschutz und Privatsphäre dar. Es wurde gezeigt, dass aus einer auf Gesichtserkennung trainierten KI die Trainingsdaten rekonstruiert werden konnten, sodass die Identifikation von Personen möglich sein kann. Folgende Abbildung zeigt, inwieweit dies ohne Zugriff auf die Trainingdaten möglich ist.

Abbildung 2 Fredrikson et al. (2015)

Der Forschungszweig des Adversarial Machine Learning widmet sich diesen Problemen. Es wurden bereits unterschiedliche Schutzmaßnahmen für verschiedene Anwendungs- und Angriffsszenarien publiziert und diskutiert.

Beim Adversarial Training werden Adversarial Examples in die Trainingsdaten inkludiert, um die KI zu härten. Generative Adversarial Networks bestehen aus zwei neuronalen Netzwerken. Der Generator erzeugt Adversarial Examples, um den Unterscheider zu täuschen. Der Unterscheider versucht Adversarial Examples zu erkennen. Dieser Prozess wird iterativ durchgeführt, sodass beide Netzwerke voneinander lernen und sich verbessern.

Beim Feature Squeezing wird die Repräsentation von Eingabedaten komprimiert, um die Sensitivität gegenüber eingeschleusten Störungen zu verringern. Zum Beispiel kann die Farbtiefe von Bildern auf eine Codierung mit kleineren Wertebereich abgebildet werden, um den Einfluss von Störungen abzuschwächen.

Bei der NULL Labeling Methode wird eine KI mit Adversarial Examples trainiert, indem diese einem zusätzlichen Label, dem NULL Label, zugeordnet werden.

Ziel

Das Institut für Internet-Sicherheit forscht aktiv im Bereich Adversarial Machine Learning und entwickelt Modelle und Lösungen, um KI-Systeme vor Angriffen zu schützen. Ziel ist es eine Methodik zu entwickeln, um Adversarial Examples zu erkennen und Manipulationen von KI-Systemen zu unterbinden, ohne dabei die eigentliche Aufgabe eines KI-Systems großartig negativ zu beeinflussen.

Icon: artificial-intelligence
Copyright © 2020, mynamepong

Zum Seitenanfang springen