Mit der künstlichen Intelligenz hat die betriebliche Sicherheit einen neuen Verbündeten. Véronique Legrand, eine Forscherin auf diesem Gebiet, erklärt uns den Beitrag von Machine Learning zum Schutz von Informationssystemen vor immer gezielteren und raffinierteren Angriffen.
"Die aktuellen Herausforderungen im Bereich der operativen Sicherheit sind einfach: Wir sind mit einer Flut und einer großen Vielfalt an Daten konfrontiert, die verarbeitet werden müssen. Um eine Analogie zu ziehen: Bei einem einzigen der von Intrinsec überwachten Informationssysteme ist es so, als müssten Sicherheitsanalysten jeden Tag mehr als 11 000 Bücher verarbeiten, die in mehr als 10 verschiedenen Sprachen geschrieben sind", erklärt Véronique Legrand, Forscherin für Sicherheit und künstliche Intelligenz an der Insa in Lyon und Beauftragte für Innovation und Forschung bei Intrinsec.
Diese Dateninflation, das berühmte Big Data, geht Hand in Hand mit neuen Kanälen, sozialen Netzwerken, Webseiten und vernetzten Objekten, die alle Türen sind, die zu einem Angriff auf das Unternehmen führen können.
Diese Angriffe werden immer gefährlicher, sie werden massiv von böswilligen und besonders einfallsreichen Personen durchgeführt. Sicherheitsanalysten haben nicht mehr die Zeit, sich das Wissen anzueignen, das sie für eine wirksame Reaktion benötigen. Diese Kenntnisse betreffen sowohl die überwachten Technologien (Cloud, vernetzte Objekte) als auch deren Schwachstellen und nicht zuletzt die Analyse der Vorgehensweisen ihrer Gegner, die immer häufiger auch psychologische Aspekte einbeziehen (Phishing, ...).
Dabei sollten sie in der Lage sein, von den Exploits ihrer Gegner zu lernen, sie zu analysieren und dann geeignete Gegenmaßnahmen zu ergreifen.
Angesichts dieser neuen Bedrohungen reicht der Mensch allein nicht mehr aus, und wie in anderen Bereichen erweist sich künstliche Intelligenz als wertvolle Unterstützung für die Analysten.
Diese Wissenschaft boomt dank der Leistungsfähigkeit von Servern, die immer größere Datenmengen verarbeiten können, aber nicht nur: "Was das maschinelle Lernen heute auszeichnet, ist die zunehmende Einbeziehung von Fachleuten und Wissenschaftlern, um die Algorithmen der künstlichen Intelligenz zu füttern. Diese Verbindung von neuem Wissen mit Rechenleistung schafft ein günstiges Umfeld für die Entwicklung von KI im Sicherheitsbereich. "
Daten machen schlau
In der Praxis analysiert die Betriebssicherheit jede Spur, die von verschiedenen Systemen hinterlassen wird, und jede dieser Spuren kann zu einer Sicherheitswarnung führen.Allerdings sind diese Spuren heterogen. Eine der Aufgaben der KI ist es, menschliche Aktivitäten zu automatisieren und Informationen so zu organisieren, dass sie nützlich und zugänglich sind.
"Die Herausforderung in der Sicherheit besteht darin, die gesammelten Daten zu normalisieren und ihnen einen Sinn zu geben, um dem Analysten die Entscheidung zu erleichtern. Im Rahmen des Deep Learning verwenden wir Tausende von Daten, um die Algorithmen zu "füttern" und sie intelligenter zu machen. Das Interessante daran ist, dass die Algorithmen in Summe in der Lage sind, Datenklassen zu erkennen und zu charakterisieren, sobald man ihnen Beispiele dafür gibt, "was man tun" oder "was man nicht tun" sollte. Dieses Prinzip lässt sich nach einer "Trainingsphase" umsetzen, in der der Algorithmus mit mehreren tausend in Klassen eingeteilten Daten "gefüttert" wird. Wie Google sagt, ist ein Algorithmus nutzlos, wenn man ihn nicht mit Daten "füttert", um ihn zu modellieren.
Ontologie hat Klasse
Ontologien sind nützliche Modelle, um Algorithmen beim Lernen zu unterstützen. Sie sind in Klassen organisiert, die in Kombination miteinander den Elementen dieser Klassen Bedeutung verleihen. Ein Satz in der französischen Sprache hat beispielsweise drei Klassen: Subjekt, Verb, Komplement; wobei jedes Element als solches gekennzeichnet ist und dazu beiträgt, die Rolle jedes Wortes im Satz zu verstehen und auf demselben Weg dem Satz eine Bedeutung zu geben, d. h. die Bedeutung zu verstehen. Lernalgorithmen verwenden Statistiken, sie bewerten die Häufigkeit von Klassen. In unserem Beispiel verstehen wir, dass der Ausdruck "er" vom Sprachexperten sehr häufig als Klasse "Subjekt" etikettiert wird. Wenn das Wort "er" bei der Übersetzung auftaucht, wird der Algorithmus ihm diese Klasse zuweisen.
Nach dieser Klassifizierung haben die KI-Algorithmen ihre Arbeit noch nicht beendet, sie müssen die drei Klassen "Subjekt, Verben, Komplement" noch miteinander verbinden, um dem Satz einen Sinn zu geben; dies wird von den Korrelationsalgorithmen durchgeführt. Diese Phase ist sicherlich heikler und die Algorithmen sind komplexer. Denn bei der Korrelation kommen Regeln zum Tragen, die mit dem Beruf des Experten zusammenhängen und die Regeln aus Erfahrungen, Ausnahmen usw. vermischen. Es ist schwierig, diese Regeln so zu modellieren, dass sie immer gültig und für die Maschine und den Menschen nicht mehrdeutig sind. So kommt es in unserem Beispiel vor, dass die Klasse "Subjekt" umgekehrt wird. Wie kann man der Maschine alle Sprachregeln beibringen, die zu einem "umgekehrten Subjekt" führen? Im Falle der Sicherheit sind es die Angreifer, die uns diese Daten geben. Ähnlich wie Google es tut, suchen wir nach Informationsklassen aus den von den Angreifern generierten Daten (Spuren), um den Algorithmus zu verstehen und zum Lernen zu bringen."
Von der strukturierten Datenbank zu Big Data
Um diesen Begriff zu verdeutlichen, nimmt Véronique Legrand das Beispiel des Google-Übersetzungstools: "Früher wurden strukturierte Datenbanken verwendet, bei denen eine Suchanfrage auf ein bestimmtes Feld abzielte, um das entsprechende Ergebnis zu erhalten. Im Bereich der Big-Data-Datenbanken wäre dieses Prinzip nicht praktikabel. Heutzutage ist ein Feld nicht genau das, was man denkt, jedes gehört zu einer Klasse, einer Klassifizierung und die Abfragen stützen sich auf Ontologien (Bäume), um die Argumentation zu leiten. Der Algorithmus an sich muss nicht komplex oder mächtig sein. Entscheidend ist, dass er durch Beispiele bereichert wird. Google reichert seinen Übersetzungsalgorithmus mit Daten an, die von Sprachexperten mit Tags versehen wurden. Je reichhaltiger er ist, desto mehr wird er schließlich konvergieren, um in seinen Ergebnissen immer feiner zu werden. "
Auch Hacker nutzen künstliche Intelligenz
Im Bereich der Sicherheit ist das Problem jedoch komplexer. Um bei der Frage nach der Menge und Vielfalt der Protokolle zu bleiben, mit denen die Teams für Betriebssicherheit umgehen müssen, könnte es verlockend sein, einfache Übersetzungselemente zu verwenden, um die Protokolle automatisch zwischen den verschiedenen Sprachen zu übersetzen und sie zusammenzuführen. Auf der anderen Seite sind Hacker in der Lage, "Sprache" zu erzeugen, um diese automatischen Übersetzungsversuche zu verschleiern und den Anschein zu erwecken, dass alles normal ist. Dies zwingt die Forscher dazu, die Übersetzungsalgorithmen vorab zu überprüfen, um die Funktionsweise der Statistikmaschinen zu validieren.
Im Gegensatz zu einem Übersetzungswerkzeug, bei dem das Interesse aller Beteiligten darin besteht, so nah wie möglich an der Realität zu sein, sind bei der Sicherheit Menschen auf beiden Seiten des Netzwerks miteinander konfrontiert und jeder versucht, den anderen zu täuschen. Schlimmer noch. Die Waffen sind auf beiden Seiten nahezu gleich, wie Véronique Legrand in Erinnerung ruft: "Alle Tools für "Machine Learning" sind veröffentlicht und den Angreifern potenziell bekannt. Diese können erkennen, wie wir unsere Tools parametrisiert haben. Wenn sie uns zum Beispiel eine Webanfrage schicken, ist die Art und Weise, wie wir antworten, ein Hinweis für sie. Wir richten auch Honeypots ein, aber auf der anderen Seite können sie denselben Ansatz verfolgen. Deshalb ist die kontinuierliche Verbesserung wichtig, denn sie ermöglicht es uns, den Gesamtzusammenhang zu verstehen und Algorithmen zu programmieren, die schwer zu erkennen sind", mäßigt Véronique Legrand, die diese Aussage jedoch einschränkt: "Mit der Zunahme von Schwachstellen kann der Mensch allein die Arbeit nicht mehr bewältigen. Idealerweise sollten wir uns in Bezug auf den Schutz in der gleichen Situation wie vor 15 Jahren befinden, mit einem vernünftigen Fluss von Warnungen, aber mit den heutigen Korrelationstools. Idealerweise muss man für einen guten Schutz auf die Quellen der Sicherheitssysteme einwirken, damit sie besser in der Lage sind, für den Menschen relevante Warnungen zurückzuholen. Ein weiterer Aspekt ist, die Sicherheitssysteme bereits bei ihrer Konzeption besser zu spezifizieren, damit sie besser instrumentiert sind, um an der globalen Selbstverteidigung teilzunehmen, und die dritte Voraussetzung ist eine künstliche Intelligenz, die sich auf Daten aus heterogenen Quellen stützen kann. "
Diese Wege werden natürlich von zahlreichen Herausgebern und SOCs, darunter Intrinsec, erforscht. In dieser Konfrontation zwischen Angreifer und Unternehmen ist die KI eine wertvolle Hilfe, aber im Gegensatz zu dem, was man manchmal lesen kann, bleibt der Mensch unverzichtbar.
"Das Werkzeug ist intelligent, aber nur, weil der Mensch es weiterentwickelt. Nur der Mensch kann sich Gegenoffensiven ausdenken, die auf den Angriff abgestimmt sind", schließt Véronique Legrand.