Avec l’intelligence artificielle, la sécurité opérationnelle bénéficie d’une nouvelle alliée. Véronique Legrand, chercheur en la matière nous détaille l’apport du machine learning à la protection de systèmes d’information face aux attaques toujours plus ciblées et ingénieuses.
” Les enjeux actuels en sécurité opérationnelle sont simples : nous faisons face à un déluge et une grande variété de données à traiter. Pour faire une analogie, sur un seul des systèmes d’informations supervisés par Intrinsec, c’est comme si les analystes en sécurité devaient traiter chaque jour plus de 11 000 livres écrits dans plus de 10 langues différentes “, explique Véronique Legrand, chercheur en Sécurité et Intelligence artificielle à l’Insa de Lyon et chargée de mission en Innovation et Recherche pour Intrinsec.
Cette inflation de données, le fameux big data, va de pair avec les nouveaux canaux, réseaux sociaux, sites web, objets connectés qui sont autant de portes susceptibles de mener vers une attaque de l’entreprise.
Ces attaques deviennent de plus en plus dangereuses, elles sont menées massivement par des individus malveillants et particulièrement inventifs. Les analystes de sécurité n’ont plus le temps d’acquérir les connaissances nécessaires à une réponse efficace. D’autant que ces connaissances touchent tout aussi bien aux technologies surveillées (cloud, objets connectés) qu’à leurs vulnérabilités, sans oublier l’analyse des modes opératoires de leurs adversaires faisant intervenir de plus en plus souvent la dimension psychologique (hameçonnage,…).
Pour pallier ces intrusions, les analystes de sécurité appliquent à chaque instant des règles complexes et risquées alors qu’ils devraient pouvoir apprendre des exploits de leurs adversaires, les analyser puis adapter les contre-mesures adéquates.
Face à ces nouvelles menaces, l’humain seul n’y suffit plus et comme dans d’autres secteurs, l’intelligence artificielle s’avère précieuse pour épauler les analystes.
Cette science est en plein essor grâce à la puissance des serveurs capable de traiter des volumes de plus en plus importants de données, mais pas seulement, ” ce qui caractérise le machine learning aujourd’hui c’est l’intervention accrue d’experts métiers et de scientifiques pour nourrir les algorithmes de l’intelligence artificielle. Cette conjonction de nouveaux savoirs à la puissance de calcul crée un environnement favorable au développement de l’IA en sécurité. “
La donnée rend intelligent
Dans les faits, la sécurité opérationnelle analyse chaque trace laissée par les différents systèmes et chacune de ces traces peut apporter une alerte de sécurité.Reste que ces traces sont hétérogènes. Un des rôles dévolus à l’IA est d’automatiser les activités humaines et d’organiser l’information afin qu’elle soit utile et accessible.
” Le challenge en sécurité consiste à normaliser les données collectées et à leur donner un sens pour faciliter la décision de l’analyste. Dans le cadre du deep learning, nous utilisons des milliers de données pour “nourrir” les algorithmes et les rendre plus intelligents. L’intérêt est qu’en somme les algorithmes sont capables de reconnaître et caractériser des classes de données à partir du moment où on leur donne des exemples de ” ce qu’il faut faire ” ou ” pas faire “. Ce principe peut se mettre en œuvre après avoir suivi une ” phase d’entrainement” qui consiste à le ” nourrir ” l’algorithme de plusieurs milliers de données étiquetées en classes. Comme le dit Google, un algorithme ne sert à rien si on ne le ” nourrit ” pas de données pour le modéliser.
L’ontologie a de la classe
Les ontologies sont des modèles utiles pour guider les algorithmes dans leur apprentissage, elles sont organisées en classes qui combinées entre elles donnent un sens aux éléments appartenant à ces classes. Par exemple, une phrase en langue française possède 3 classes : sujet, verbe, complément ; où chaque élément étant étiqueté comme tel et contribuera par ce biais à comprendre le rôle de chaque mot dans la phrase et par ce même chemin à donner un sens donc comprendre le sens à la phrase. Les algorithmes d’apprentissage utilisent les statistiques, ils évaluent la fréquence des classes. Dans notre exemple, on comprend que l’expression « il » sera étiquetée très souvent comme une classe ” sujet ” par l’expert du langage. Lorsque le mot ” il ” se présentera à la traduction, l’algorithme lui affectera cette classe.
Suite à cette classification, les algorithmes de l’IA n’ont pas terminé leur travail, ils doivent encore relier les 3 classes : ” sujet, verbes, complément ” pour donner un sens à la phrase, ce sont les algorithmes de corrélation qui le réaliseront. Cette phase est certainement plus délicate et l’algorithmie y est plus complexe. En effet, la corrélation fait intervenir des règles liées aux métiers de l’expert, mêlant des règles faites d’expériences, d’exceptions… difficiles de modéliser ces règles afin qu’elles soient valables tout le temps et non ambiguë pour la machine et l’humain. Ainsi, dans notre exemple, il arrive que la classe ” sujet ” soit inversée, comment apprendre à la machine toutes les règles linguistiques qui conduisent à un ” sujet inversé ” ? Dans le cas de la sécurité, ces données, ce sont les attaquants qui nous les donnent. Tout comme ce que fait Google, nous recherchons des classes d’informations à partir des données (traces) générées par les attaquants pour comprendre et faire apprendre à l’algorithme.”
De la base structurée au Big Data
Pour vulgariser cette notion Véronique Legrand prend l’exemple de l’outil de traduction de Google, ” Auparavant, on utilisait des bases de données structurées où une requête ciblait un champ donné pour obtenir le résultat correspondant. Dans le domaine des bases de données big data, ce principe ne serait pas viable. Aujourd’hui un champ n’est pas exactement ce que l’on pense, chacun appartient à une classe, à une classification et les requêtes s’appuient sur des ontologies (arbre) pour guider les raisonnements. L’algorithme en lui-même peut ne pas être complexe ni puissant. Ce qui compte c’est de l’enrichir en le nourrissant d’exemples. Google enrichit son algorithme de traduction avec des données étiquetées par des experts du langage. Plus il sera riche, plus il finira par converger pour être de plus en plus fin dans ses résultats. “
Les pirates aussi utilisent l’intelligence artificielle
Reste qu’en sécurité, le problème est plus complexe. Pour reprendre la question de la quantité et de la variété de logs que doivent traiter les équipes de la sécurité opérationnelle, il pourrait être tentant d’utiliser des éléments de traduction simple pour traduire automatiquement les logs entre les différents langages et les faire converger. En face, les pirates informatiques sont capables de générer des ” paroles ” pour brouiller ces tentatives de traduction automatique et pour faire croire que tout est normal. Ce qui oblige les chercheurs à contrôler au préalable les algorithmes de traduction afin de valider le fonctionnement des moteurs statistiques.
Contrairement à un outil de traduction où, l’intérêt de chacun est d’être au plus près de la réalité, la sécurité est confrontée à des humains de part et d’autre du réseau et chacun tente de duper l’autre. Pire. Les armes sont quasi égales de chaque côté comme le rappelle Véronique Legrand, « Tous les outils de “machine learning” sont publiés et potentiellement connus des attaquants Ces derniers peuvent détecter comment nous avons paramétré nos outils. Par exemple, s’ils nous envoient une requête web, la façon dont nous allons leur répondre constituera un indice pour eux. Nous mettons aussi en place des pots de miel, mais en face ils peuvent avoir la même approche. C’est pour cela que l’amélioration continue est importante, elle nous permet de comprendre le contexte global et de programmer des algorithmes difficiles à détecter » modère Véronique Legrand qui conditionne toutefois ce propos, ” Avec la multiplication des vulnérabilités, l’humain seul ne peut plus faire le travail. Idéalement, en termes de protection, il faudrait que nous nous retrouvions dans la même situation qu’il y a 15 ans, avec des flux d’alertes raisonnables, mais avec les outils de corrélation actuels. Idéalement, pour une bonne protection il faut agir sur les sources des systèmes de sécurité pour qu’ils soient plus à même de remonter des alertes pertinentes pour l’humain. L’autre aspect est de mieux spécifier les systèmes de sécurité dès leur conception afin qu’ils soient mieux instrumentés pour participer à l’autodéfense globale et la troisième condition est d’avoir une intelligence artificielle qui puisse s’appuyer sur les données de sources hétérogènes. “
Des pistes explorées bien sûr par de nombreux éditeurs et SOC, dont Intrinsec. Dans ce face à face entre l’attaquant et l’entreprise, l’IA est d’une aide précieuse, mais contrairement à ce que l’on peut parfois lire, l’humain reste indispensable.
” L’outil est intelligent, mais parce que l’humain le fait évoluer. Seul l’homme peut imaginer les contre-offensives en fonction de l’attaque “, conclut Véronique Legrand.