L'intelligenza artificiale ha dato alla sicurezza operativa un nuovo alleato. Véronique Legrand, ricercatrice del settore, spiega come l'apprendimento automatico possa aiutare a proteggere i sistemi informatici da attacchi sempre più mirati e ingegnosi.
"Le sfide attuali della sicurezza operativa sono semplici: ci troviamo di fronte a una marea di dati e a un'enorme varietà di dati da elaborare. Per usare un'analogia, su uno solo dei sistemi informativi supervisionati da Intrinsec, è come se gli analisti della sicurezza dovessero elaborare ogni giorno più di 11.000 libri scritti in più di 10 lingue diverse", spiega Véronique Legrand, ricercatrice in Sicurezza e Intelligenza Artificiale presso l'Insa di Lione e responsabile dell'Innovazione e della Ricerca di Intrinsec.
Questa inflazione di dati, i famosi big data, va di pari passo con i nuovi canali, i social network, i siti web e gli oggetti connessi, tutti elementi che possono portare a un attacco all'azienda.
Questi attacchi stanno diventando sempre più pericolosi, portati avanti su larga scala da individui malintenzionati e particolarmente inventivi. Gli analisti della sicurezza non hanno più il tempo di acquisire le conoscenze necessarie per rispondere efficacemente. Soprattutto perché queste conoscenze riguardano sia le tecnologie sorvegliate (cloud, oggetti connessi) sia le loro vulnerabilità, senza dimenticare l'analisi del modus operandi degli avversari, che coinvolge sempre più la dimensione psicologica (phishing, ecc.).
Per contrastare queste intrusioni, gli analisti della sicurezza applicano costantemente regole complesse e rischiose, mentre dovrebbero essere in grado di imparare dagli exploit degli avversari, analizzarli e quindi adattare contromisure adeguate.
Di fronte a queste nuove minacce, gli esseri umani da soli non bastano più e, come in altri settori, l'intelligenza artificiale si sta rivelando preziosa per supportare gli analisti.
Questa scienza è in piena espansione grazie alla potenza dei server in grado di elaborare volumi di dati sempre maggiori, ma non solo: "ciò che caratterizza l'apprendimento automatico oggi è il maggiore coinvolgimento di esperti aziendali e scienziati nell'alimentazione degli algoritmi di intelligenza artificiale. Questa combinazione di nuove conoscenze e potenza di calcolo crea un ambiente favorevole allo sviluppo dell'IA nella sicurezza". "
I dati rendono intelligenti
In pratica, la sicurezza operativa analizza ogni traccia lasciata dai vari sistemi e ognuna di queste tracce può fornire un allarme di sicurezza, anche se queste tracce sono eterogenee. Uno dei ruoli assegnati all'IA è quello di automatizzare le attività umane e organizzare le informazioni in modo che siano utili e accessibili.
"La sfida nel campo della sicurezza è quella di standardizzare i dati raccolti e dar loro un significato che faciliti la decisione dell'analista. Nel deep learning, utilizziamo migliaia di dati per 'alimentare' gli algoritmi e renderli più intelligenti. Il vantaggio è che, in breve, gli algoritmi sono in grado di riconoscere e caratterizzare classi di dati dal momento in cui vengono forniti loro esempi di "cosa fare" o "cosa non fare". Questo principio può essere attuato dopo aver seguito una "fase di addestramento", che consiste nel "nutrire" l'algoritmo con diverse migliaia di dati etichettati come classi. Come dice Google, un algoritmo è inutile se non gli si "danno in pasto" i dati per modellarlo.
L'ontologia ha una classe
Le ontologie sono modelli utili per guidare gli algoritmi nel loro processo di apprendimento: sono organizzate in classi che, combinate tra loro, danno un significato agli elementi appartenenti a queste classi. Per esempio, una frase in lingua francese ha 3 classi: soggetto, verbo, complemento; dove ogni elemento è etichettato come tale e contribuirà in questo modo a capire il ruolo di ogni parola nella frase e, per questa stessa via, a dare un significato e quindi a capire il senso della frase. Gli algoritmi di apprendimento utilizzano le statistiche per valutare la frequenza delle classi. Nel nostro esempio, possiamo vedere che l'espressione "egli" sarà molto spesso etichettata come classe "soggetto" dall'esperto linguistico. Quando la parola "il" viene tradotta, l'algoritmo le assegnerà questa classe.
A seguito di questa classificazione, gli algoritmi di IA non hanno finito il loro lavoro; devono ancora collegare le 3 classi: "soggetto, verbo, complemento" per dare significato alla frase, e gli algoritmi di correlazione faranno questo. Questa fase è sicuramente più delicata e l'algoritmo è più complesso. La correlazione coinvolge regole legate al lavoro dell'esperto, mescolando regole basate sull'esperienza, eccezioni, ecc. È difficile modellare queste regole in modo che siano sempre valide e non ambigue per la macchina e per l'uomo. Ad esempio, nel nostro esempio, la classe "soggetto" può essere invertita, quindi come si fa a insegnare alla macchina tutte le regole linguistiche che portano a un "soggetto invertito"? Nel caso della sicurezza, sono gli aggressori a fornirci questi dati. Proprio come fa Google, cerchiamo classi di informazioni dai dati (tracce) generati dagli attaccanti per capire e far apprendere l'algoritmo".
Dai database strutturati ai Big Data
Véronique Legrand utilizza l'esempio dello strumento di traduzione di Google per spiegare questo concetto: "In passato, utilizzavamo database strutturati in cui una query si rivolgeva a un determinato campo per ottenere il risultato corrispondente. Nel campo dei database di big data, questo principio non è più praticabile. Oggi, un campo non è esattamente ciò che pensiamo che sia; ogni campo appartiene a una classe o a una classificazione e le query si basano su ontologie (alberi) per guidare il ragionamento. L'algoritmo in sé può non essere complesso o potente. Ciò che conta è arricchirlo di esempi. Google arricchisce il suo algoritmo di traduzione con dati etichettati da esperti linguistici. Più si arricchisce, più finirà per convergere verso risultati sempre più raffinati. "
Gli hacker utilizzano anche l'intelligenza artificiale
Nella sicurezza, tuttavia, il problema è più complesso. Per tornare alla questione della quantità e varietà di log che i team di sicurezza operativa devono gestire, si potrebbe essere tentati di utilizzare semplici elementi di traduzione per tradurre automaticamente i log tra lingue diverse e farli convergere. D'altra parte, gli hacker sono in grado di generare "parole" per confondere questi tentativi di traduzione automatica e far sembrare che tutto sia normale. Questo costringe i ricercatori a verificare preventivamente gli algoritmi di traduzione per convalidare il funzionamento dei motori statistici.
A differenza di uno strumento di traduzione, dove è nell'interesse di tutti essere il più vicino possibile alla realtà, la sicurezza si confronta con esseri umani su entrambi i lati della rete, e ognuno cerca di ingannare l'altro. Peggio ancora. Come ci ricorda Véronique Legrand, "tutti gli strumenti di apprendimento automatico sono pubblicati e potenzialmente noti agli aggressori, che possono rilevare come abbiamo configurato i nostri strumenti. Ad esempio, se ci inviano una richiesta web, il modo in cui rispondiamo sarà un indizio per loro. Abbiamo anche creato delle honeypots, ma potrebbero avere lo stesso approccio. Ecco perché il miglioramento continuo è così importante, perché ci permette di capire il contesto generale e di programmare algoritmi difficili da individuare", modera Véronique Legrand, che tuttavia qualifica questa affermazione: "Con la proliferazione delle vulnerabilità, l'uomo da solo non può più fare il lavoro. Idealmente, in termini di protezione, dovremmo trovarci nella stessa situazione di 15 anni fa, con flussi di allerta ragionevoli, ma con gli strumenti di correlazione di oggi. Idealmente, per una buona protezione, dobbiamo agire sulle fonti dei sistemi di sicurezza in modo che siano maggiormente in grado di emettere avvisi rilevanti per l'uomo. L'altro aspetto è quello di specificare meglio i sistemi di sicurezza in fase di progettazione, in modo che siano meglio equipaggiati per partecipare all'autodifesa globale, e la terza condizione è quella di avere un'intelligenza artificiale che possa attingere a dati provenienti da fonti eterogenee. "
Si tratta di strade esplorate da diversi editori e SOC, tra cui Intrinsec. In questo scontro tra l'attaccante e l'azienda, l'intelligenza artificiale è un valido aiuto, ma contrariamente a quanto si legge talvolta, l'elemento umano rimane indispensabile.
"Lo strumento è intelligente, ma solo perché l'uomo lo fa evolvere. Solo gli esseri umani possono ideare contromosse basate sull'attacco", conclude Véronique Legrand.