APPROFONDIMENTO

L’esperienza dal campo. Il punto di vista di Marco Gazza. SEC.CS Security Operations Center di TIM

 

Dal punto di vista dell’utilizzo on field, l’introduzione di strumenti di Analytics e Machine Learning ha permesso di gestire problematiche che richiedono analisi estremamente complesse. Nell’ Incident Handling le analisi visuali permettono di velocizzare i tempi di risposta, di valutare al volo scenari alternativi, di filtrare e restringere velocemente il campo di analisi fino al dettaglio di interesse. È di interesse per esempio capire il primo, nella serie storica, degli eventi che ha dato origine ad un data breach, valutare che non ci siano stati accessi non autorizzati a risorse, oppure che non si nascondano eventi malevoli nella immensa quantità di log di accesso ad un portale, quando i sistemi “classici” di difesa del perimetro come firewall, IDS (Intrusion Detection System), e sonde non rilevano nulla di malevolo. Inoltre, alcune “query” banali dal punto di vista concettuale, tipo “quanti eventi di log ci sono con codice di risposta KO per questa URL?” non lo sono affatto dal punto di vista pratico quando la mole di dati in gioco rende giustizia al concetto di Big Data. In fase di Hunting, la predisposizione di Report con Analytics mirati ad aspetti di sicurezza consente di osservare l’occorrenza di fenomeni malevoli altrimenti difficilmente rilevabili ed inoltre ci sono grandi aspettative per il ML, che è in fase di valutazione. In questo ambito, gli algoritmi di Machine Learning non supervisionato sembrano essere la prima opzione, infatti sia il ML di Elasticsearch che la soluzione Cyber di SAS sfruttano questo tipo di approccio. Questo è piuttosto coerente rispetto alla estrema difficoltà di definire cosa è anomalo e cosa è normale nell’ambito security. Per dirla con le parole di Heather Adkins (Google, Director of Information Security & Privacy): “…we just don’t have a sense of what is good and bad from a security security perspective…”  [nota A]. Questo comporta però di dover gestire l’effetto collaterale di un grande numero di falsi positivi.
In ambito TIM gli scenari di Machine Learning che stanno funzionando meglio sono quelli dove il “campo d’azione” degli algoritmi è stato ristretto a priori: se sparare nel mucchio (tutti i log di una certa sorgente come i portali) al momento non sembra particolarmente efficace e produce un numero eccezionalmente elevato di falsi positivi, restringere il campo a priori, ovvero tecnicamente eseguire un campionamento estremamente “biased” su condizioni specifiche di comportamento (ad esempio solo una porzione di sito web) è stato decisamente più utile.