I meccanismi dietro a social e motori di ricerca I meccanismi dietro a social e motori di ricerca

La NASA e i Big Data

I dati raccolti e utilizzati dalla NASA rappresentano lo stato dell’arte dell’ingegneria spaziale

- + Text size
Stampa

“Nel tempo che hai impiegato per leggere questa frase, la NASA ha raccolto indicativamente 1,73 Gigabytes di dati dalle circa 100 missioni spaziali in corso.” Si apriva così un post pubblicato sul blog della NASA dal titolo What is NASA doing with Big Data today?. Considerando che la raccolta dati da parte dell’agenzia spaziale americana avviene ogni secondo, ogni giorno dell’anno, non è difficile immaginare come la gestione di questi enormi database e del flusso di dati che li va a comporre possa rappresentare un modello per chi opera nel settore.

Il termine Big Data è molto in voga in questi ultimi anni, ma talvolta viene usato a sproposito, generando confusione. Nel caso della NASA invece, la terminologia è più che mai appropriata: per Big Data intendiamo semplicemente un set di dati talmente ampio e complesso da non poter essere gestito da un normale sistema informatico. Quando la mole di dati è di tale dimensione, servono algoritmi avanzati e infrastrutture che permettano di navigare in questo oceano di informazioni. Nella società dell’informazione data is the new black gold, ma solo se dai dati si riesce a creare valore e conoscenza. E non è di certo facile riuscire nell’impresa quando le missioni odierne generano circa 24 TeraByte di dati al giorno.

Per capire l’importanza di questa sfida a livello globale, dobbiamo considerare che i dati raccolti e utilizzati dalla NASA rappresentano lo stato dell’arte dell’ingegneria spaziale.

Allo stato attuale il metodo di trasmissione usato sono onde radio, una tecnologia che sarà presto rimpiazzata dal laser ottico, per ora solo sperimentato dalla NASA nel 2013. Quel test rappresenta la maggior velocità mai raggiunta da un flusso di informazioni: 622 Mbps (Megabits per second). Entro il 2030, solo i dati sui cambiamenti climatici raggiungeranno i 350 Petabyte. Infatti, Discover, il supercomputer utilizzato al NASA Center for CIimate Simulation capace di più di 400 trilioni di operazioni al secondo, è considerato uno dei migliori 100 al mondo. Il telescopio Square Kilometre Array invece, il cui testing inizierà nel 2018, arriverà a generare 700 Terabyte al secondo, quando attivo. Un esempio di come la NASA archivi e processi questi dati è il Planetary Data System, che gestisce tutte le informazioni provenienti dalle missioni spaziali degli ultimi 30 anni e offre accesso a più di 100 Terabyte di immagini spaziali.

Come tante altre aziende e organizzazioni, NASA usa servizi di cloud computing per il salvataggio dei dati. Nello specifico, per la missione Mars Science Laboratory, l’agenzia spaziale americana ha spostato su Amazon Web Services il software per la gestione dei contenuti (il suo Content Management System) e i relativi siti internet. Circa 150 Gigabits al secondo venivano quindi gestiti nel cloud, mandati a un team di scienziati e addetti ai lavori, e condivisi con il pubblico. La sonda Curiosity, che raccoglieva informazioni sotto forma di fotografie, ma anche dettagli come la composizione delle rocce di Marte, ha usato il Mission Data Processing and Control System (MPCS) per far arrivare i dati a manager, sviluppatori e scienziati coinvolti nella missione. La visualizzazione dei dati che avveniva nei Jet Propulsion Laboratory in California attraverso il MPCS, sviluppato nel linguaggio di programmazione Java, permetteva visualizzazioni specifiche a seconda dell’utilizzatore finale.

La sonda atterrata su Marte nel 2012 usa la stessa tecnologia open source adottata da Goldman Sachs e Netflix, Elasticsearch. Di recente, i Jet Propulsion Lab, che gestiscono il planning giornaliero della missione, hanno ricostruito il sistema di analytics basato sui Big Data in modo da coprire ogni lettura dei dati prodotti dai sensori di Curiosity e mandare alla base californiana informazioni sulla temperatura della superficie di Marte e la composizione dell’atmosfera, così da fornire alla sonda soluzioni precise su strumenti e azioni da compiere. Questo sistema di lettura dei dati in tempo reale permette di pianificare tutte le operazioni rispetto ai dati ricevuti con un giorno di anticipo, trovando anomalie e pattern in modo molto più veloce di un tempo. Queste correlazioni permettono di ottimizzare le decisioni prese durante la missione, garantendo una migliore capacità di esplorazione e meno rischi di malfunzionamento. Secondo il data scientist Dan Isla, questa è stata una vera e propria trasformazione dal punto di vista operativo, che ha permesso di velocizzare i processi, riducendo a pochi secondi il tempo tra l’elaborazione dei dati e l’invio ai Jet Propulsion Lab. “Possiamo interrogare il sistema e ricevere risposte più velocemente di quanto possiamo pensare a nuove domande” ha infatti dichiarato Isla.