L’ecosistema Hadoop nel mondo enterprise

Hadoop, la principale tecnologia Big Data emersa in ambito open source, utilizzata su larga scala da Yahoo! e Facebook, si sta gradualmente diffondendo anche nel mondo enterprise.
I colossi del web hanno impiegato Hadoop principalmente in ambiti operazionali, a diretto contatto con i processi di business. Nel mondo enterprise Hadoop trova più spesso collocazione nel contesto dell'infrastruttura di data warehouse, a supporto di applicazioni strategiche di reportistica e di business intelligence.
Qui Hadoop è stato inizialmente confinato a silos deputato all’integrazione delle emergenti tipologie di dati non strutturati (Figura A), per poi assumere il ruolo di piattaforma paritetica, anche al contemporaneo aumentare della disponibilità di connettori per le principali soluzioni commerciali di data warehouse (Figura B).

 

Figura A, B - L’evoluzione del ruolo di Hadoop nell’enterprise

 

Il successo di Hadoop deriva anche dal fatto che il suo file system permette di archiviare a costi ragionevoli enormi volumi di dati, senza necessità di procedere ad aggregazioni o limitazioni dell’orizzonte temporale. Emerge qui il concetto di data lake, un "mare" di dati grezzi di natura eterogenea, che supera il paradigma di data warehouse strutturato. Con Hadoop i dati depositati sul file system conservano il formato originale  e il modello informativo viene definito solo al momento dell'elaborazione in base ai criteri di processing ("schema-on-read"). Il paradigma tradizionale si fonda invece su un modello dati definito a priori, sorta di mappa della conoscenza aziendale che solidifica le logiche di accesso alle informazioni e richiede un laborioso processo di integrazione al momento dell'ingresso dei dati in archivio ("schema-on-write"). Resta così sullo sfondo la possibilità che Hadoop sia destinato ad ospitare tutte le tipologie di dati aziendali, facilitando lo sviluppo di applicazioni data-driven trasversali ai sistemi sorgenti, marginalizzando l'infrastruttura di data warehouse preesistente.
Hadoop rimane un ecosistema in evoluzione. Il modello computazionale Map-Reduce, come si è detto, nasce come sistema batch, e non è così efficiente da fornire risposte immediate. L’interattività delle query sulla scala dei petabyte è di interesse prioritario, applicandosi sia agli scenari di real-time business intelligence, sia al mondo del data warehouse, quando Hadoop viene utilizzato come archivio online su cui effettuare query ad-hoc. Un altro storico limite di Hadoop è il non totale supporto del linguaggio SQL da parte di Hive (che converte delle query SQL-like in elaborazioni batch Map-Reduce). Per risolvere tali problemi sono progressivamente comparsi sul mercato degli engine alternativi a Map-Reduce, che ottengono significativi vantaggi prestazionali interagendo direttamente con il file system HDFS e che sono pienamente compatibili con l’ANSI SQL: Impala di Cloudera, Presto di Facebook (entrambi open source) e HAWQ di Pivotal.
La release 2.0 (Figura C) di Hadoop ha introdotto YARN, sistema operativo che disaccoppia il file system distribuito HDFS da Map-Reduce e permette la coesistenza su un cluster condiviso di più engine di elaborazione parallela come quelli appena citati (il ramo "Others" di Figura C). La community - capitanata da Hortonworks - ha anche sviluppato un proprio framework interattivo, Tez (innescato da Hive, dunque non ancora del tutto SQL-compatibile), che si affianca all’ambiente di gestione dei dati in streaming (Storm) e ai database NoSQL di tipo colonnare (HBase e Accumulo).

 

Figura C - L’evoluzione dell’ecosistema Hadoop

 

Torna all'articolo