Big Data georeferenziati MDT per servizi digitali nelle Smart Cities

Big Data georeferenziati MDT per servizi digitali nelle Smart Cities
 

Big Data georeferenziati MDT per servizi digitali nelle Smart Cities

Sviluppare nuove politiche di mobilità sostenibile nelle grandi città, limitare l'inquinamento delle aree urbane, abilitare nuovi modelli di collaborazione tra Cittadini e Pubbliche Amministrazioni (Smart Communities) e gestire flussi di persone e mezzi di traporto in occasione di grandi eventi o in situazioni di criticità, sono alcune delle sfide che gli Amministratori Locali dovranno affrontare nei prossimi anni, sfide per le quali i nuovi servizi digitali basati sui Big Data dei Telco Operators potranno giocare un ruolo decisivo.
Vediamo come.

 

Introduzione

La diffusione di dispositivi mobili con localizzatore GPS rappresenta infatti un asset importante per perseguire gli obiettivi delle Smart Communities, costituendo nel suo insieme una rete distribuita di sensori che trasmette tempestivamente informazioni circa l'utilizzo delle risorse del Territorio da parte dei cittadini e dei turisti, il tutto nel rispetto delle Normative vigenti in materia di Privacy (elaborazione anonima e aggregata dei dati).
Ciò rende particolarmente significativa la recente introduzione della prestazione di Rete Mobile 3G e 4G denominata MDT (Minimization of Drive Test), considerando che questa prestazione è stata sviluppata in ambito 3GPP per abbinare la posizione GPS al set di misure radio inviate dal terminale, misure che da sempre consentono di controllare il funzionamento della Rete Mobile, pianificare le sue evoluzioni e, in presenza di criticità, indirizzare al meglio l’intervento di risoluzione dell’anomalia.
Il flusso informativo generato da MDT è tuttavia soggetto alle normali discontinuità legate sia alle pause d’uso del terminale sia alle note limitazioni del GPS, che offre la sua migliore accuratezza solo all’aperto.  Ne emerge un sottoinsieme di misure accurate che, pur minoritario rispetto alla totalità di visione a cui puntano i servizi digitali, rappresenta l’elemento cardine (training set) per l’applicazione di tecniche di Machine Learning capaci di avvicinare il valore dei dati GPS agli obiettivi richiesti per la Governance di una Smart City.
Il valore delle misure MDT va oltre il semplice posizionamento GPS, poiché per ogni singola connessione, nel periodo della misura di ciascuno UE, permette la correlazione delle principali grandezze radio riportate. Pertanto anche in assenza di misure GPS si hanno a disposizione informazioni in cui per esempio le misure di livello, qualità, distanza temporale dalla cella e altre, sono associate alla medesima connessione.
Questo set di informazioni caratterizza in un certo istante l’ambiente di propagazione come una firma. In tale contesto, pertanto, anche informazioni che non riportano le coordinate GPS valide possono quindi entrare con dignità tra le informazioni utilizzabili dal Machine Learning.
Il deployment in campo delle funzionalità MDT e delle relative piattaforme di gestione si inquadra all’interno del contesto delle attività di RAN Automation [1]. L’utilizzo di tali funzionalità, oltre ad essere fondamentale nell’ottica dell’evoluzione delle metodologie di progettazione ed ottimizzazione della rete di accesso mobile, rappresenta un’opportunità importante anche per la definizione di servizi digitali nel contesto “Smart Cities”.

 

MDT (Minimization of Drive Test)

Descrizione della funzionalità

La funzionalità MDT prevede secondo l’attuale specifica tecnica [2] la registrazione ed il successivo invio delle misure effettuate dal terminale mobile, tecnicamente definito come UE (User Equipment), sia quando esso si trova nello stato di IDLE (chiamata modalità Logged), sia l’invio delle misure quando lo UE è nello stato CONNECTED (chiamata modalità Immediate). L’invio delle misure avviene verso l’RNC per la parte di rete 3G e verso la stazione radio base (NB) per LTE. La collezione delle misure e l’invio sono effettuati in modo tale da impattare al minimo sia sul carico di segnalazione della rete, sia sul consumo di batteria del terminale. L’impostazione delle misure da effettuare deve avvenire in anticipo ed attualmente non è un processo che avviene automaticamente in background sulla rete di accesso radio. Si può definire a priori l’intervallo temporale di collezione dei dati e l’area geografica minima di riferimento è rappresentata da una cella di un nodo 3G o 4G.
La funzionalità MDT fa in modo che insieme alle misure radio tipiche della rete di accesso, vengano riportate anche le coordinate GPS. Queste ultime possono essere valide/non valide ed accurate in funzione della visibilità dei satelliti GPS da parte dello UE.
In particolare, le misurazioni che possono essere effettuate sono RSRP (Received Signal Received Power), RSRQ (Received Signal Received Quality) per LTE, RSCP (Received Signal Code Power) e rapporto segnale rumore Ec/No (Pilot Chip Energy to Interference Power Spectral Density) per il 3G, si può inoltre misurare il BLER (Block Error Rate) sia per la segnalazione che per i dati utili trasmessi, il volume di dati trasmessi (Data Volume), lo scheduled IP throughput, il packet delay, e infine il packet loss rate. Inoltre, di notevole interesse è il reporting del RTT (Round Trip Time) e del RXTX_TIMEDIFF (Rx/Tx UE Time Difference). I dati collezionati dallo UE sono inviati in fase di segnalazione (RRC) e non vanno in alcun modo ad impattare sulla tariffazione verso il cliente. Di seguito sono riportate alcune immagini di esempio estrapolate da misurazioni MDT effettuate sulla rete LTE sulla città di Bologna tramite il sistema Geosynthesis, sviluppato in collaborazione con Nokia secondo le specifiche TIM. Le Figure 1 e 2 indicano su due mappe i livelli RSRP in dBm sull’intera città di Bologna, i pixel quadrati hanno il lato di 10 m e i valori risultanti delle grandezze sono medie di tutti i campioni le cui coordinate GPS valide ricadono all’interno del pixel per il periodo di misura considerato.

 

Figura 1 - Livello RSRP (dBm) georeferenziato e mediato su ciascun pixel

 

Figura 2 - Livello RSRQ (dB) georeferenziato e mediato su ciascun pixel

 

Si può osservare dai valori dei livelli che le aree a migliore copertura sono quelle in rosso con livelli RSRP≥-96 dBm, poi a seguire ci sono le aree o meglio i pixel in colore giallo con -102≤RSRP<-96 dBm, e infine quelle in colore verde -108≤RSRP
<-102 dBm. I livelli riportarti sono quelli effettivamente misurati dallo UE. In Figura 2 è riportato il livello di qualità radio per la rete LTE tramite la misura RSRQ. I valori migliori di RSRQ in dB che permettono le più alte prestazioni LTE a pacchetto sono in ordine dal verde al giallo ed infine al rosso.
Nelle Figure 3 e 4 sono riportate invece le densità di traffico in termini di numero di campioni mediati sul pixel.

 

Figura 3 - Densità di traffico in modalità “Immediate MDT” campioni/m2.

 

Figura 4 - Densità di traffico in modalità “Logged MDT” campioni/m2.

Architettura del sistema di acquisizione dati

Il sistema Geosynthesis (vedi Figura 5) raccoglie ed aggrega le misure GPS inviate dai mobili insieme ad informazioni relative alla qualità radio della rete mobile (tipicamente livello di segnale e di qualità).
I dati così elaborati vengono aggregati, in forma anonimizzata, per dare indicazioni sulla qualità della rete con indicazione geografica delle aree che presentano maggiori problemi e che devono essere oggetto di ottimizzazione.
Pertanto i dati hanno una natura puramente statistica in modo da raggiungere i miglioramenti auspicati, proteggendo le informazioni dei singoli utenti. In accordo allo standard internazionale 3GPP le funzionalità radio che vengono implementate sono:

  • UMTS: 3GPP MDT feature che  abilita l’invio di misure periodiche con coordinate GPS per i terminali che supportano la feature (3GPP TS 37.320);
  • LTE: 3GPP MDT feature che  abilita l’invio di misure periodiche con coordinate GPS per i terminali che supportano la feature attraverso Cell trace interface eNodeB immediate or logged tracing mode.
 

Figura 5 - Architettura del sistema Geosynthesis

Caratteristiche dei dati MDT

Per meglio chiarire questo aspetto analizziamo, come esempio, i dati MDT raccolti a Venezia e dintorni sulla sola rete 3G (RNC15) nella giornata del 16 luglio 2017, durante la Festa del Redentore, che hanno superato i 29 Milioni di Record, rappresentando una base informativa di grande rilievo. Data Set come quello MDT sono il risultato di complessi processi (in rete e nel terminale) che concorrono a formare i singoli elementi informativi. Non meraviglia quindi che i record MDT non siano tutti compiutamente popolati. Anche per la Latitudine e la Longitudine la casistica include informazioni non valide o inaccurate (es. posizioni GPS lontanissime da Venezia). Risulta essere all’incirca di un terzo la quota parte di record MDT con posizioni GPS quantomeno verosimili. L’effetto è che nemmeno l’ampia numerosità di campioni MDT risulta da sola sufficiente a ricostruire con l’accuratezza desiderata i molteplici flussi di percorrenza lungo il territorio, e questo non solo per la variabilità insita nel popolamento dei dati MDT, ma anche per la distribuzione dei dati GPS più accurati lungo i vari percorsi (per esempio pochi campioni interessano lunghe percorrenze mentre molti campioni si concentrano in aree ristrette o discontinue). Instabile è anche la rappresentatività del campione MDT rispetto alle presenze effettive sul territorio, variabilità indotta dai momenti di maggiore o di minore utilizzo dei servizi telefonici. Quale esempio del tipo di problematiche illustrate (Figura 6) è riportato il confronto, eseguito dall’Università di Bologna [3], tra i flussi stimabili da dati MDT-GPS a Venezia sul Ponte della Costituzione, e conteggi eseguiti sul posto con strumenti (anonimizzati) conta-persone.

 

Figura 6 - Confronto presenze stimate GPS MDT e presenze effettive sul Ponte della Costituzione a VE

La ricostruzione da dati MDT evidenzia come si riesca a cogliere l’andamento generale, ma evidenzia altresì come sfuggano alcuni momenti di maggiore variazione dei flussi.
D’altra parte l’accuratezza della posizione GPS dipende da vari fattori, tra cui il numero di satelliti visibili al momento effettivo della misura (la costellazione GPS è in movimento costante). In zone come il centro storico di Venezia non sono infrequenti nemmeno i casi di peggioramento dell’accuratezza a causa del ridotto spicchio di cielo visibile. Inoltre gli stessi smartphone, dovendo accomodare al loro interno diverse antenne in spazi ridottissimi, ricorrono a compromessi costruttivi, peggiorando l’accuratezza di posizione ottenibile rispetto a strumenti professionali.

 

Scopo dell’applicazione di tecniche di Machine Learning a dati MDT

Quanto in precedenza illustrato aiuta a porre in risalto l’esistenza di una parte di dati MDT direttamente conteggiabili perché completi e di ottima qualità, e la restante parte (la maggior parte) per la quale risulta utile esplorare quale “recupero della qualità” sia ottenibile ricorrendo all’applicazione di tecniche di Machine Learning (Figura 7).

 

Figura 7 - Distribuzione dell’incertezza posizionale nel campione di misure MDT esaminato

Questi algoritmi possono infatti far leva sulla parte di dati a maggiore qualità (Training Set e Test Set) al fine di ricostruire l’informazione desiderata (la conoscenza della posizione) per la parte di dati che non l’ha o l’ha in modo insufficiente.
Analisi condotte sui percorsi turistici a Venezia durante il Carnevale e la Festa del Redentore 2017 [3] evidenziano che la quota parte di dati MDT direttamente utilizzabili rappresenti circa un 5% del fenomeno sotto osservazione, percentuale che scende al 1.6% quando del flusso turistico si studiano anche le direzionalità in specifici snodi, questo perché al vincolo che le misure siano prodotte proprio in prossimità dello specifico snodo in esame (es. un ponte, un crocevia, ecc.) e siano appunto accurate, si aggiunge l’ulteriore vincolo che siano anche in stretta sequenza temporale.
Più in generale si può assumere buona già in partenza la rappresentatività dei dati MDT quando si analizzano fenomeni all’aperto,  con una buona concentrazione di campioni nello spazio (es. Piazza San Marco a Venezia) e senza stringenti vincoli nel tempo (es. studio della copertura di una cella). Negli altri casi si può però integrare la base informativa costituita dai campioni MDT accurati. Questo è precisamente lo scopo dell’applicazione di tecniche di Machine Learning a dati MDT, cioè quello di facilitare le analisi che hanno necessità di guardare ai fenomeni da una particolare angolazione, scendendo più in dettaglio all’interno di una zona, di uno specifico momento o di una specifica situazione (non solo outdoor).
Le potenzialità di queste tecniche si comprendono ancora meglio se si considera che le stesse risultano applicabili anche a Data Set radio non MDT, permettendo quindi di ottenere stime delle Latitudini e delle Longitudini anche quando tali informazioni sono del tutto assenti nel Data Set di partenza. Se allora consideriamo che i terminali MDT, cioè i terminali abilitati ad inviare le misure radio associando anche la posizione GPS sono circa il 25% del mercato mondiale dei terminali 3G e 4G, si comprende quanto poter allargare l’orizzonte anche verso il restante 75% possa portare benefici a molteplici applicazioni pratiche, in particolare nell'ottica futura di analizzare la quota parte di traffico all'interno degli edifici.

 

Preparazione dei Data Set MDT e Modelli

Per le analisi illustrate in questo articolo si è fatto ricorso all’ambiente di sviluppo R Studio [4] ed a Data Set rappresentativi del territorio Veneziano in esame (Figura 8).

 

Figura 8 - Impianti 3G Veneziani (in giallo) da cui sono stati ricavati i dati MDT utilizzati come Training/Test Set

La variegata distribuzione delle posizioni (circa 20.000 Latitudini e Longitudini distinte) all’interno del territorio Veneziano si evince anche dalla Figura 9 che le visualizza geograficamente.
Nella costruzione dei Data Set di Training gioca un ruolo chiave sia la contemporanea presenza di tutti i campi da utilizzare come input al Modello, sia l’esistenza di eventuali valori estremi (outlier), per i quali occorre valutare il mantenimento nel Data Set.

 
 

Figura 9 - Distribuzione delle presenze sul territorio (terra e laguna) in Data Set utilizzati per Training ML

Tra i parametri più notoriamente utilizzati per la stima delle posizioni vi è sicuramente l’identificativo di Cella, ma da sola questa informazione non sarebbe in grado di guidarci verso una specifica posizione con l’accuratezza desiderata, come testimoniato dall’ampia variabilità (fino a decine di km) di posizioni GPS (Figura 10) che troviamo nei dati MDT associati per ogni singolo identificativo di Cella.
Per tale motivo i Training e Test Set da cui partire per l’applicazione di tecniche di Machine Learning rimangono focalizzati sulle singole Celle; ma sono poi alimentati dai quattro parametri radio MDT in precedenza illustrati per la rete 3G, e cioè: Ec/No, RSCP, RTT e RXTX_TIMEDIFF. Nessuno di questi parametri, se preso singolarmente, permetterebbe di ricostruire con accuratezza una posizione GPS in una Cella.

 
 

Figura 10 - La grande variabilità di posizioni GPS nel campione esaminato è evidenziata dalla distanza (km) dei campioni più lontani dalla posizione baricentrica di ciascuna Cella 3G dell’Area Veneta

Risulta infatti debole la correlazione tra ciascun parametro anzidetto e la relativa posizione GPS in cui è stato originato, ma le tecniche di ML consentono di prenderli tutti insieme per istruire Modelli capaci di risalire dalle molteplici combinazioni di parametri radio MDT alla stima di posizione cercata (Figura 11).
I Test Set consentono a quel punto di verificare quale scarto sussista tra la stima della posizione GPS così ricostruita e la posizione “effettiva” (intesa sempre come quella GPS raccolta nel Training/Test Set). Su queste basi si può quindi procedere con le selezioni dei Modelli più adatti (o con la messa a punto di quello che risulta il Modello migliore).

 
 

Figura 11 - Modello di miglioramento della stima delle misure MDT mediante algoritmi di Machine Learning

Risultati dai Modelli ML

La prima tipologia di Modelli applicati ai dati MDT è quella dei Modelli Lineari. Questi Modelli risultano infatti di utile applicazione sia perché alcune stime, come quella della distanza dall’antenna, sono di fatto ricostruibili attraverso combinazioni lineari dei parametri RTT ed RXTX_TIMDIFF, sia perché i modelli lineari consentono di esplorare il contesto in modo intuitivo, costituendo un utile elemento di riferimento anche per valutare le prestazioni di tecniche differenti. A tale proposito è utile sottolineare che la distanza temporale che ne risulta è una media dipendente dalla tipologia dell’ambiente radio di propagazione. In particolare, un ambiente radio tipico, è quello in cui non vi è visibilità ottica diretta tra le antenne della cella servente e lo UE. In tale scenario l’eventuale predominanza di cammini multipli a maggiore ritardo e con maggiore variabilità statistica può portare a situazioni di maggiore difficoltà per la sincronizzazione dello UE in rete. Inoltre, vi saranno maggiori differenze tra la distanza reale dello UE dalla cella servente rispetto a quella calcolata a partire dai parametri di RTT ed RXTX_TIMDIFF.
I risultati sono incoraggianti perché addestrando una serie di Modelli Lineari a ricostruire la Latitudine e la Longitudine partendo dai quattro parametri radio menzionati, e verificando poi l’errore quadratico medio (RSE) che il Modello complessivamente produce nelle ricostruzioni delle singole posizioni, si ottiene una buona percentuale di casi per i quali lo scarto tra la posizione ricostruita e quella attesa si mantiene entro limiti più che accettabili.
Un esempio dell’applicazione di queste tecniche lo possiamo vedere visualizzato nello scatter plot (Figura 12) relativo ad un gruppo di 92 celle 3G della città di Venezia. In questo esempio si nota come la maggior parte dei casi si addensi in prossimità di un basso errore medio di posizione (RSE), sia per Latitudine che per Longitudine. Abbiamo cioè un buon 40% dei Modelli (di Celle quindi) nei quali i Modelli Lineari sono in grado di ricostruire la posizione con una accuratezza media di 250 m.

 

Figura 12 - Scatter Plot dell’errore quadratico medio nella ricostruzione delle posizioni in 92 Celle 3G nella città di Venezia

Si nota tuttavia la presenza di casi (es. quelli a destra nel grafico) nei quali l’errore medio di Longitudine oltre ad essere più ampio (2,5km) sopravanza quello di Latitudine.
I Modelli Lineari costituiscono quindi una buona base di partenza per la ricostruzione delle posizioni GPS non accurate, sfruttando quattro parametri radio del record MDT, consentendo così di ampliare l’insieme delle misure di posizioni utilizzabili per le varie possibili applicazioni.
Per migliorare ulteriormente le predizioni si può ricorrere anche all’addestramento di Reti Neurali (oggetto di approfondimenti non riportati in questo articolo). Questi Modelli risultano maggiormente in grado di adattarsi, per esempio, a casi nei quali la zona illuminata da una Cella risulta frastagliata o molto discontinua.
Occorre però ricordare che la messa a punto di Reti Neurali per la ricostruzione delle posizioni partendo dai parametri radio MDT anzidetti comporta un processo molto meno automatizzabile rispetto ai Modelli Lineari.
Per esempio una specifica configurazione (es. profondità degli hidden layer) individuata per una Rete Neurale capace di effettuare accurate predizioni delle posizioni di una Cella, non garantisce poi risultati altrettanto apprezzabili se quella stessa configurazione viene applicata ad un'altra Cella.

 

Figura 13 - Processo basato su tecniche di Machine Learning

Servizi Smart basati su MDT

A regime è possibile ipotizzare un processo che, partendo dal flusso in ingresso di dati MDT, ma anche quelli non MDT, offra in uscita una base informativa accurata e migliorata grazie alle tecniche di Machine Learning.
Infatti, una volta raccolti ed elaborati i dati anonimizzati, questi potranno essere utilizzati per migliorare la qualità dei servizi della Rete Mobile e/o messi a disposizione di Piattaforme Applicative in grado di fornire una rappresentazione integrata (Dashboard) delle informazioni del Territorio, orientate sia alle Sale Operative degli Enti Locali che alla restituzione contestualizzata e altamente personalizzata delle informazioni, mediante App o Web, alla stessa collettività che ha contribuito alla loro raccolta.
Questo modello cooperativo è alla base delle “Cognitive City”, dove i Cittadini, i Turisti e le Pubbliche Amministrazioni sono allo stesso tempo fruitori e fornitori delle informazioni raccolte sul Territorio, contribuendo così in maniera virtuosa al miglioramento della qualità dei servizi dell’intero ecosistema delle Città, instaurando meccanismi spontanei di auto-organizzazione collettiva generati dal comportamento dei singoli cittadini (Swarm Intelligence).
In tale contesto, i device mobili dei cittadini naturali “sensori” del territorio, saranno in grado di contribuire, anche attraverso la geolocalizzazione MDT, allo sviluppo di metodologie e strumenti in tre aree complementari:

  • Strumenti cognitivi, in grado di apprendere e rappresentare automaticamente un modello descrittivo e interpretativo delle dinamiche di interazione dei cittadini con le strutture del territorio;
  • Strumenti predittivi, in grado di supportare i processi di Risk Analysis e Decision Making a carico degli Amministratori Pubblici (Protezione Civile, Mobilità, Servizi di Sicurezza e Vigilanza, altri);
  • Strumenti di Data Visualization (HeatMap, Infografiche GIS), capaci per la loro natura evocativa di far percepire le informazioni e le loro correlazioni riguardanti l’uso del territorio in maniera semplice ed immediata.

I possibili casi d’uso dove i dati MDT potranno contribuire sono molteplici, tra cui:

  1. Ottimizzazione della domanda di mobilità sul Territorio attraverso la stima dei flussi residenziali, turistici, industriali, terziari e fieristici, al fine di individuare le azioni di sviluppo (Intermodalità, accordi tra TPL, riduzione della frammentazione del territorio) ma anche le azioni miranti all’abbattimento dell’inquinamento atmosferico ed acustico ed in generale alla riduzione degli effetti antropici sugli ecosistemi urbani;
  2. Supporto alla gestione di grandi eventi Pubblici e Privati in aree urbane mediante il monitoraggio delle fasi di afflusso, svolgimento e deflusso, contribuendo alla prevenzione e alla gestione dei rischi derivanti dall’elevata densità di affollamento dei partecipanti;
  3. Supporto all’operatività delle Sale di Protezione Civile e delle Forze dell’Ordine nelle situazioni di criticità e di emergenza in particolari aree del Territorio.

In tal senso, la tecnologia MDT si candida a contribuire, come strumento complementare, ad una nuova modalità di osservazione “Privacy-by-Design” delle dinamiche socio-demografiche delle città.

 

Conclusioni

La messa a punto di nuove metodologie di raccolta ed elaborazione di Big Data georeferenziati da parte degli Operatori Mobili potrebbe costituire in futuro un elemento chiave per lo sviluppo di nuovi servizi per le Smart Cities, sia per quanto riguarda le opportunità di integrazione dei dati nelle Control Room del Territorio, sia per fornire informazioni e servizi in tempo reale ai cittadini tramite i loro dispositivi mobili.
In tal senso, lo studio sperimentale della mobilità urbana della città di Venezia condotto da TIM in collaborazione con l’Università di Bologna, ha messo in evidenza la possibilità di poter estrarre nuova conoscenza sulle dinamiche della città da dati di geolocalizzazione GPS/MDT raccolti dalle Reti 3G e 4G.
In una prospettiva di medio periodo, tale possibilità potrà rappresentare un’opportunità per i Telco Operators per contribuire allo sviluppo di piattaforme di Governance delle Smart Cities.

 

Bibliografia

  1. RAN Automation - Notiziario Tecnico di Telecom Italia - Autori: Graziano Bini e Michele Ludovico
  2. 3GPP TR 21.905 - 3GPP TS 37.320
  3. “Detecting pedestrian behavior using ICTs data during great tourist events. The Venetia case study UNIBO-TIM collaboration”
  4. R is a project which is attempting to provide a modern piece of statistical software for the GNU suite of software. The current R is the result of a collaborative effort with contributions from all over the world. R was initially written by Robert Gentleman and Ross Ihaka—also known as "R & R" of the Statistics Department of the University of Auckland. R Core Team (2017). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
 

comments powered by Disqus