PA e Data Science. Gli Open Data

a cura di Chiara Limiti per Iusinitinere – “La pubblica amministrazione sta muovendo i primi passi ma ancora non corre sul campo dello sfruttamento dei dati per la progettazione delle sue politiche e per l’allocazione delle sue risorse: Tuttavia, è comunque molto diffusa la consapevolezza che la pubblica amministrazione sia un grande player di generazione, acquisizione, distribuzione di dati. In tale ruolo la PA, quindi, ha definito una disciplina strutturata in materia di disponibilità del dato, anche sulla base di quanto promosso a livello europeo. Tale disciplina è strettamente collegata al tema degli open data, ovvero dati pubblici raccolti nell’ambito dell’azione delle PA che devono essere disponibili, riutilizzabili, e vengono messi a disposizione della comunità per incentivare la partecipazione alla gestione della cosa pubblica”.

1. La Data science

La velocità delle innovazioni e la rapidità degli sviluppi della conoscenza rendono necessario lo studio del futuro: per tale ragione le aziende e le amministrazioni pubbliche lavorano in un’ottica di previsione. La rapidità dei mutamenti sociali richiede capacità di anticipazione degli eventi, chi conosce prima possiede un enorme vantaggio competitivo. La capacità di previsione è fortemente legata alla capacità di raccogliere e interpretare i dati. La rivoluzione tecnologica mette a disposizione una grande quantità di informazioni[1]; l’effettiva quantità di dati oggi generati è abnorme: dai telefoni, alla carte di credito usate per gli acquisti, dalla televisione agli storage necessari per le applicazioni dei computer, dalle infrastrutture intelligenti delle città, fino ai sensori montati sugli edifici, sui mezzi di trasporto pubblici e privati e via discorrendo. I dati vengono generati con un flusso così incrementale che tutte le informazioni accumulate nel corso degli ultimi due anni hanno superato l’ordine dei Zettabyte (10²¹ byte), segnando un record per l’umanità[2]. Tuttavia, questa enorme quantità di dati per poter essere utilizzata e fornire delle risposte alle domande sul futuro richiede una capacità di interpretazione per elaborare, analizzare e trovare riscontri oggettivi su diverse tematiche. A tale proposito, trova collocazione la Data science, ovvero la scienza dei dati, intesa come un ambito che raccoglie tutte le discipline che riguardano la pulizia, la preparazione e l’analisi dei dati per estrarne informazioni di valore altrimenti non evidenti. La Data science, disciplina per la quale ancora non è stata fornita una definizione universalmente riconosciuta, è quindi un termine utilizzato per indicare un campo di studi interdisciplinare focalizzato sia sui processi che sui sistemi tecnologici necessari ad estrarre conoscenza e quindi valore, da dati di varia natura, forma e dimensione. Perciò la Data science eredita elementi di statistica, Data mining^[3], machine learning^[4], ricerca operativa^[5], teoria dell’informazione^[6], programmazione e Big Data^[7]. Questa nuova scienza è, quindi, un campo di interdisciplinare sui processi e i sistemi per estrarre conoscenza o approfondimenti da grandi volumi di dati in varie forme strutturati o non strutturati. I dati strutturati sono quelli organizzati secondo uno schema, delle regole sintattiche ed una struttura comune e rappresentano la fonte più indicata per la costruzione di modelli di gestione relazionale delle informazioni. I dati non strutturati invece, sono dataset conservati senza alcun schema come ad esempio possono essere i file di testo narrativo prodotti con software di editing testuale oppure un file multimediale. In genere si ritiene che i dati non strutturati siano: testo, immagini, video, audio, elementi di calcolo^[8].

La Data science è negli ultimi anni passata dall’essere una componente per garantire l’efficienza aziendale e l’ottimizzazione della gestione di prodotti, servizi e relazioni con clienti, a diventare il motore di una nuova economia che si basa sulla raccolta e l’elaborazione dell’informazione: la quarta rivoluzione industriale. Anche l’atteggiamento della pubblica amministrazione si è modificato di conseguenza, per cui se in una prima fase la Data science è stata interpretata come un fenomeno collegato allo sviluppo di determinati settori aziendali; in un secondo momento anche la PA ha cominciato a muoversi sul campo. La ricerca Data Science in the New Economy pubblicata nel luglio del 2019 dal World Economic Forum (WEF), Centre for the New Economy and Society come parte del progetto New Metrics CoLab, ha analizzato la distribuzione degli skill nelle industrie di diverso settore e aree economiche. I ricercatori del WEF si sono basati sul Coursera Global Skills Index, e hanno messo in evidenza come il settore d’industria più preparato sul fronte della citata quarta rivoluzione industriale è quello tecnologico, seguito dai servizi professionali e dalle telecomunicazioni. Manca ancora completamente, invece, un atteggiamento proattivo da parte della pubblica amministrazione.

Ci sono, quindi, tre dimensioni della Data science e che necessitano di attenzione. La dimensione della disponibilità del dato, inclusi gli aspetti legati al formato, l’interoperabilità e le regole di sfruttamento; che, come vedremo più avanti, si tratta del campo di intervento in cui maggiore è stato il ruolo della pubblica amministrazione. La dimensione tecnologica, con le soluzioni sia open source che proprietarie che rendono possibile la gestione di questi dati. In questa dimensione troviamo gli strumenti messi a punto dalla comunità internazionale per la gestione dei big data, principalmente in ambito open source[9]. Particolarmente significativa, per quanto riguarda questo aspetto è la tendenza ad offerte omnicomprensive da parte dei maggiori vendor (Microsoft, Google, Amazon Web Services) che includono Internet of things, Big data e Cloud computing[10]. La dimensione educativa, infine, si collega alle iniziative volte ad identificare le competenze attese dal mercato del lavoro per supportare Università e centri di formazione per la preparazione di lavoratori. In quest’ultima dimensione, si può fare una distinzione tra le iniziative che mirano ad accrescere il livello delle conoscenze della popolazione nell’ambito digitale e quelle più specifiche per la definizione di curricula universitari e post universitari dedicati alla Data science.

2. La Pubblica Amministrazione e la Data science

La Data science riguarda l’intera amministrazione pubblica^[11], l’enorme quantità di dati di cui il settore pubblico dispone è in larghissima parte non valorizzata e questi non resi disponibili. Addirittura grandi problematiche esistono nello scambio dei dati tra amministrazioni pubbliche ed all’interno della stessa amministrazione e l’interoperabilità è ancora tutta da venire. Tuttavia, bisogna tenere conto che attualmente ogni attività umana – dai consumi, alle comunicazioni, ai trasporti, all’istruzione, al commercio – produce dati che, se letti ed interpretati, possono offrire informazioni utili anche alle amministrazioni pubbliche[12]: ad esempio per ridurre il traffico o gli sprechi energetici, aumentare l’occupazione, migliorare la sicurezza sul lavoro, attivare azioni di intelligence (sia a fini di sicurezza pubblica sia per finalità antifrode e/o di contrasto alla corruzione) o iniziative di prevenzione sanitaria, per rendere più efficienti i servizi ai cittadini[13]. Una conoscenza e lo sfruttamento di questi dati, inoltre, consentirebbe di intervenire in maniera sensata sui tagli alla spesa delle pubbliche amministrazioni, tema molto caro ai Governi di diversi colori che si sono succeduti nell’ultimo ventennio. Un controllo della spesa sistematico all’interno delle pubbliche amministrazioni, infatti, potrebbe evitare il triste ricorso ai cosiddetti “tagli lineari”. Tuttavia, il controllo della spesa deve passare per la conoscenza e l’aggregazione di tutti i dati inerenti l’organizzazione stessa[14], il territorio di riferimento, i bisogni dei cittadini, in modo che questi diventino parte integrante del processo di pianificazione finanziaria e strategica dell’ente. Saper usare e sintetizzare tali dati[15], attraverso strumenti adeguati, diventa quindi un valore aggiunto per il patrimonio informativo pubblico, al fine di fornire supporto al management strategico[16]. Tuttavia, la pubblica amministrazione su questo campo sembra non essere ancora partita in maniera uniforme e strutturata, esistono quindi delle esperienze, anche di avanguardia, ma in genere non è diffusa la coscienza del valore strategico dato dall’analisi di questa enorme mole di dati. Non mancano i primi studi che affiancano e provano ad interconnettere alcune delle conoscenze fornite dal diritto amministrativo con la Data science[17] limitatamente agli ambiti delle classiche attività amministrative che, nella tradizione italiana, sono legate alle funzioni attive; e che tengono conto dei profili di complessità organizzativa della pubblica amministrazione, le interdipendenze interne ed esterne, le diverse tipologie di controlli, che incidono anche sul modo con cui si lavora e si apprende un modo migliore di lavorare.

Un problema potrebbe sicuramente essere rappresentato dal fatto che la pubblica amministrazione non si sia ancora adeguata alla Data science in termini di competenze[18], innanzitutto per la mancanza di preparazione specifica dei funzionari, che potrebbero essere all’altezza solo se venissero formati ed orientati alle conoscenze che sarebbero necessarie, e se le organizzazioni amministrative venissero dotate di data scientists[19]. Tuttavia i dati in proposito non sembrano essere confortanti, se ci si basa su una brevissima analisi dei bandi di concorso della PPAA in cui non risultano (neanche per le amministrazioni che per il loro core business sono legate all’analisi del dato) riferimenti specifici a tali professionalità. Ma quanto affermato dovrebbe essere sottoposto a qualche verifica più attenta a livello macro, e soprattutto in ordine alla disciplina normativa riguardante l’organizzazione ed i principi dell’attività amministrativa. Tuttavia, si ha la percezione che cominci ad essere consolidata, almeno a livello teorico, la percezione della necessità di attrezzare la pubblica amministrazione con competenze – e dunque persone, oltre che tecnologie – in grado di lavorare in termini di cultura del dato. Inoltre, come rilevato ad esempio da Pierpaolo Forte[20], occorre anche considerare la necessità di versare “nella cultura del dato le cognizioni e le secolari conoscenze sviluppate negli ambiti giuridici, ed in particolar modo nel diritto amministrativo[21], il quale ha piena contezza, e per qualche verso è figlio, di molto di ciò che gli ambiti della data science stanno affrontando”.

La pubblica amministrazione sta muovendo i primi passi ma ancora non corre sul campo dello sfruttamento dei dati per la progettazione delle sue politiche e per l’allocazione delle sue risorse: Tuttavia, è comunque molto diffusa la consapevolezza che la pubblica amministrazione sia un grande player di generazione, acquisizione, distribuzione di dati. In tale ruolo la PA, quindi, ha definito una disciplina strutturata in materia di disponibilità del dato, anche sulla base di quanto promosso a livello europeo[22]. Tale disciplina è strettamente collegata al tema degli open data, ovvero dati pubblici raccolti nell’ambito dell’azione delle PA che devono essere disponibili, riutilizzabili, e vengono messi a disposizione della comunità per incentivare la partecipazione alla gestione della cosa pubblica. A livello europeo, l’argomento degli open data è tenuto nella massima considerazione ormai da tempo: lo studio Open Data Maturity in Europe del 2017[23] mostra che quasi tutti gli Stati membri si sono attivati per realizzare dei modello di accesso liberi. Anche la pubblica amministrazione centrale italiana ha prodotto policies mature in materia di open data (ed in generale sulla digitalizzazione), anche se la loro applicazione in alcuni casi registra una significativa mancanza di entusiasmo e di interesse. Tuttavia, nel novembre 2015 lo European Data Portal ha prodotto uno studio dal titolo “Creative Value through Open Data”[24] con cui ha evidenziato che la pubblica amministrazione potrebbe essere di gran lunga il settore che più beneficerebbe dall’apertura dei dati con un guadagno stimato di 22 miliardi.

3. Gli open data

La diffusione di dati utilizzando formati aperti (open data) è in grado di fornire nuove opportunità in termini di maggiore trasparenza della pubblica amministrazione; migliore accesso alle informazioni da parte dei cittadini; realizzazione di nuovi prodotti e nuovi servizi da parte delle imprese. Gli open data consentono infatti la rielaborazione delle informazioni e il loro utilizzo per creare servizi innovativi. Una definizione di open data maggiormente utilizzata è quella fornita dalla Open Knowledge Foundation: “un contenuto, una informazione o un dato si definisce aperto se chiunque è in grado di utilizzarlo, riutilizzarlo e ridistribuirlo per qualunque scopo senza alcuna restrizione legale, tecnologica o sociale o, al massimo, con l’obbligo di garantirne la provenienza e l’apertura”[25].

Il concetto di open data nasce probabilmente nel 2009 negli Stati Uniti con il presidente Obama. Infatti nello stesso giorno del suo insediamento e come primo atto, il presidente Barack Obama ha pubblicato un memorandum sulla trasparenza e l’Open Government indirizzato ai dirigenti della sua amministrazione: “la mia amministrazione si impegna a dare vita a un grado di apertura (openness) nel governo senza precedenti. Lavoreremo assieme per assicurare la fiducia pubblica e per stabilire un sistema basato sulla trasparenza, sulla partecipazione pubblica e sulla collaborazione. L’apertura rafforzerà la nostra democrazia e promuoverà l’efficienza e l’efficacia dell’amministrazione”. Al memorandum ha fatto seguito l’8 dicembre 2009 la Open Government Directive e la Open Government Iniziative che, appunto, raccoglie le iniziative per l’Open Government dell’amministrazione federale americana in un sito progettato per favorire la partecipazione e i feedback dei visitatori. La Open Government Directive prevede, invece, che (ove possibile) l’amministrazione statunitense pubblichi le informazioni di cui dispone “on line, utilizzando un formato aperto (open) che possa cioè essere recuperato, soggetto ad azioni di download, indicizzato e ricercato attraverso le applicazioni di ricerca web più comunemente utilizzate. Per formato open si intende un formato indipendente rispetto alla piattaforma, leggibile dall’elaboratore e reso disponibile al pubblico senza che sia impedito il riuso dell’informazione veicolata”. Per quanto riguarda il nostro Paese, bisogna attendere il 2012 con l’adesione all’Open Government Partnership e l’emanazione del primo piano di azione in materia di open government.

Se in un primo momento, anche nel nostro Paese, lo sviluppo del concetto di open data era strettamente legato al tentativo di restituire trasparenza all’azione amministrativa (si pensi anche alla dichiarazione del Presidente Obama) e di combattere i fenomeni corruttivi, da tempo è stato abbandonato il concetto di uso dei dati per la sola trasparenza amministrativa. Il concetto di open data è, infatti sempre più spesso collegato a quello di riuso commerciale dei dati aperti, cioè la possibilità che le imprese utilizzino i dati aperti della PA al fine di generare prodotti e servizi per creare valore sociale ed economico. In tale ambito la PA potrebbe, quindi, contribuire alla creazione di nuove economie e insieme rafforzare quelle già esistenti, attraverso diverse forme di sfruttamento: sviluppo di applicazioni, che riusando dati pubblici offrano servizi innovativi ai propri utenti (es. Moovit); data journalism o giornalismo basato sui dati, dove giornalisti riusano i dati aggregati di fonte pubblica per raccontare una storia (es. InfoData de Il Sole 24 ore); Enrichment, soggetti che già gestiscono servizi basati sui dati e che grazie ai dati pubblici possono rafforzare il proprio business (es. Immobiliare.it o Zillow.com; Società di assicurazioni, ecc.)[26].

3.1 La disciplina degli open data

I dati pubblici hanno, quindi, un potenziale economico enorme, che però può esprimersi a pieno solo se i dati sono offerto in formato aperto (full open data). Questo vuol dire che i dati non possono essere semplicemente pubblicati e resi accessibili, ma occorre anche eliminare qualunque limitazione (giuridica, finanziaria o tecnologica) al loro riutilizzo da parte di altri. Nell’articolo 68 del Codice dell’Amministrazione Digitale (CAD), ovvero il decreto legislativo 82 del 2005 e successive modifiche e integrazioni[27], modificato dal decreto legislativo 217 del 2017, viene sancito al comma 1-ter che i dati si intendono open data se:

“a) sono disponibili secondo i termini di una licenza che ne permetta l’utilizzo da parte di chiunque, anche per finalità commerciali, in formato disaggregato;

b) sono accessibili attraverso le tecnologie dell’informazione e della comunicazione, […] sono adatti all’utilizzo automatico da parte di programmi per elaboratori e sono provvisti dei relativi metadati (una serie di istruzioni e descrizioni che aiutano a leggere e ad interpretare correttamente i dati)”.

Il Manifesto per l’Open Government inoltre definisce ulteriori caratteristiche che devono essere proprie degli open data:

Completi. Devono comprendere tutte le componenti che consentano di esportarli, utilizzarli online e offline, integrarli e aggregarli con altre risorse e diffonderli in rete;
Primari. Devono essere presentati in maniera sufficientemente disgregata, per poter essere utilizzati dagli utenti per integrarli e aggregarli con altri dati e contenuti in formato digitale;
Tempestivi. Devono esser resi pubblici tanto velocemente quanto è necessario per preservarne il valore;
Accessibili. Devono essere trasmissibili e interscambiabili tra tutti gli utenti in rete direttamente attraverso i protocolli Internet, senza alcuna sottoscrizione di contratto, pagamento, registrazione o richiesta ufficiale;
Leggibili da computer. Machine-readable, ovvero processabili in automatico dal personal computer;
Non proprietari. Gli utenti devono poter utilizzare e processare i dati attraverso programmi, applicazioni e interfacce non proprietarie;
Liberi da licenze che ne limitino l’uso. Ai dati non possono sottendere copyright o diritti intellettuali, né tantomeno brevetti che possano limitarne l’accesso e soprattutto l’utilizzo e il riuso degli utenti. Inoltre, i dati sono “aperti” se viene garantita agli utenti qualsiasi modalità di utilizzo, anche a scopi commerciali;
Riutilizzabili. Gli utenti devono essere messi in condizione di riutilizzare e integrare i dati, sino a creare nuove risorse, applicazioni, programmi e servizi di pubblica utilità per la comunità di utenti;
Ricercabili. Gli utenti devono poter ricercare con facilità e immediatezza dati e informazioni mediante strumenti di ricerca ad hoc, come database, cataloghi e motori di ricerca;
Permanenti. Le peculiarità sino ad ora descritte devono caratterizzare i dati nel corso del loro intero ciclo di vita sul web.

Il riferimento normativo specifico per la disciplina degli open data è costituito (come in genere su tutti gli aspetti relativi alla digitalizzazione della pubblica amministrazione) dal CAD (Codice dell’Amministrazione Digitale). Il Capo V del CAD è quello relativo ai “Dati delle pubbliche amministrazioni e servizi in rete”, ed in particolare gli articoli 50, 52 e il già citato articolo 68 contengono tutte le disposizioni concernenti la disponibilità, la fruibilità e la sicurezza dei dati, dei sistemi e delle infrastrutture delle pubbliche amministrazioni ed istituiscono i portali[28] di open data nazionali[29]. L’idea di base, recepita nel nostro Paese dal Codice dell’Amministrazione Digitale, è valorizzare i dati pubblici raccolti ed elaborati dalle pubbliche amministrazioni consentendone esplicitamente il riutilizzo[30]. Un’analisi puntuale del testo del CAD, rileva che l’articolo 2, comma 1, stabilisce che “lo Stato, le Regioni e le autonomie locali assicurano la disponibilità, la gestione, l’accesso, la trasmissione, la conservazioni e la fruibilità dell’informazione in modalità digitale […]”. L’articolo 1, comma 1, lett. o) spiega per che “disponibilità dei dati” si intende “la possibilità di accedere ai dati senza restrizioni non riconducibili a esplicite norme di legge” mentre per “fruibilità del dato” deve intendersi “la possibilità di utilizzare il dato anche trasferendolo nei sistemi informativi automatizzati di un’altra amministrazione”. L’articolo 50 si occupa della disponibilità e fruibilità dei dati della pubblica amministrazione[31]. L’articolo 52[32], invece, riguarda l’accesso telematico ai dati e ai documenti delle PPAA. Inoltre, nell’ambito di questo articolo viene anche definito il principio dell’open by default[33], sulla base del quale “i dati e i documenti che le amministrazioni titolari pubblicano, con qualsiasi modalità, senza l’espressa adozione di una licenza […], si intendono rilasciati come dati di tipo aperto”. L’articolo 52 attribuisce la responsabilità dell’attuazione del titolo V del CAD all’Agenzia per l’Italia Digitale (AGID). L’articolo 68, come detto, rende le definizioni di formato di tipo aperto e di dati di tipo, anch’esso è stato novellato dal decreto legge n. 179 del 2012.

La lettura degli articoli sopra riportati disegnano una nozione di open data che poggia su tre requisiti: l’adozione di una licenza che consenta un ampio riutilizzo, la pubblicazione in un formato di tipo aperto e la gratuità dell’accesso o, al più, la marginalità del costo. L’importanza di un tale impianto normativo non può essere disconosciuto e rappresenta una spinta non indifferente verso la pratica dei dati aperti.

La data science e la pubblica amministrazione: gli open data

admin