Guida al portale dei dati aperti

1. Introduzione

Il portale dei dati aperti dell’Istituto Nazionale di Geofisica e Vulcanologia (INGV) rende pubblicamente consultabile il “Registro Dati” istituzionale. In esso sono raccolti i metadati relativi ai Dati di Ricerca frutto della produzione scientifica dell’INGV e/o gestiti e/o pubblicati da INGV.

Il Registro Dati è lo strumento principale per l’attuazione della Politica dei Dati dell’INGV; risponde alla necessità di governare la molteplicità dei dati di ricerca pubblicati, impostarne una condivisa gestione istituzionale, e gestirne l’accesso, l’uso e il riuso. La politica dei dati dell’INGV si basa sul principio fondamentale di “Accesso Aperto”. In tal senso, l’INGV adotta una politica che consente un accesso libero, aperto, pieno e tempestivo ai propri dati di ricerca, rispettando i principi stabiliti nella normativa comunitaria e nazionale, in accordo con le proprie finalità istituzionali. Secondo la normativa italiana (D.Lgs 7 marzo 2005, n. 82. Codice dell’Amministrazione Digitale - CAD. Art. 1, comma l-ter) i dati digitali di tipo aperto devono avere queste caratteristiche:

  • essere disponibili secondo i termini di una licenza che ne permetta l’utilizzo da parte di chiunque, anche per finalità commerciali, in formato disaggregato;
  • essere accessibili attraverso le tecnologie dell’informazione e della comunicazione, ivi comprese le reti telematiche pubbliche e private, in formati aperti; essere adatti all’utilizzo automatico da parte di programmi per elaboratori ed essere provvisti dei relativi metadati;
  • essere resi disponibili gratuitamente, oppure essere disponibili ai costi marginali sostenuti per la loro riproduzione e divulgazione.

I Dati di Ricerca elencati nel Registro Dati si compongono di singoli oggetti o registrazioni di natura fisica o digitale, ad ogni livello di elaborazione, o di collezioni organizzate di oggetti o registrazioni. Essi includono i prodotti della ricerca necessari a validare le scoperte scientifiche. In questa sede il termine “dato” si riferisce indifferentemente al dato grezzo acquisito dal sensore, al campione fisico di qualunque natura, ad un prodotto ottenuto da un’analisi del dato a tutti i livelli di elaborazione sia di tipo automatico che manuale.

Il Registro Dati cataloga i dati pubblicati dall’INGV ed è pensato per soddisfare le esigenze sia del personale “addetto ai lavori”, sia del grande pubblico. Il Registro è stato istituito nel 2018 tramite la pubblicazione del “Documento di attuazione della politica dei dati” ed è a cura dell’Ufficio Gestione Dati dell’INGV. In caso di dubbio sul significato della terminologia specifica adottata nel portale, è possibile consultare la sezione “Definizioni” nel “Documento di attuazione della politica dei dati”.

Il portale dei dati aperti dell’INGV è un primo passo nel processo di adozione progressiva del paradigma dell’Open Science nell’attività di Ricerca. La sua pubblicazione avviene con l'intento di innescare un processo virtuoso sia nell’attività quotidiana dei ricercatori sia nei potenziali utilizzatori dei dati, un processo che nel medio/lungo termine punta ad una più completa ed efficiente condivisione dei risultati della Ricerca pubblica.

Nei diagrammi qui sotto è possibile vedere l'andamento temporale della pubblicazione di schede di metadati nel Portale dei Dati Aperti. Le schede pubblicate prima del 2019 erano parte di una sperimentazione per testare le funzioni di pubblicazione di DOI e relativi metadati usando i servizi di DataCite.

L'INGV è diviso in tre dipartimenti: Terremoti, Vulcani e Ambiente.
Nel grafico seguente è possibile vedere la suddivisione delle schede di metadate pubblicate divise per questi dipartimenti, tenendo presente che alcuni dati sono riferibili a più di un dipartimento.

2. Identificazione dei dati tramite codici DOI

Alla base del metodo scientifico vi è la riproducibilità dei risultati sperimentali. Tra i diversi fattori che contribuiscono alla riproducibilità di un risultato un posto importante è occupato dall’individuazione certa dei dati utilizzati.

A questo scopo il Registro Dati ha impostato come elemento cardine l’identificazione univoca dei dati. Questa è strettamente legata al soggetto produttore dei dati e alle caratteristiche di qualità, attendibilità e affidabilità che può garantire, a tutto vantaggio del potenziale utilizzatore dei dati.

Tecnicamente, l’identificazione è affidata al DOI (Digital Object Identifier), un codice ratificato come standard dall’ISO (International Organization for Standardization) e gestito dalla IDF (International DOI Foundation), un'organizzazione senza scopo di lucro creata nel 1998. Il codice DOI è un cosiddetto “identificativo persistente”. La persistenza di un DOI consiste nel restare immutato nel tempo, anche se la pagina web cui è associato può variare. Questa caratteristica permette il puntamento stabile ad un oggetto digitale disponibile sul web anche se questo dovesse essere “trasferito” da un sito web ad un altro.

L’assegnazione di un DOI ad un oggetto digitale garantisce, oltre alla persistenza del collegamento, anche l’associazione ad esso i una serie di metadati , ovvero un elenco di informazioni che descrivono i dati cui il DOI riconduce. Infatti un DOI può essere assegnato solo se viene compilata una quantità minima di metadati , la cui tipologia varia a seconda della natura dell’oggetto che si vuole dotare di identificativo.

Oltre ai dati a cui INGV ha associato direttamente codici DOI, il Registro Dati può contenere anche dati di cui è titolare (o co-titolare) ma il cui DOI è assegnato da altre organizzazioni che ne gestiscono in totale autonomia la pubblicazione sul web come posso essere alcune riviste scientifiche o archivi di dati come ad esempio Pangaea, Zenodo o Figshare.

Ai dati nel Registro sono sempre associati metadati comuni come il titolo, l’anno di pubblicazione e l’indirizzo web presso cui i dati sono scaricabili. Altri metadati presenti sono:

  • una breve descrizione dei dati, in inglese;
  • l’elenco completo degli autori e dei collaboratori, con l’indicazione dei ruoli ricoperti da ciascuno e delle rispettive affiliazioni;
  • la titolarità dei dati, ovvero a quali organizzazioni appartengono;
  • i termini di utilizzo dei dati espressi mediante una delle licenze Creative Commons, così come previsto dalla Politica dei Dati;
  • la copertura geografica, ovvero l’area geografica cui i dati si riferiscono;
  • la copertura temporale, ovvero il lasso temporale interessato dai dati;
  • i progetti e le organizzazioni che hanno finanziato la raccolta, l’elaborazione e la compilazione dei dati;
  • i dati collegati e le relazioni esistenti con essi (es.: dati derivati o fonti di dati);
  • le pubblicazioni collegate ai dati.

Grazie alla ricchezza di metadati associati a ciascun codice DOI è possibile automatizzare la generazione delle corrispondenti citazioni bibliografiche, a prescindere dallo standard bibliografico adottato. Un esempio di strumento che si avvale di questa possibilità è disponibile all’indirizzo https://citation.crosscite.org dove è possibile generare citazioni a partire da un codice DOI, scegliendo tra migliaia di formati di codifica collegati alle riviste scientifiche. Il portale INGV incorpora nella scheda di ciascun dataset una citazione bibliografica pronta all’uso che viene generata usando questo strumento.

3. Consultazione tramite interfaccia web

La consultazione dei dati pubblicati nel Registro Dati può avvenire in tre modi:

  1. tramite la ricerca con una o più parole chiave;
  2. tramite una ricerca geografica disegnando un’area di interesse su una mappa;
  3. tramite il nome di una o più persone coinvolte a vario titolo nella creazione dei dati.

E’ possibile fare una ricerca combinando le prime due modalità, ovvero inserendo una parola chiave e contemporaneamente specificando l’area geografica su cui si desidera ricercare i dati disponibili. Ad esempio inserendo il termine “tsunami”, disegnando un poligono che racchiude la Turchia e facendo click su “Conferma” sotto la mappa, si otterrà come risultato un elenco di dati che riportano il termine “tsunami” nel titolo, nella descrizione e/o tra i termini chiave di ricerca e che interessano l’area disegnata.

La ricerca che utilizza il nome delle persone coinvolte, permette di fornire l’elenco dei dati di cui la persona è tra gli autori principali o di quelli a cui ha contribuito in una qualche misura con la propria attività.

4. Ricerca avanzata

Oltre alla ricerca utilizzando semplici parole chiave è possibile cercare dati specificando il campo di ricerca. Per utilizzare la funzione di ricerca avanzata è necessario anteporre al termine da cercare un prefisso che indica dove quel termine vada cercato.

Questo è l’elenco dei prefissi ammessi:

  • title, per cercare termini specifici presenti esclusivamente nel titolo
    Esempio: title:*etna*
  • creator, per cercare un nome, un cognome o un codice ORCID tra gli autori
    Esempio: creator:*LOCATI* oppure creator:*Mario* oppure creator:*0000-0003-2185-3267*
    Attenzione: il cognome va scritto con tutte le lettere maiuscole, il nome deve avere la prima lettera maiuscole e le altre lettere minuscole
  • identifier, per cercare un codice DOI
    Esempio: identifier:*10.13127/asmi*
    Attenzione: il codice DOI va scritto tutto in minuscolo
  • issued, per cercare la data di pubblicazione nel formato YYYY-MM-DD
    Esempio: per cercare una data precisa issued:2017-06-30
    per cercare un anno specifico issued:2017-*
    per cercare in un periodo issued:[2018-01-01 TO 2018-07-31]
  • publisher_name, per cercare l’organizzazione che pubblica i dati
    Esempio: publisher_name:Zenodo
    Attenzione: la ricerca è sensibile all’uso di maiuscole e minuscole
  • notes, per cercare all’interno della descrizione
    Esempio: notes:centuries

5. Altri metodi di consultazione

Oltre alla consultazione a schermo delle informazioni, da ciascuna pagina web dedicata ai dati è anche possibile scaricare i file contenenti i metadati codificati secondo gli standard più diffusi come ad esempio:

Al fine di rendere possibile anche l’accesso automatizzabile ai contenuti del Registro Dati, sono anche disponibili alcuni servizi web:

6. Segnalazione di errori o incompletezze

Seppure tutti i soggetti coinvolti nella gestione del portale e dei suoi contenuti si sforzino di fornire informazioni il più possibile complete, aggiornate e corrette, è possibile che qualche imprecisione sfugga nella procedura di inserimento. Nel caso di errori o informazioni non corrette, potete inviare una segnalazione scrivendo a ufficiogestionedati@ingv.it

7. Licenza associata ai metadati

Tutti i metadati pubblicati sul Portale dei dati aperti dell'INGV sono disponibili senza restrizioni con una licenza di tipo CC0 1.0 Universal (CC0 1.0) Public Domain Dedication.