I dati, Excel e i segreti di Python

Si è tenuto oggi presso l’Hotel Sangallo di Perugia il workshop “I dati, Excel e i segreti di Python”.
L’incontro ha visto protagonista Marco Tulio Pires, direttore della School of Data. Organizzato nell'ambito della sezione dedicata al Data Journalism, ha inaugurato con gli altri eventi della giornata la decima edizione del Festival Internazionale del Giornalismo.

Al centro dell’attenzione le grandi potenzialità di Python, linguaggio di programmazione particolarmente utile per l’analisi ragionata di grandi quantità di dati. Obiettivo dell’incontro, come anticipato da Pires, è stato fornire alla platea gli strumenti per estrapolare evidenze da moli di informazioni apparentemente inconciliabili. Come nel caso analizzato nel corso della sessione.

È stato messo in evidenza come Python renda possibile produrre un unico file CSV avendo a disposizione un’enorme mole di file di diversa natura. Una grande opportunità, in particolare, per i giornalisti, che hanno modo così di accedere a database complessi per individuare elementi di notiziabilità altrimenti nascosti. Ne possono beneficiare, tra gli altri, anche agenzie governative, aziende ed organizzazioni civili, per rendere significative le informazioni in proprio possesso.

L’incontro, di natura estremamente pratica, ha attinto dall'esperienza di analisi svolta da Sarah Cohen, giornalista del New York Times. Un esempio di Data Cleaning avanzato incentrato su informazioni fornite dal Dipartimento della Salute dello Stato di New York e contenute nei “Medicaid Managed Care Enrollment Reports”.  Il percorso ha messo in evidenza come i dati multipli contenuti in molteplici XLS possano essere facilmente tradotti tramite Python in un unico CSV contente esclusivamente le informazioni di proprio interesse.

Il primo passo, ha mostrato Pires, è individuare una strategia di pulizia, andando alla ricerca dei modelli e delle ripetizioni. Fondamentale, quindi, avere ben presente qual è il risultato che si vuole ottenere attraverso l’analisi. Individuati i pattern, ovvero le ripetizioni presenti nei file, si prosegue con l’estrazione dei valori di celle, colonne e righe, e nella creazione di un dizionario. I passaggi successivi portano all'ottenimento del file CSV.

Uno strumento potente, che avrà sicuramente ulteriori sviluppi. Per chi volesse approfondire, il consiglio finale è di rivolgersi ad autorità nel campo, quali l’Università di Harward, promotrice di un efficace corso online disponibile gratuitamente. Ma, soprattutto, pensare sempre di potercela fare.

Annalisa Masi