Quale difficoltà trova un data journalist nell'avvicinarsi a un'inchiesta basata sui dati? E i dati, come si raccolgono, puliscono e analizzano? Gianluca de Martino e Andrea Nelson Mauro, giornalisti co-fondatori della piattaforma Dataninja.it hanno voluto condividere, durante la conferenza tenutasi alle 14.00 all'Hotel Sangallo, gli strumenti digitali avanzati che utilizzano nel loro lavoro.
Il data journalism, approccio a metà tra ricerca e inchiesta giornalistica sta prendendo sempre più piede, proponendo risultati concreti, utili e di successo, perché l'analisi dei dati permette di calcolare scientificamente la portata dei fenomeni e di raccontarli comprendendone le radici e prevedendone evoluzioni, involuzioni, continuità o arresti. È per questo che Dataninja.it, esperimento partito nel 2012, continua ad avere successo in Italia e all'estero, proponendosi come agenzia di produzione di contenuti e articoli connessi con l'analisi dei dati. I suoi fondatori hanno dimostrato l'efficacia degli strumenti da loro proposti, fondamentali nell'approccio al data journalism, portando ad esempio l'inchiesta sui beni confiscati in Europa, presente sulla loro piattaforma o con i dati raccolti per lo studio sulle tragiche morti dei migranti nel mediterraneo.
La difficoltà principale che un data journalist può incontrare, ha detto De Martino è la disponibilità dei dati non immediatamente leggibili. Esiste una tecnica che permette ai giornalisti di estrapolare questo tipo di dati, rendendoli machine readable quindi leggibili dal computer: lo scraping. To scrape significa "grattare via" e il termine rende concretamente l'idea della tecnica: estrarre i dati utili e non immediati da un sito web, da pagine html, immagini e file pdf e renderli indagabili ai fini dell'inchiesta.
Sono tanti i tool che permettono, tramite il loro utilizzo, lo scraping: da Tabula a Scraper Wiki, consentendo inoltre l'ordinamento dei dati e il loro raggruppamento, elaborando le notizie e i fenomeni tramite l'incrocio dei dati, permettendone uno studio sempre più approfondito.
Altra tecnica importante per il data journalism è la pulizia dei dati. Il modo in cui trasferiamo i dati al Pc è uno degli elementi fondamentali per permettere al computer di gestirli in modo efficiente. A proposito della pulizia dei dati, Andrea Nelson Mauro ha voluto citare OpenRefine, tool in origine sviluppato da Google. OpenRefine è un software Java utilizzabile su qualsiasi dispositivo, in grado di lavorare su un'enorme quantità dati e di pulirla in maniera massiva.
Giulia Ceccagno