“Raschiare” i dati e PDF

26 Aprile 2012

“Chi deve fare informazione con i dati ha assoluto bisogno di imparare ad analizzare i dati e usare i fogli calcolo. I dati possono essere una nuova frontiera dell’open research” Lucy Chambers, della Open Knowledge Foundation spiega così il compito del data journalism al’interno degli ambiti di giornalismo di ricerca e di trattamento di dati.
Questo ambito del giornalismo è senza dubbio di ultima generazione e anche difficile da comprendere per i tanti termini tecnici e i programmi che offrono infinite possibilità. Il pubblico è stato subito messo a suo agio dalle domande di Aidan McGuire, editor di ScraperWiki, che ha testato le conoscenze tecnologiche dei presenti, volendo evidenziare quanto sia possibile e semplice il lavoro dei giornalisti quando si conosce la possibilità di usare dati numerici, file csv, linguaggio html.

Dan Nguyen, collaboratore di ProPublica, comincia questo workshop illustrando tutti i tipi di pdf esistenti. “Adobe è un prodotto commerciale, costa molto e non sempre è affidabile. Ma la cosa migliore da fare se avete un pdf con testo è andare su siti come cometdocs.com e si potrà convertire gratuitamente in Excel.” La possibilità di convertire un qualsiasi pdf in un foglio di calcolo Excel è l’unico metodo realistico che possiamo utilizzare per avere delle classifiche di dati precisi e facilmente utilizzabili. Inoltre possiamo portare lo stesso testo pdf anche in un formato di testo.

Discorso diverso invece per i pdf formati solo da immagini. Migliore è la qualità della foto e più si riesce a trasformarla in qualcos'altro con il programma Tesseract, che traduce un'immagine in un testo. Tutto ciò però è molto difficile per chi non ha basi di programmazione. Oltre Tesseract esiste anche Adobe Acrobat, costoso ma utile, Google Docs, utile nella misura in cui i file possono essere convertiti in 19 lingue, e Amazon Mechanical Turk, programma complicato e costoso. La programmazione, con molta teoria da apprendere, è davvero molto utile ma è difficile da poter usare e ci vuole del tempo prima di poter dominare tutte le possibilità che essa ci consente di attuare con i dati.

Il metodo dello scraping è approfondito da McGuire. “Questo è un nuovo approccio per guardare il web. Ogni sito web deve rappresentare per voi una banca dati, un database, e dovete pensare: come potete trovare qualcosa di utile, come può essere un sito un database? Quando volete fare lo scraping dovete sapere se si può fare o meno, nel senso se avete la possibilità di analizzare al meglio i dati”. Ciò, però, non sempre può essere attuabile. Se dobbiamo analizzare tante pagine di statistiche, il consiglio di McGuire è di lavorare direttamente sul link del sito dove nella parte finale modificando un valore di query avremo tutti i dati in un unica pagina. Andando ad analizzare i codici html di un sito, possiamo anche andare a cercare direttamente cosa ci serve quindi possiamo selezionale tutto ciò che ci serve. “Imparare l’html è estremamente utile".

Un ottimo modo di scoprire tutte queste potenzialità è usare ScraperWiki. Un programma che ci permette di entrare nel dettaglio del database che vogliamo analizzare e che ci garantisce un grandissimo risparmio di tempo, facendo un lavoro di background a nostra misura con lo scopo di tradurre un html in un testo facilmente consultabile. “Al 90 per cento in questo modo avrete sempre la possibilità di fare in 10 minuti ciò che dovrebbe farsi in più di una settimana di lavoro. Ma ricordate: imparare la programmazione può essere sempre un asso nella manica per voi capace di fare la differenza tra il vostro lavoro e quello di un collega”.

Daniele Palumbo