L’analisi dei dati è un’attività fondamentale in molte aziende attente all’innovazione.

Nell’intervista di oggi ci focalizziamo sull’importanza dell’analisi dei dati e ad essere intervistato è proprio un esperto di Machine Learning, nonché Data Scientist, Alberto. È la figura professionale che tutte le aziende dovrebbero avere al proprio interno per avere prestazioni sempre migliori, orientate all’innovazione e al futuro.

DOMANDE:

Parlaci brevemente di te e del tuo background professionale

Il mio background è, principalmente, accademico. Ho, infatti, una laurea (2000, Milano) e un dottorato (2004, Parma) in fisica teorica ed, in particolare, in fisica delle particelle. Dal 2004 al 2017 ho seguito una classica carriera accademica, con posizioni di ricerca e insegnamento in diverse istituzioni europee (Parigi, Berlino, Edimburgo, Friburgo, Copenhagen e Torino). La mia attività di ricerca era incentrata sullo studio delle interazioni fondamentali tra particelle ed in particolare l’elaborazione e la verifica di modelli attraverso esperimenti agli acceleratori, per esempio LHC al CERN di Ginevra. Gran parte del mio lavoro in questo campo si basava sull’utilizzo di tecniche di machine learning e statistica per analizzare grandi quantità di dati e questo mi ha permesso, di passare con facilità al settore privato, dove queste tecnologie sono molto richieste.
Nel 2017 ho partecipato ad un bootcamp di Data Science basato a Londra, dove ho lavorato su un progetto per NewsUK, l’editore di diversi quotidiani tra cui il Times.

La successiva esperienza è stata con una start-up londinese che si occupa di applicazioni della tecnologia blockchain per il settore energetico. Si è trattata di un’occasione particolarmente interessante perché loro erano alla ricerca di un esperto di Machine Learning, mentre io ero interessato ad acquisire competenze in ambito blockchain “sporcandomi le mani”.
A seguito di questa esperienza ho lavorato come consulente freelance con startup italiane su progetti in ambito Machine Learning/Intelligenza Artificiale e parallelamente, da un anno, sono rientrato nell’ambito accademico, al Dipartimento di Informatica dell’Univeristà di Torino dove sono Project Manager di un progetto Europeo (H2020) che studia l’applicazione di tecnologie disruptive per la gestione dei Beni Comuni Urbani.

A quanto pare i dati sono la nuova fonte di valore che muove la Quarta rivoluzione Industriale. Come mai sono diventati così importanti proprio adesso?

Credo sia una combinazione di diversi fattori.
Da una parte c’è sicuramente la digitalizzazione dell’informazione. Credo che le aziende abbiano sempre raccolto dati ma, recentemente, il processo di digitalizzazione di questa raccolta ha sicuramente subito un’accelerazione. Molti dati che prima erano raccolti in archivi cartacei, adesso sono mantenuti in forma elettronica (database, spreadsheet, etc.), facilitandone l’analisi.
Oltre a questo, la diffusione sempre maggiore di sensori, strumenti di raccolta dati e soluzioni di storage a basso costo (cloud, IoT devices) facilita molto la raccolta di dati che prima era troppo costoso o complesso raccogliere e gestire.
La nascita e lo sviluppo dei social network ha creato nuove fonti di dati, anche di tipo completamente nuovo, che permettono analisi che prima non erano possibili per la semplice mancanza dei dati stessi.
Infine, la disponibilità di hardware che permette di creare e studiare modelli estremamente complessi che implementano algoritmi avanzati di Machine Learning (Deep Learning) con tempi e costi decisamente contenuti, sia utilizzando macchine dedicate, che soluzioni Cloud.

Quali sono i settori che stanno utilizzando in maniera più importante i Big data?

In una forma o nell’altra, credo che tutti i settori facciano sempre più uso di tecniche avanzate di raccolta e analisi dati, più o meno consapevolmente e più o meno estesamente. Spesso la differenza è legata alla mole di dati disponibili ed impiegata. In realtà i cosiddetti “big data” (una buzzword che, negli ultimi anni, ha lasciato più spazio a “Intelligenza Artificiale” o “Machine Learning”) sono usati da “pochi” attori che hanno accesso e interesse ad usare queste grandi moli di dati (penso a chi si occupa di analisi su grandi database, magari raccolti attraverso i social network), mentre l’utilizzo di tecniche sempre più raffinate di analisi dei dati per ottimizzare i processi all’interno delle aziende o per creare servizi innovativi si sta diffondendo anche in realtà via via più piccole.

Quale ritieni possa essere uno sviluppo rilevante che ci attende in futuro nel campo dell’analisi dei dati?

Difficile da dire, sicuramente ci sono sviluppi in ambito medico. Per esempio, l’impiego di sistemi di riconoscimento di immagini sempre più sofisticati e basi di dati sempre più ampie permetterà di ottenere prestazioni anche migliori di quelle umane nella lettura di immagini mediche.
Passando ad un tema di attualità con il Coronavirus, lo sviluppo di modelli sempre più accurati e precisi per simulare la diffusione delle epidemie ci permetteranno di agire in maniera efficace nel contenerle.
Seguendo questa linea Google ha appena presentato uno studio in cui le previsioni del tempo a brevissimo termine sono effettuate, non a partire da modelli, ma da una rete neurale allenata su enormi moli di dati derivati da immagini satellitari.

Secondo il tuo punto di vista qual è lo stato dell’arte in Italia rispetto all’utilizzo dei big data (confronto con altre realtà europee che conosci)?

L’Italia presenta, come spesso capita quando si tratta di adozione di nuove tecnologie, una situazione con molti chiaroscuri. Da una parte ci sono realtà che sono all’avanguardia nell’adozione e nello sviluppo delle tecnologie stesse, e dall’altra queste sono meno diffuse rispetto a quanto non siano in altre realtà europee (penso ad esempio al Regno Unito, alla Francia o ai paesi del Nord Europa) nella gran parte delle realtà. Quello che sembra mancare sono, da una parte la mancanza di grandi player, come accade per esempio in Francia (dove Facebook e Google hanno stabilito laboratori di ricerca), con l’eccezione di Amazon che ha un gruppo focalizzato su Alexa basato a Torino. Dall’altra manca un po’ l’adozione da parte delle start-up e delle piccole e medie imprese, che potrebbero approfittare di un approccio basato su consulenze e progetti specifici, rispetto alla spesa di assumere stabilmente esperti Data Scientist o Machine Learning Experts.

Per finire, ci consigli una o più fonti di conoscenza indispensabili (libri, podcast ecc) per chi vuole approfondire la conoscenza di questa materia?

La letteratura è vasta e si trovano risorse per tutti i tipi di interessi e tutti i livelli di approfondimento tecnico.
Tra i libri “generalisti” mi sento di consigliare:

  • L’algoritmo e l’oracolo di Alessandro Vespignani, molto interessate e attuale anche ora che si parla di diffusione del CoronaVirus
  • Armi di Distruzione Matematica di Cathy O’Neil, per una visione critica dell’impatto che i moderni algoritmi di machine learning e analisi dati possono avere sulla vita di ognuno di noi.
  • Una fonte di ottimi articoli (a tutti i livelli, dal divulgativo al tecnico), sulla piattaforma Medium e` Townards Data Science (https://towardsdatascience.com)
  • Un altro ottimo aggregatore di articoli, review e anche proposte di lavoro è il sito Data Science Central (https://www.datasciencecentral.com)