INFORMATICA/ Google premia chi tratta i Big Data con strutture “succinte”

- int. Sebastiano Vigna

Il prestigioso Google Focused Research Award Award va a un gruppo di italiani, i primi a riceverlo. Un premio sullo studio degli algoritmi, lo spiega uno dei vincitori SEBASTIANO VIGNA

google-award_R439
Infophoto

È il primo gruppo di italiani che riceve il prestigioso (e cospicuo) Google Focused Research Award Award, un finanziamento da un milione di dollari per ricerche informatiche volte a sviluppare strutture dati “succinte”, che permettono forte riduzione di spazio e funzionalità addizionali rispetto alle strutture standard.

Il premio ha come titolo “Big Data and Web Algorithmics” e il team di ricerca premiato comprende Paolo Boldi e Sebastiano Vigna, del LAW – Laboratorio di Algoritmica per il Web dell’Università Statale di Milano, e Alessandro Panconesi, Flavio Chierichetti, Aris Anagnostopoulos, Stefano Leonardi di Informatica e Ingegneria Informatica all’Università di Roma La Sapienza.

Il professor Vigna, spiegando a Ilsussidiario.net l’obiettivo delle ricerche premiate da Google, chiarisce subito che «l’ambito è quello, oggi in forte espansione, dei Big Data cioè quelle grandi moli di dati che viaggiano sul Cloud e che richiedono trattamenti particolari». Gli informatici di Milano e Roma saranno supportati dal colosso di Mountain View nello studio e nello sviluppo di strutture dati “succinte”, con una velocità uguale a quelle usuali ma che  permettono una forte riduzione di spazio utilizzato e funzionalità addizionali rispetto a quelle standard.

Con strutture dati ci si riferisce a quelle contenute dentro un motore di ricerca: «qualunque cosa ci sia dentro un motore di ricerca è rappresentata da una struttura dati: sono quelle che in pratica permettono di memorizzare i dati degli utenti e utilizzarle per le ricerche. Pensiamo all’indice del motore di ricerca di Google: c’è una struttura dati che permette di fare l’operazione che tutti noi facciamo frequentemente, cioè digitare una parola e avere come risposta dal sistema tutte le pagine web che la contengono».

Il problema nasce con i Big Data e la parte specifica del lavoro del gruppo di Milano consiste nel trovare strutture dati che siano molto veloci e occupino poco posto in memoria: a queste strutture dati viene attribuito il termine tecnico “succinte”. Sono ricerche molto recenti, perché riguardano appunto i Big Data che fino a poco tempo fa  non c’erano; d’altra parte per queste ingenti quantità di dati non sono adatti gli algoritmi tradizionali. 

Che fosse possibile creare strutture con queste proprietà è noto dagli anni ’70, ma ci sono stati solo esempi isolati fino alla fine degli anni ’80, quando le strutture dati succinte hanno cominciato a essere sviluppate in modo più organico, pur rimanendo, più che altro, una curiosità accademica. Da pochi anni a questa parte queste strutture sono diventate competitive in efficienza con quelle tradizionali e stanno cominciando a essere utilizzate in produzione (uno dei primi casi è quello di GraphSearch di Facebook). 

«Noi già stavamo lavorando su questo tipo di strutture da diversi anni, nell’ambito dell’area di ricerca individuabile come “Algoritmi e strutture dati”. Ora però queste strutture non sono più solo una curiosità accademica ma una realtà in via di sviluppo, alla luce anche del grande interesse dimostrato da parte di aziende come Google».

Si tratta di un tipo di ricerca che non è solo matematica: «dobbiamo sviluppare anche applicazioni che, in particolare per i Big Data, richiedono un mix di teoria e di pratica. Quindi non faremo solo un lavoro teorico; e in questo ci inseriamo nella tradizione del nostro dipartimento di Milano, che a seguito delle ricerche ha sempre fatto anche distribuzione di software open source. Faremo anche dell’attività sperimentale, cioè test e prove per verificare il reale funzionamento degli algoritmi trovati».

Pensando a un lavoro del genere, vengono in mente subito i grandi elaboratori in grado di macinare tutti quei dati. Anche qui però le ricerche coi Big Data hanno una loro singolarità: «Per supportare il nostro lavoro e metterci a disposizione la adeguata potenza computazionale, Google ci sta offrendo dei finanziamenti di cloud per calcoli particolarmente impegnativi. C’è da aggiungere che il tipo di calcolo che si svolge sui Big Data è molto diverso da quello, altrettanto impegnativo, ad esempio dei fisici (si pensi agli acceleratori del Cern): loro fanno andare avanti i conti per mesi su uno stesso set limitato di dati, noi abbiamo moli talmente enormi che possiamo permetterci di esaminarli una sola volta, due sarebbe già troppo».

Il discorso degli strumenti di calcolo ci riporta a considerare l’originalità dell’Award di Google. «Lo chiamano award ma più che un premio in sostanza è un assegno di ricerca, un finanziamento consistente, a fondo perduto, che Google attribuisce motu proprio, cioè anche senza che ne venga fatta la richiesta. La cosa ha la sua logica: noi ci occupiamo di cose che sono interessanti per Google e ciò giustifica il finanziamento; ma non è un lavoro commissionato, non dobbiamo produrre necessariamente qualcosa per loro. Loro sanno che le nostre ricerche hanno un impatto rilevante sulla loro attività e quindi le vogliono promuovere».

E Google seleziona attentamente quello che decide di promuovere: finora di questi Focused Research Award milionari ne sono stati assegnati solo una ventina.

© RIPRODUZIONE RISERVATA

I commenti dei lettori