MEETING 2016: WHAT?/ A proposito di Big Data

Pubblicazione: 17.08.2016 - Mario Mezzanzanica

I Big Data possono costituire una grande risorsa in molti campi, consentendo progetti e previsioni più realistiche. Ci sono però aspetti critici, legati alla sfera dei diritti personali.

L’innovazione delle tecnologie e una maggiore accessibilità ai dispositivi digitali sono all’origine dell’era odierna dei Big Data, un termine utilizzato per indicare l’esplosione della quantità e diversità della disponibilità immediata (in real-time) di dati digitali. Questi dati rappresentano un grande potenziale per supportare i decisori (decision maker) nelle scelte per l’identificazione di linee di evoluzione per lo sviluppo così come per le analisi e correzione delle politiche e azioni avviate.
Nel contempo, anche le scelte dei singoli individui e delle famiglie trovano un supporto informativo sempre più ampio dalla disponibilità immediata di dati digitali, sia che si tratti di scelte legate al tempo libero sia di quelle connesse ad aspetti più rilevanti per le prospettive personali future come i percorsi educativi e professionali.
Le conseguenze dell’epoca in cui viviamo – la cosiddetta società dell’informazione – sono evidenti: un cellulare (oggi smartphone) a disposizione di ciascun individuo, uno o più computer e/o tablet in ogni famiglia e nelle aziende la presenza di sistemi informativi che supportano la gestione della maggior parte dei processi aziendali.
Questi dispositivi, grazie alla diffusione di Internet e del Web, sono interconnessi producendo, elaborando e trasmettendo una così grande quantità di dati da creare una situazione certamente nuova e particolare: siamo subissati da una mole di informazioni fino a pochi decenni fa inimmaginabile e sempre più in crescita.
Tutti noi, per fattori personali o professionali, accediamo continuamente al Web per cercare informazioni e rimaniamo stupiti dalla quantità e sempre più accurata formulazione delle risposte che otteniamo. Per capire meglio il fenomeno di cui stiamo parlando, è importante sapere che l’informazione pubblica disponibile, circa cinque miliardi di pagine¹, che siamo in grado di navigare con libero accesso rappresenta solo il 4 per cento dell’informazione attualmente contenuta nei data base dei computer esistenti, il 96 per cento restante è protetta da password (Bergman, Michael K. 2001).
La digitalizzazione dell’informazione è un fenomeno che sta crescendo con una rapidità elevata e certamente non è immediato cogliere che cosa significa in concreto questa mole di dati. In una recente intervista, Martin Hilbert² sostiene che «nel 2013 la quantità di informazioni immagazzinate nel mondo viene stimata in 1.200 exabyte³, meno del 2 per cento della quale in forma non digitale. Se questa mole di dati venisse raccolta su dei CD-ROM , messi uno sull’altro, arriverebbero alla luna in cinque pile separate».
Quali sono i principali fattori connessi alla crescita vertiginosa della digitalizzazione?
Quali possono essere le opportunità e i fattori critici o di rischio per le imprese, per le istituzioni pubbliche e per le persone?
Quale potrebbe essere l’impatto sul contesto sociale ed economico del mondo in cui viviamo? Queste domande sono certamente rilevanti nella società odierna dei Big Data.

I fattori di cambiamento

L’utilizzo dei dati finalizzato a rappresentare, attraverso informazioni numeriche, fenomeni di interesse ha origine migliaia di anni fa. L’antico libro della Bibbia, che si intitola, appunto, «Numeri», contiene, tra l’altro la «registrazione di tutti i figli di Israele secondo le loro famiglie, dai vent’anni in su, cioè di tutti coloro che erano abili alla guerra».
«È dalla loro origine che gli statistici, partendo da tecniche antichissime e avvalendosi dei progressi della matematica affinarono nel tempo le procedure volte a migliorare le informazioni numeriche sulle popolazioni e sui diversi fenomeni che le riguardavano, in vista delle decisioni, del controllo o del confronto con altri Stati. La tecnica che dall’origine viene utilizzata per raccogliere ed elaborare le informazioni numeriche sulla totalità della popolazione è quella del censimento. Nell’antica Roma veniva compiuto il «census» (censimento solenne) di tutti i cittadini romani che aveva l’obiettivo di verificare la loro attitudine a contribuire agli aggravi della res publica» (M. Martini 2004).
Le indagini censuarie riguardano l’intera popolazione oggetto dello studio e forniscono quindi il valore «vero» dei parametri di interesse come percentuali, medie, totali, ma nel contempo sono costose, richiedono tempi lunghi di attuazione e restituiscono informazioni «non attuali» per supportare molti processi decisionali.
Lo sviluppo delle teorie campionarie consente di superare alcune criticità dei censimenti attraverso la raccolta di dati riferiti ad un sottoinsieme casuale della popolazione di interesse (campione).
Queste tecniche sono in grado di inferire l’intera popolazione, al netto di un grado di errore, di incertezza, quantificabile se la scelta del campione risponde a determinati criteri di tipo probabilistico.

Anche le tecniche di campionamento (attuate attraverso la somministrazione di questionari–survey⁴) richiedono tempo per la raccolta dei dati, la loro elaborazione, analisi e eventuale pubblicazione. L’effettuazione di tali indagini sono spesso gravose (per gli intervistati e nell’organizzazione) e costose, soprattutto se si volesse renderle scalabili verticalmente⁵, ovvero aumentarne la profondità (dettaglio) delle analisi.
In tal senso, la scelta di studiare un sottoinsieme dei dati di una popolazione di interesse comporta un compromesso: si può tentare di scoprire quello che si cerca con maggiore rapidità e con costi ridotti (rispetto ai censimenti), ma non si può rispondere a domande che non siano state poste preventivamente.
Entrambe queste tecniche di analisi sono ancora oggi molto utilizzate e continueranno a generare informazioni di rilevante interesse sia a livello personale sia aziendale ed istituzionale. Se nel suo aspetto formale la statistica si avvale di concetti elaborati dalla matematica e dalla logica, con l’avvento dell’informatica si assiste ad una evoluzione della capacità di analizzare popolazioni empiriche (che rappresentano l’oggetto della statistica), spingendosi al di là dei limiti che fino a qualche tempo fa erano resi invalicabili dall’onerosità delle operazioni (M. Martini 2004).
La traiettoria di evoluzione dei censimenti prende infatti in considerazione l’utilizzo integrato di informazioni presenti di archivi amministrativi delle pubbliche amministrazioni⁶, mentre le survey, nelle fasi del loro processo di attuazione, sono supportate da applicazioni informatiche che le rendono più efficienti e performanti⁷.
Ciò nonostante, abbiamo visto che queste tecniche sono nate in un momento in cui vi erano forti limitazioni nel trattamento dell’informazione ed in particolare nella capacità di elaborare ed analizzare rapidamente grandi volumi di dati.
Oggi la situazione è cambiata. In molti campi è in atto un processo evolutivo: «dalla raccolta di alcuni dati all’accumulo del maggior quantitativo possibile di essi, e se possibile, di tutti, tale cioè che N = tutti» (M. Schönberger e K. Cukier 2013).
Questa possibilità permette potenzialmente di avere a disposizione l’intero (o quasi) set dei dati di interesse, e conseguentemente di effettuare studi da diversi punti di osservazione, entrando nei dettagli e cercando risposte in sottogruppi della popolazione anche là dove un approccio di campionamento non sarebbe in grado di arrivare, consentendo quindi un aumento vertiginoso della scalabilità o profondità delle analisi.

Un cambio di paradigma

L’utilizzo di volumi di dati di grandi dimensioni, ovvero dei Big Data, ha come immediata conseguenza un cambio di paradigma nell’approccio alle analisi dei fenomeni: da «risposte a domande pre-definite» (dati «precisi», strutturati, raccolti ad hoc e di «piccole» dimensioni) a «lasciar parlare i dati», la «data-driven technology» (grandi volumi di dati spesso non strutturati, presenza di «imprecisione» e scalabilità delle analisi).
In un recente progetto di ricerca condotto presso il CRISP⁸ sono stati analizzati oltre due milioni di annunci di lavoro pubblicati sul Web e provenienti da fonti differenti ed eterogenee (i principali portali di operatori⁹ che offrono servizi di intermediazione tra domanda ed offerta sul web).
Si tratta di tutti gli annunci¹⁰ che giornalmente vengono pubblicati sui portali selezionati e che opportunamente elaborati consentono di analizzare le professioni richieste (riclassificando i diversi termini lessicali utilizzati nei differenti portali), le loro caratteristiche in termini di competenze-skill (estratte dalla descrizione del testo che consente di cogliere le esigenze espresse dalle aziende), il settore economico delle aziende richiedenti ed il territorio nel quale l’attività è richiesta.
Queste informazioni sono disponibili in tempo reale e possono essere utilizzate sia per migliorare la conoscenza dei diversi operatori che si occupano di politiche e servizi, sia per gli utenti finali (persone e imprese) per osservare dove e quali caratteristiche hanno le opportunità di lavoro offerte.
Ma la potenzialità offerta dalla raccolta giornaliera di tutti gli annunci di lavoro consente di andare molto oltre; scoprire ad esempio l’emergere di nuove figure professionali, i cambiamenti in atto in molte professioni (ad esempio, legati alle richieste di conoscenze informatiche per lo svolgimento delle funzioni e/o attività), l’emergere di segnali di cambiamento in atto in settori economici dovuti alla richiesta di professioni caratterizzate da competenze particolari (ad esempio il trend verso l’Industria 4.0¹¹ del manifatturiero, evidente per la richiesta nel settore di competenze e professionalità che rispecchiano esigenze legate ad alto tasso di automazione, gestione dei dati, della sicurezza informatica, della analisi quantitativa, etc.), così come la possibilità per le persone di evidenziare il gap lavorativo tra le proprie competenze e quelle attese o richieste dal mercato, individuando così percorsi formativi per accedere a nuove opportunità professionali.

Il principale fattore di diversità di un approccio Big Data rispetto ai tradizionali approcci basati su survey si manifesta, raccogliendo in real–time la totalità (o quasi) dei dati e lasciando «parlare i dati»; facendo cioè emergere domande e possibili risposte su aspetti assolutamente nuovi e impossibili da esaminare con un approccio basato su survey che colleziona dati che possono consentire risposte solo ed esclusivamente ad esigenze pre-definite.
Nel corso del progetto sono state utilizzate diverse tecniche (machine learning, information extraction e mining, per citarne alcune) per analizzare la grande quantità di dati disponibile nel Web.
Queste tecniche, sono applicabili attraverso strumenti (algoritmi) prevalentemente di apprendimento automatico; gli algoritmi utilizzati ad esempio per classificare le professioni (descritte in linguaggio naturale e quindi fortemente eterogenee tra portali e nel singolo portale), consentono di «insegnare alla macchina» come riconoscere automaticamente le professioni e, sulla base dei dati utilizzati per l’apprendimento, prendere «decisioni intelligenti» basate sull’esperienza accumulata; il risultato che viene prodotto conterrà sempre un’alea di errore o inesattezza, che si riduce notevolmente al crescere dell’«accuratezza» e «completezza» del set dati utilizzato per l’addestramento.
La difficoltà nel valutare la qualità e la precisione derivante da un approccio Big Data (N = tutti o quasi) rispetto ad uno basato su basi di dati raccolti ad hoc (e quindi di dimensioni ridotte) è controbilanciata dall’aumento delle potenzialità di analisi.
Lasciar «parlare i dati» significa favorire un approccio, nel processo di analisi dei fenomeni di interesse, basato sulle domande che emergono dall’osservazione di correlazioni esistenti tra oggetti o fatti «nascosti», difficili da conoscere a-priori e senza un’osservazione «data-driven» del fenomeno o della realtà di interesse.
Prendiamo in considerazione un esempio nell’area commerciale: Amazon raccomanda libri ai suoi clienti in base alle preferenze d’acquisto di ciascuno, avendo raccolto nel proprio sistema informativo una enorme quantità di dati dei suoi clienti: cosa acquistano, cosa guardano, quanto tempo dedicano ad osservare un oggetto (che acquistano o solo guardano), ecc..
Sulla base della grande mole di dati a disposizione Amazon ha inizialmente utilizzato un approccio teso a cogliere gli interessi dei clienti attraverso analisi a campionamento per effettuare proposte di acquisto «personalizzate».
Successivamente, lo stesso scopo è stato perseguito attraverso l’identificazione delle associazioni o correlazioni tra prodotti «acquistati» o «osservati», utilizzando i dati relativi a tutti i click effettuati dai clienti sul proprio portale. Questo metodo ha migliorato significativamente diversi aspetti della relazione con i clienti, riducendo i costi, aumentando i casi di successo nelle vendite ed è utilizzato oggi in molti portali di commercio elettronico.
Questo secondo approccio, basato sulla correlazione tra prodotti sposta apparentemente l’attenzione della spiegazione di un fenomeno dal perché accade (principio di causalità) a cosa accade (osservazione delle correlazione tra oggetti o fatti).
«Se apparentemente ed in alcuni casi questo fatto si può verificare, in molti casi, la ricerca più approfondita di una connessione causale avverrà dopo che i Big Data avranno fatto il loro lavoro, quando vorremo analizzare il perché, anziché limitarci a scoprire il cosa» (M. Schönberger e K. Cukier 2013).
Questa attenzione al cosa accade come elemento che può precedere la domanda del perché (contribuendo ad ampliarla ed approfondirla) è riscontrabile non solo nei contesti socio economici o commerciali, ma anche in quelli relazionali, lavorativi e non, degli individui.
In una recente pubblicazione Pentland¹² riporta i risultati di studi che utilizzano i Big Data per analizzare le interazioni tra persone e gli scambi informativi tra gruppi di lavoro in diversi contesti aziendali (call center, gruppi di ricerca, ecc).
Questi dati raccolti tramite l’utilizzo di badge sociometrici¹³ e particolari applicazioni su smartphone¹⁴, hanno consentito di studiare cosa accade, in termini principalmente di comportamenti di persone in un dato contesto organizzativo, con l’obiettivo di identificarne le scelte e il perché delle stesse nella prospettiva di migliorare i risultati di un gruppo di lavoro.
Le analisi effettuate hanno consentito di verificare che in molti casi «il principale fattore di produttività e creatività è la quantità di opportunità di apprendimento sociale che si manifesta generalmente tramite le interazioni faccia a faccia tra colleghi».

In altri termini, arriva ad affermare Pentland attraverso l’osservazione di una enorme quantità di dati, «tante idee importanti su come raggiungere il successo e migliorare il rendimento sul lavoro possono emergere durante la pausa caffè o in mensa; ribadendo l’importanza del coinvolgimento e della partecipazione diretta, elementi che favoriscono il flusso delle idee, come fattori primari di una buona organizzazione».

I fattori di criticità

Le opportunità connesse all’utilizzo dei Big Data sono principalmente legate alla possibilità di studiare e analizzare fenomeni con un livello di puntualità, capillarità e flessibilità mai riscontrati fino ad ora. Nel contempo, tali opportunità presentano alcuni aspetti critici che vanno affrontati: chi possiede i big data e quale possibilità di accesso è disponibile?
Quale impatto sulla concezione della privacy? Esiste un possibile rischio di dittatura dei dati?
Nello scenario attuale abbiamo due principali tipologie di soggetti che certamente hanno un grande predominio nella raccolta di informazioni di cittadini e imprese: i grandi social network da una parte e le pubbliche amministrazioni dall’altra.
Facebook, Twitter, Linkedin e Google+ per citarne alcuni dei più noti, sono «social network» che consentono agli utenti la creazione di un profilo pubblico o semi-pubblico con opportuni vincoli di visibilità e accesso all’informazione pubblicata, l’articolazione di una lista di contatti e la possibilità di scorrere la lista di amici dei propri contatti.
La creazione del proprio profilo comporta la messa a disposizione di informazioni come il proprio indirizzo mail, i propri interessi e passioni e le esperienze lavorative. La «rete degli amici» si amplia continuamente e senza limiti prefissati con contatti che si propagano con «gli amici degli amici».
I servizi dei social network sono gratuiti per gli utenti e consentono ai gestori dei siti di trarre vantaggio economico principalmente dalla fornitura a terzi delle informazioni degli utenti e dalla pubblicità mirata che le aziende indirizzano agli utenti stessi e di cui possiedono dati estremamente rilevanti (siti visitati, link aperti, permanenza media, oltre a tutte le informazioni personali che gli utenti stessi hanno inserito).
Quello che emerge è una «base di conoscenza» alimentata gratuitamente da persone e imprese che non ha precedenti e che consente ai proprietari dei social network, un «potere informativo» e conseguentemente socio-economico rilevante. Identicamente questo si verifica per i gestori delle reti cellulari, dei motori di ricerca e della pubblica amministrazione.
Anche se un utente può «limitare» l’accesso ai suoi dati è evidente che ad oggi la capacità di analizzare ed elaborare informazioni personali di così grande portata (Big Data) è «predominio» dei grandi gestori dei social, della telefonia cellulare e degli Stati.
Questo fatto apre molte domande sul potere informativo in capo a pochi soggetti e sulla legislazione in materia di trattamento e privacy dei dati personali. Quest’ultima è sostanzialmente basata sul consenso informato¹⁵ che nella «sostanza» ha dato origine a pagine Web (o cartacee) che non vengono quasi mai lette e/o capite ed accettate a priori per poter fruire di un servizio.
Il tema della privacy è certamente in evoluzione, e se da un lato le normative esistenti e le autority che si occupano della materia hanno introdotto regole sempre più stringenti e puntuali sul trattamento dei dati personali, dall’altro, nello scenario dei Big Data, sono gli utenti che decidono di rendere pubblici i propri dati personali e, in cambio di servizi, permettono ai gestori dei social network di poterli analizzare ed utilizzare per diversi scopi.
Uno dei nodi principali sta proprio nel definire gli scopi di utilizzo che non possono essere dettagliati ed enumerati esaustivamente nell’atto di raccolta delle informazioni (consenso informato).
Un elemento molto utilizzato nell’analisi di dati personali (con attenzione alla tutela della privacy – riconoscibilità dei soggetti) è rappresentato dalla loro anonimizzazione. Ma l’utilizzo dei Big Data, in molti casi, ha dimostrato che si può arrivare all’identificazione dei singoli e che pertanto l’anonimizzazione non sempre è sufficiente.
Occorrerà studiare nuove «regole» per la protezione della privacy ponendo l’attenzione nell’identificare nuovi fattori su cui si dovranno fondare per superare gli attuali limiti del consenso informato e dell’anonimizzazione.
Siamo di fronte a scenari già vissuti anche nella storia recente (l’avvento di Internet e del Web) tipici di una situazione innovativa ed in evoluzione, i cui confini non sono delimitati e delimitabili facilmente e dove occorre trovare un punto corretto di equilibrio tra le novità offerte dall’innovazione e la tutela della privacy.

Il problema è che questo punto di equilibrio nell’era dei Big Data non è facilmente identificabile con dei «tecnicismi»; le potenzialità di sfruttamento informativo e conoscitivo offerte dai Big Data superano infatti di gran lunga lo scopo primario per cui i dati sono raccolti, aprendo ampie possibilità di analisi su fatti secondari e non preventivamente definibili.
Questo fatto ripropone l’attenzione sul concetto di scopo che evolvendo nel tempo, in relazione alla quantità sempre più ampia di dati raccolti e alla loro combinazione (correlazione) possibile, non può che essere associato ad un concetto di responsabilità.
«Se da una parte occorre assicurare garanzie reali affinché i dati necessari per il bene pubblico siano facilmente reperibili, dall’altra è indispensabile proteggere la tutela della privacy e della libertà» (A. Pentland, 2015).
Un rischio latente di utilizzo improprio dei Big Data è riscontrabile nella capacità di elaborare grandi quantità di informazioni personali per effettuare previsioni che potrebbero «condizionare» la vita delle persone. «Sono sempre più numerose le città degli Stati Uniti che impiegano la sorveglianza preventiva: si usa l’analisi dei Big Data per selezionare le strade, i gruppi e gli individui da tenere particolarmente sotto controllo, per il solo fatto che un algoritmo ha identificato in essi una più alta propensione alla criminalità.
Se da un lato, lo scopo di prevenzione di crimini o rischi per le persone che possiamo attuare con le analisi dei big data può contribuire alla sicurezza, da un altro punto di osservazione potrebbe diventare (come ben è stato rappresentato nel film Minority Report del 2002) oltremodo pericoloso l’utilizzo di previsioni estratte dai Big Data per stabilire se qualcuno è colpevole e andrebbe punito per un comportamento che non è ancora stato messo in atto» (Schönberger e Cukier 2013¹⁶).
Responsabilità per la costruzione di una società migliore, libertà e tutela della privacy sono fattori che nell’era dei Big Data sono fortemente riproposti e chiedono di essere affrontati andando oltre i pur importanti aspetti metodologici e tecnici e rimettendo al centro la concezione di individuo nella sua dimensione personale e sociale.

Conclusioni

L’utilizzo dei dati e delle informazioni da essi elaborate sono una realtà sempre più presente per la conoscenza dei fenomeni e per il supporto dei processi decisionali, supportando il «fact-based decision making», dove i fatti risiedono nei dati accumulati nei contesti socio-economici, aziendali e personali.
L’evoluzione tecnologica degli ultimi decenni, in particolare con la nuova generazione di Internet, del Web e delle tecniche di elaborazione ed analisi dei dati ha dato delle spinte fino a poco tempo fa inimmaginabili nella disponibilità di informazioni ed è facile cogliere che questo fenomeno crescerà rapidamente nel prossimo futuro.
Seppur le tecniche di raccolta e di analisi tradizionali (censuarie e a campionamento) sono cresciute e in molti contesti daranno ancora un importante contributo, è evidente che i Big Data si stanno affermando come «strumento» innovativo in tutti gli ambiti (professionali e personali) sia per la comprensione dei avvenimenti sia per l’identificazione e realizzazione di nuovi servizi.
Il nuovo paradigma con cui possiamo rappresentare quella che viene chiamata l’era dei Big Data, sintetizzabile nel «lasciar parlare i dati», esprime un importante fattore di novità: l’osservazione di ciò che accade, per conoscere lealmente i fatti e favorire un approccio alla conoscenza che allarghi lo spettro delle domande relative al perché accadono. In una celebre frase, Alexis Carrel affermava: «molta osservazione e poco ragionamento conducono alla verità; poca osservazione e molto ragionamento conducono all’errore».
Come abbiamo osservato i Big Data entrano in gioco in moltissimi campi della vita e possono contribuire al progresso della conoscenza e conseguentemente al miglioramento ed allo sviluppo della vita sociale, degli scopi aziendali e delle scelte personali. Ma spesso, una così ampia disponibilità di informazioni potrebbe creare «confusione» e in taluni casi scelte e azioni in forte contrasto con la libertà e i diritti fondamentali degli individui.
È in questo senso che la questione aperta è innanzitutto culturale, e quindi educativa e formativa. Le metodologie e le tecniche di trattamento dei Big Data si stanno evolvendo molto rapidamente e sono richieste nel mercato del lavoro nuove professionalità.
Diverse sono le iniziative in atto, specialmente a livello dei corsi universitari, che in tutto il mondo sono state avviate o si stanno intraprendendo per formare i così detti «Data Scientist», gli specialisti nel trattamento e analisi dei Big Data.

Se sono necessarie competenze sulle metodologie e tecniche (matematiche, statistiche e informatiche) che sono alla base del trattamento ed analisi dei Big Data, è nel contempo evidente che occorrerà porre molta attenzione alla creazione di professionalità che sappiano affrontare lo studio di problemi con una forte attenzione allo scopo e che possiedano quindi una capacità ampia di apertura alla realtà.
I Big Data sono in questo senso un’occasione per riproporre quale sia il nesso tra tecnologia e persona, tra tecnologia e sviluppo sociale ed economico, per evitare una concezione in cui la persona debba passivamente adeguarsi all’innovazione tecnologica; come riportato in un famoso slogan dell’EXPO di Chicago del 1933: «La scienza trova, l’industria applica, l’uomo si adegua».
Come la storia ci insegna le invenzioni e le innovazioni tecnologiche sono uno strumento, ma la scintilla dell’innovazione, dell’invenzione è nella persona che, per rispondere ai propri (e degli altri) infiniti bisogni sviluppa la sua curiosità, creatività ed il suo ingegno, fattori che costituiscono sostanzialmente la fonte del progresso.
In questo senso occorre affermare che i Big Data sono uno strumento che ci aiuterà a migliorare la conoscenza ma nel contempo dobbiamo ricordare che sono imperfetti (perché gli strumenti che usiamo sono imperfetti) e più in generale ogni tentativo umano è di per se imperfetto; questo fatto non significa che stiamo sbagliando ma che occorre essere profondamente coscienti dell’imperfezione o incompletezza delle analisi che effettuiamo pur avendo a disposizione una enorme quantità di dati (N = tutti – o quasi).
«Non bisogna negare le intuizioni che offrono i Big Data, ma occorre inquadrarli per quello che sono: uno strumento che non dà risposte definitive, solo risposte in grado di aiutarci nell’immediato, finché non emergeranno metodi migliori e quindi anche risposte più soddisfacenti. Ciò significa anche che dobbiamo usare questo strumento con una buona dose di umiltà … e di umanità» (Schönberger e Cukier, 2013).

Vai all’ebook dell’intero Speciale-Catalogo

Mario Mezzanzanica
(Laureato nel 1985 al Politecnico di Milano, è professore associato di Sistemi informativi nella facoltà di Scienze statistiche dell’Università di Milano Bicocca)

Note

www.worldwidewebsize.com
Estimate of the amount of stored information by 2013 – Cukier interview with M. Hilbert, 2012
Un exabyte = un miliardo di gigabyte (1018)
Oggi sempre più le informazione delle survey vengono raccolte attraverso l’utilizzo di applicazioni informatiche al fine di ottimizzare costi, tempi di raccolta, performance di elaborazione ed errori di digitazione
Scalabilità verticale: dal macro al micro e viceversa – es. possibilità da un campione a livello territoriale nazionale di ottenere informazioni fino a livello territoriale comunale;
Importanti ed avanzati approcci – in tal senso sono in essere soprattutto nei paesi del nord Europa e negli Stati Uniti;
CATI – Computer Assisted Telephone Interview e CAWI – Computer Assisted Web Interviewing;
Centro di Ricerca Interuniversitario per i Servizi di Pubblica Utilità – Università di Milano Bicocca
Portali specialistici, di operatori di servizi per il lavoro e di testate giornalistiche nazionali
Un annuncio di lavoro consiste in un titolo, dove viene espressa la professione ricercata e una descrizione testuale della stessa contenente competenze e altri requisiti richiesti dall’azienda; sono dati non strutturati cioè in linguaggio naturale.
Industria 4.0 o la quarta rivoluzione industriale, è la prospettiva di evoluzione dei settori produttivi in un ottica di elevata automazione e valorizzazione in tutti i processi aziendali dei Big Data.
Prof. Alex ‘Sandy’ Pentland, direttore dello Human Dynamics Laboratory e il Media Lab Entrepreneurship Program del MIT.
I badge sociometrici sono dispositivi elettronici che consentono di raccogliere dati specifici sui comportamenti a livello di comunicazione delle persone che li indossano: tono della voce, linguaggio del corpo (attraverso un accelerometro), con chi e per quanto tempo parlano ecc.
Sistema sensorio per telefonia mobile: applicazioni informatiche per smartphone che consentono di raccogliere dati relativi a: localizzazione, vicinanza, attività di comunicazione, applicazioni installate e attive, file utilizzati e molti altri dati.
Con questi dati è possibile ricostruire automaticamente le molteplici modalità interattive dei partecipanti le sperimentazioni.
Il consenso informato si basa sull’essere informati preventivamente su quali informazioni vengono raccolte e per quale scopo e poter conseguentemente rilasciare il consenso all’utilizzo dei dati richiesti.
In: Big Data di V. Schönberger e K. Cukier , Garzanti 2013: citazione di J Vlahos, The department of Pre-Crime, “Scientific American” 306 gennaio 2012 )

Bibliografia

La Statistica, Marco Martini, in “Studi in Ricordo di Marco Martini”, A cura di Matteo Pelagatti, Giuffrè Editore, Milano 2004;
Fisica Sociale, Alex ‘Sandy’ Pentland, EGEA S.p.A., Milano 2015;
Bergman, Michael K. “White paper: the deep web: surfacing hidden value“, Journal of Electronic Publishing 7.1 (2001);
Riflessioni sulla condotta della vita, Alexis Carrel , Editore – Cantagalli, Siena 2003;
BIG DATA – Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà, V. M. Schönberger e K. Cukier , Garzanti, Milano 2013.

Torna allo Speciale “Meeting 2016: WHAT. What’s Human About Technology?”

© Rivista

N° 25 – MEETING 2016: "WHAT. What’s Human About Technology?"

I commenti dei lettori

Accedi

Ultime notizie

Vedi tutte

MEETING 2016: WHAT?/ A proposito di Big Data

I Big Data possono costituire una grande risorsa in molti campi, consentendo progetti e previsioni più realistiche. Ci sono però aspetti critici, legati alla sfera dei diritti personali.

Ti potrebbe interessare anche

I commenti dei lettori

Ultime notizie

Ultime notizie

GLI ARCHIVI DEL CANALE