• Iscriviti alla Newsletter
  • Accedi
  • Registrati
IlSussidiario.net
  • In primo piano
    • Ultime notizie
    • Cronaca
    • Politica
    • Economia e finanza
    • Sanità
    • Cinema e Tv
    • Calcio e altri Sport
  • Sezioni
    • Cultura
    • Energia e Ambiente
    • Esteri
    • Impresa
    • Lavoro
    • Educazione
    • Musica e Concerti
    • Motori
    • Scienze
    • Hi-Tech
    • Sanità, salute & benessere
    • Donna²
    • Milano
    • Roma
    • Oroscopo
    • Turismo e Viaggi
    • Sanremo
    • Meeting di Rimini
    • Sostenibilità e Sussidiarietà
    • Food
    • Chiesa
    • Trasporti e Mobilità
    • Osservatorio sull’informazione statistica
    • Tags
  • Approfondimenti
    • Rubriche
    • Dossier
    • Speciali
  • Riviste
    • Emmeciquadro
  • Firme & Multimedia
    • Autori
    • Intervistati
    • Editoriale
    • Foto
  • Feed Rss
  • Donazione
    • Sostieni ilSussidiario.net
IlSussidiario.net
  • Video
  • Cronaca
  • Politica
  • Sanità
  • Economia
  • Sport
  • Turismo
  • Chiesa
  • Video
  • Cronaca
  • Politica
  • Sanità
  • Economia
  • Sport
  • Turismo
  • Chiesa
IlSussidiario.net
IlSussidiario.net

Home » Hi-Tech » Intelligenza artificiale, perché fonti sono rischio/ “Pericolo siti con dati falsati”

  • Hi-Tech
  • Cronaca

Intelligenza artificiale, perché fonti sono rischio/ “Pericolo siti con dati falsati”

Niccolò Magnani
Pubblicato 7 Maggio 2023
OpenAI, ChatGPT

Intelligenza artificiale con ChatGPT di OpenAI (LaPresse, 2023)

Esplode l'allarme sul C4 dell'intelligenza artificiale: ecco perché le fonti - i dataset delle informazioni - sono a rischio. Inchiesta WP: “pericolo per siti con dati falsati”

ALLARME C4, PERCHÈ I ‘DATASET’ DELL’INTELLIGENZA ARTIFICIALE SONO A RISCHIO

Nel “vasto mare” delle problematiche e funzioni ancora da chiarire nel futuro dell’intelligenza artificiale un problema più degli altri si affaccia all’orizzonte di tipo più prettamente “etico”: lo mette in luce una lunga inchiesta del Washington Post, citata in questi giorni anche dall’Avvenire, si tratta delle fonti dell’intelligenza artificiale e in particolare la composizione dei “dataset” di informazioni.


"Elon Musk ama l'Europa e continua a investirci"/ Andrea Stroppa: "Anche Draghi ha evidenziato problemi"


Occorre innanzitutto capire di cosa si tratta quando parliamo di C4, ovvero uno dei processi fondamentali che permette a motori di ricerca come Google o Bing di indicizzare un contenuto su internet: “Colossal, Cleaned version of Common Crawl”, questo è letteralmente C4. Capire cosa sia è però un filo più complesso: «un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato acquisendo una copia testuale di tutti i documenti presenti e creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione», spiega il focus di Avvenire. Va saputo che esiste per l’appunto un “Common Crawl”, un corpus che contiene petabyte di dati raccolti in ben 12 anni di web crawling: la versione ripulita e utilizzata ora dall’intelligenza artificiale di OpenAI (ChatGPT) e tante altre, ottiene le diverse componenti del C4. Il “Washington Post” ha pubblicata di recente un importante warning a riguardo: «il dataset C4 contiene dati proveniente da fonti quali Stormfront, Kiwi Farms, 4chan e altri siti web» considerati dal Governo americano come potenzialmente problematici perché connessi ai mercati della contraffazione e della pirateria. Estremismi politici, fake news, teorie del complotto e quant’altro: tutto viene acquisiti e contenuto nel “mare magnum” del C4.


Samsung One UI 8.5 sta per arrivare/ Le (presunte) novità e la lista dei dispositivi compatibili


INCHIESTA WP SU INTELLIGENZA ARTIFICIALE: “RISCHIO COLONIALISMO CULTURALE”

Il problema è che il testo che compone il C4 è di fatto la base che costituisce la fonte principale di «addestramento e di acquisizione di informazioni che le intelligenze artificiali (AI) mostrano di possedere sul mondo, e inevitabilmente influenza il modo in cui ogni AI risponde alle richieste e alle interazioni degli utenti», spiega ancora Avvenire. In attesa di capire come le aziende e gli Stati riusciranno a porre un freno alla diffusione di contenuti così ampiamente falsificati e potenzialmente dannosi, il rischio al momento è che intelligenze artificiali come Gpt-4 possano auto-addestrarsi con migliaia di siti potenzialmente problematici. Google dopo diversi test compiuti sull’intelligenza artificiale ha dichiarato che il C4, la versione ripulita dei dati di Common Crawl, è stato utilizzato per «addestrare alcune AI di alto profilo in lingua inglese, chiamate modelli linguistici di grandi dimensioni, o Llm».


CONSIGLI PER IL LAVORO/ Competenze digitali, una richiesta che non è più "di nicchia"


OpenAI invece ancora non ha rivelato quali “dataset” utilizza per addestrare i modelli che supportano il suo popolare chatbot, l’appena tornato attivo in Italia ChatGPT. L’indagine del WP ha rilevato che C4 è in maggior parte dominato da «siti web legati al giornalismo, alla creazione di contenuti, all’intrattenimento e allo sviluppo di software, con patents. google.com, wikipedia. org e scribd.com elencati come primi tre siti». Di contro però i dati di addestramento, le fonti di queste AI provengono anche da siti più discutibili e che quindi in teoria potranno indurre i modelli di intelligenza artificiale a generare testi «indesiderati, razzisti, pornografici, inaffidabili e in generale dannosi», spiega ancora il quotidiano della CEI. Non da oggi uno dei problemi massimi dell’evoluzione di AI è il tema della “scelta” dei dati: la qualità di essi influenza «la qualità e l’affidabilità dei sistemi su cui avviene l’addestramento». Per questo occorre lanciare l’allarme, secondo il WP, circa i possibili effetti del C4 se resterà così: diviene condivisibile dunque la problematica sollevata in ultima analisi da Avvenire, «Dobbiamo chiederci se e come una scelta di cosa includere in C4 non sia di fatto anche un’opzione di natura politica e con severe conseguenze geopolitiche. Di fatto la scelta dei dati è una scelta – una tokenizzazione, per usare un termine tecnico – di una cultura. Questa scelta potrebbe, estremizzando un po’, trasformare il tradizionale softpower culturale esercitato dall’industria dei media e da Hollywood al livello di un vero e proprio colonialismo culturale».


Ti potrebbe interessare anche

Ultime notizie di Hi-Tech

Ultime notizie

Gli archivi del canale di Hi-Tech

ilSussidiario.net

il Quotidiano Approfondito con le ultime news online

  • Privacy e Cookies Policy
  • Aiuto
  • Redazione
  • Chi siamo
  • Pubblicità
  • Whistleblowing
  • MOG 231/2001
  • Feed Rss
  • Tags

P.IVA: 06859710961

  • In primo piano
    • Ultime notizie
    • Cronaca
    • Politica
    • Economia e finanza
    • Sanità
    • Cinema e Tv
    • Calcio e altri Sport
  • Sezioni
    • Cultura
    • Energia e Ambiente
    • Esteri
    • Impresa
    • Lavoro
    • Educazione
    • Musica e Concerti
    • Motori
    • Scienze
    • Hi-Tech
    • Sanità, salute & benessere
    • Donna²
    • Milano
    • Roma
    • Oroscopo
    • Turismo e Viaggi
    • Sanremo
    • Meeting di Rimini
    • Sostenibilità e Sussidiarietà
    • Food
    • Chiesa
    • Trasporti e Mobilità
    • Osservatorio sull’informazione statistica
    • Tags
  • Approfondimenti
    • Rubriche
    • Dossier
    • Speciali
  • Riviste
    • Emmeciquadro
  • Firme & Multimedia
    • Autori
    • Intervistati
    • Editoriale
    • Foto
  • Feed Rss
  • Donazione
    • Sostieni ilSussidiario.net

Ben Tornato!

Accedi al tuo account

Password dimenticata? Sign Up

Create New Account!

Fill the forms bellow to register

All fields are required. Accedi

Recupera la tua password

Inserisci il tuo nome utente o indirizzo email per reimpostare la password.

Accedi
  • In primo piano
    • Ultime notizie
    • Cronaca
    • Politica
    • Economia e finanza
    • Sanità
    • Cinema e Tv
    • Calcio e altri Sport
  • Sezioni
    • Cultura
    • Energia e Ambiente
    • Esteri
    • Impresa
    • Lavoro
    • Educazione
    • Musica e Concerti
    • Motori
    • Scienze
    • Hi-Tech
    • Sanità, salute & benessere
    • Donna²
    • Milano
    • Roma
    • Oroscopo
    • Turismo e Viaggi
    • Sanremo
    • Meeting di Rimini
    • Sostenibilità e Sussidiarietà
    • Food
    • Chiesa
    • Trasporti e Mobilità
    • Osservatorio sull’informazione statistica
    • Tags
  • Approfondimenti
    • Rubriche
    • Dossier
    • Speciali
  • Riviste
    • Emmeciquadro
  • Firme & Multimedia
    • Autori
    • Intervistati
    • Editoriale
    • Foto
  • Feed Rss
  • Donazione
    • Sostieni ilSussidiario.net