SCIENZAinATTO/ La legge di Benford

La storia di una teoria non ancora del tutto compresa ma utilizzata in vasti campi dall’informatica alla statistica e in situazioni reali come l’investigazione delle frodi fiscali.

benford_00_apertura_425x293_ok
Tavole dei Logaritmi

Guardando le pagine contenenti le tavole dei logaritmi (la carta delle pagine, non solo quello che vi era stampato!) un astronomo inglese di fine Ottocento si accorse di una apparente stranezza nella distribuzione delle prime cifre dei numeri che appaiono in moltissimi fenomeni. Oggi questa stranezza è diventata una teoria non ancora ben compresa, ma ampiamente utilizzata in statistica, informatica e nell’investigazione delle frodi, per esempio quelle fiscali. L’articolo ricostruisce la storia dell’analisi di questo comportamento un po’ «strano» di insiemi di dati reali presi dalle più diverse situazioni.
Una lettura abbastanza impegnativa che richiede al lettore curioso di munirsi di carta e matita per non fermarsi agli aspetti solo descrittivi.

In un breve articolo pubblicato nel 1881 sull’American Journal of Mathematics [7] l’astronomo Simon Newcomb scriveva queste righe, nate dall’avere osservato da un diverso punto di vista un oggetto allora di uso comune per scienziati e tecnici: le tavole dei logaritmi.
«Che le dieci cifre non appaiono con uguale frequenza deve essere evidente a chiunque faccia molto uso delle tavole dei logaritmi, e noti che le prime pagine sono più consumate delle ultime. La prima cifra significativa è 1 più spesso che un’altra cifra, e la frequenza diminuisce fino al 9 […]. La legge della probabilità dell’apparire dei numeri è tale che tutte le mantisse dei loro logaritmi sono equiprobabili.»  [Immagine a sinistra: Simon Newcomb (1835-1909)]

Perché una volta si usavano le tavole dei logaritmi?

Fino all’avvento delle macchine calcolatrici i logaritmi (o meglio le tavole logaritmiche e il regolo calcolatore) sono stati uno strumento utile ed estremamente diffuso per lo svolgimento di calcoli complicati. Per moltiplicare due numeri positivi era sufficiente passare ai loro logaritmi, sommarli e poi tornare indietro; con il vantaggio che la somma è un’operazione molto più agevole del prodotto. Oppure, per esempio, il calcolo di una radice n-esima di un numero positivo era ridotto alla divisione per n del suo logaritmo, e anche qui la divisione è più semplice della radice n-esima.

La prima cifra significativa di cui parlava Newcomb è la prima cifra diversa da 0 presente nello sviluppo decimale del numero. Per esempio, la prima cifra significativa di 3,14159265… è 3, la prima cifra significativa di 2012 è 2, la prima cifra significativa di 1/2012 = 0,000497017893… è 4.
Cerchiamo ora di interpretare l’ultima affermazione: «le mantisse dei loro logaritmi sono equiprobabili.»
Indichiamo con [x] la parte intera di un numero reale x (cioè il più grande intero che non supera x) e con la sua parte frazionaria (o mantissa). Quindi, per esempio,

Qualsiasi numero reale positivo v può essere scritto nella forma

v = 10M w

Con M intero (positivo, negativo o nullo) e 1 = w
La prima cifra significativa di v è uguale alla prima cifra significativa di w (poiché la moltiplicazione per una potenza intera di 10 si limita, eventualmente, a traslare le cifre dello sviluppo decimale di v). Se per esempio v = p7 = 3020,29323… , allora v = 103 w e w = 3,02029323… sta tra 3 e 4.
Dunque, dire che la prima cifra significativa di v è uguale a k  {1, 2, ….,9} equivale ad affermare che

Newcomb ha scritto che sono equiprobabili non le nove possibili «prime cifre significative» di un generico numero positivo v, ma le mantisse . Quindi, per qualsiasi intervallo [a,b) contenuto in [0,1) la probabilità che   appartenga ad [a,b) deve essere uguale alla lunghezza b – a di questo intervallo. In particolare, per la disuguaglianza precedente, la probabilità che la prima cifra significativa di v sia uguale a k deve essere uguale alla lunghezza

Log10(k+1) – log10(k) = log10(1+1/k)

Dell’intervallo [log10(k),log10(k+1)].

Scriviamo i valori numerici delle lunghezze di questi intervalli.

Da questo Newcomb sembra avere concluso che la probabilità che la prima cifra sia 1 è circa il 30,1%, la probabilità che la prima cifra sia 2 è circa il 17,6%, eccetera.
Ovviamente non abbiamo scoperto nulla e tantomeno dimostrato la validità di una «legge delle prime cifre». Abbiamo solo verificato che se consideriamo una successione di numeri e supponiamo che le mantisse dei loro logaritmi (in base 10) siano equiprobabili (nel senso visto sopra), allora la percentuale di prime cifre significative uguali a k è circa uguale a log10(1+1/k).
Questo fenomeno fu studiato nuovamente nel 1938 dal fisico e ingegnere elettrico Frank Benford (1883-1948), [Immagine a destra] apparentemente ignaro della nota di Newcomb, che in un articolo sui Proceedings of the American Philosophical Society [1], presentò numerose successioni numeriche (aree di fiumi, popolazioni, indirizzi, ma anche potenze dei numeri interi, fattoriale, eccetera) che, soprattutto quando considerate insieme, fornivano una buona evidenza alla «legge logaritmica» descritta sopra, della quale neppure Benford forniva una giustificazione, e che da quel momento fu associata al suo nome.

L’immagine che segue è presa dall’articolo di Benford e riporta i dati da lui raccolti. 

 

 

Come verifica empirica consideriamo le popolazioni dei comuni italiani. A fronte di 8095 comuni abbiamo (se per ogni k = 1, 2, ….,9 indichiamo con C(k) il numero dei comuni il cui numero di abitanti inizia con la cifra k)

Le popolazioni dei comuni italiani costituiscono un campione ragionevolmente grande e in questo caso la legge di Benford è rispecchiata molto fedelmente.
Ora consideriamo un campione più piccolo fatto da 250 elementi: le superfici degli stati della terra. Questa volta le previsioni della legge di Benford sono rispecchiate meno fedelmente, ma la tendenza alla legge logaritmica è comunque evidente.

 

Si potrebbe pensare che qualunque insieme di numeri purché sufficientemente numeroso debba soddisfare la legge di Benford.
Le cose non stanno però così: utilizzando Excel è abbastanza semplice generare un insieme di numeri casuali e verificare che ognuna della cifre da 1 a 9 compare come prima cifra significativa con frequenza 1/9. Questo significa che a volte i dati numerici del mondo reale sono meno casuali (o meglio, diversamente casuali) rispetto a quello che ci aspettiamo.
Guardare solo i «dati del mondo reale» appare però insufficiente se pensiamo che anche alcune successioni numeriche come 2n o n! o la successione di Fibonacci soddisfano la condizione di Benford [Immagine a sinistra: Leonardo Fibonacci (1170-1240)]

 

 

La successione di Fibonacci

Questa successione è definita da F0 = 1, F1 = 1, e per ogni intero n ≥ 2 da Fn = Fn-2 + Fn-1.
I numeri di Fibonacci hanno la forma esplicita

e sono stati introdotti in occidente da Leonardo Fibonacci all’inizio del XIII secolo per studiare un problema sulla riproduzione dei conigli.

 

 

Definiamo ora meglio cosa intendiamo per condizione di Benford.

 

Definizione 1

Diciamo che una successione reale positiva {tn} è una successione di Benford (in base 10) se

Dove card A indica il numero degli elementi contenuti in un insieme finito A.
Questa definizione significa che, per N molto grande, la percentuale dei numeri tn con n ≤ N e la prima cifra uguale a 1 si avvicina al 30,103%, quella dei numeri tn con la prima cifra uguale a 2 si avvicina al 17,609%, eccetera.

 

 

Successioni uniformemente distribuite

 

Per andare avanti dobbiamo presentare la definizione di successione uniformemente distribuita, introdotta da Hermann Weyl nel 1916 e legata alla legge forte dei grandi numeri (vedi [5], [11, 7.4]).

 

La legge forte dei grandi numeri

Mettiamo in un’urna 10 palline con i numeri 0,1,2,…,9. Ripetiamo infinite volte l’operazione di estrarre una pallina, segnarne il valore e poi rimetterla nell’urna. Otteniamo così una successione infinita

{ω1, ω2, ω3,…}

dove ciascun ωj assume con probabilità 1/10 ciascuno dei valori 0,1,2,…,9.
A questa successione associamo il numero ω = 0, ω1ω2ω3… che è un numero reale compreso tra 0 e 1. Se tralasciamo le successioni in cui ωn è definitivamente uguale a 9 otteniamo una corrispondenza biunivoca in cui a una successione infinita di estrazioni corrisponde uno e un solo numero reale compreso tra 0 e 1. In questo modo la misura sull’intervallo [0,1] diventa una misura sull’insieme delle successioni di estrazioni.
La Legge forte dei grandi numeri, dimostrata tra il 1909 e il 1916 da Émile Borel (1871-1956) e Francesco Cantelli (1875-1966), implica che, se N è molto grande, quasi certamente (nel senso della misura) ciascuna cifra tra 0 e 9 apparirà circa 1/10 delle volte. Questo significa che prendendo un numero a caso nell’intervallo
[0,1] questo numero, con probabilità 1, ha (nel senso del limite per N → +∞) uguale porzione (cioè 1/10) di cifre 0,1,2,…,9.
Si può passare da una singola cifra a una qualsiasi sequenza finita di cifre: un numero a caso nell’intervallo
[0,1] contiene con probabilità 1 il numero di cellulare del lettore infinite volte e con la frequenza dovuta (o, se vogliamo, con probabilità 1 una scimmia che batta a caso sui tasti scriverà la Divina Commedia infinite volte e, nel senso del limite, con la frequenza dovuta).
Si può dimostrare che questa proprietà equivale al fatto che spostando indietro di n passi la virgola di quasi ogni numero reale tra 0 e 1, la successione delle parti frazionarie via via ottenute è uniformemente distribuita.

 

Definizione 2
Una successione {tn} a valori nell’intervallo[0,1) è uniformemente distribuita se per ogni 0 ≤ a < b < 1 si ha

Cioè una successione di numeri in [0,1) è uniformemente distribuita se per N molto grande la percentuale dei numeri tn che cadono in un generico intervallo [a,b) si avvicina alla lunghezza b – a di questo intervallo. Per esempio, la successione di van der Corput

è uniformemente distribuita (per ogni intero positivo j = ∑ ak 2k , scritto in base 2, si
definisce t(j) = ∑ ak 2-k-1).
Una successione uniformemente distribuita è utile per campionare una funzione su [0,1] della quale dobbiamo stimare l’integrale. Infatti un modo molto ragionevole di definire (anche per gli studenti, vedi [4]) l’integrale di Riemann di una opportuna funzione f definita sull’intervallo [0,1] è

Dove per ogni intero j tra 1 e N il punto tj è scelto liberamente nell’intervallo  e il limite non deve dipendere da questa scelta.

Somme e integrali

In questo modo lo studente vede confrontate le due nozioni di funzione più familiari. Da un lato quella di tabella di valori:

con la facile e utile operazione di media aritmetica:

Dall’altro quella di funzione definita su un intervallo reale, con la meno facile operazione di integrazione:


 

La somma

è detta «somma di Riemann» e – particolarmente nei problemi con molte variabili, non rari in fisica e in finanza matematica – fornisce, per opportune scelte dei tj buone stime di integrali altrimenti difficilmente trattabili.
La Definizione 1 e la Definizione 2 sembrano, e in effetti sono, molto vicine.
Si può dimostrare che se {tn}  è una successione positiva infinita e la successione delle parti frazionarie di log10(tn) è uniformemente distribuita, allora {tn} è di Benford (è quello che abbiamo fatto quando abbiamo discusso il brano di Newcomb).
Più in generale si può definire una successione di Benford «forte» chiedendo non solo che la prima cifra soddisfi la legge di Benford, ma che ogni sequenza finita u1u2…ur di cifre decimali (che non inizi con 0) appaia con la frequenza dovuta, che è

Si dimostra allora che {tn} è una successione forte di Benford se e solo se è uniformemente distribuita.
Un celebre teorema di Leopold Kronecker (1823-1891) dice che se α è un numero irrazionale, allora la successione delle parti frazionarie della progressione aritmetica αn è uniformemente distribuita sull’intervallo [0,1). Per esempio, se α = √2 , allora la successione delle parti frazionarie

è uniformemente distribuita nell’intervallo [0,1).
Da questo si deduce che la successione {2n} delle potenze di 2 soddisfa la legge (forte) di Benford. Basta infatti dimostrare che la successione è uniformemente distribuita, ma questo segue dal teorema di Kronecker, poiché log10(2) è irrazionale (se fosse log10 2 = p/q avremmo 2=10p/q, cioè 2q = 10p, cioè 2q-p = 5p, che è impossibile). Come verifica senza pretese (poiché non abbiamo detto nulla sulla «velocità» con cui le prime cifre vanno a soddisfare la legge di Benford) scriviamo le prime cento potenze di 2,

e osserviamo che tra di esse

In modo abbastanza simile si dimostra che anche la successione di Fibonacci {Fn} è di Benford.
Provare che n! è di Benford non è molto diverso, ma richiede la formula di Stirling per n → +∞). Si può dimostrare (vedi [11, p.122]) che la successione  non è uniformemente distribuita in [0,1). Da questo segue che {n} non è una successione forte di Benford, ma non possiamo dedurre che non è una successione di Benford (cioè che non soddisfa la legge della sola prima cifra).
Mostriamo direttamente che {n} non è una successione di Benford calcolando, per ogni intero positivo N, quanti sono gli interi positivi minori o uguali a N che iniziano con la cifra 1 e dividendo questo numero per N. Chiamiamo q(N) il risultato.

 

Si verifica allora che

E quindi {n} non è una successione di Benford.
Ci aspettiamo che la legge di Benford non dipenda dall’unità di misura usata per stimare aree o altre grandezze fisiche.
Tornando ai dati sulla superficie degli stati della terra, questo significa, per esempio, che la distribuzione delle prime cifre non deve cambiare troppo se come unità di misura si utilizzano le miglia quadrate invece che i chilometri quadrati.
Indichiamo con S la superficie di un dato stato misurata in chilometri quadrati e con S* la superficie dello stesso stato espressa in miglia quadrate. La relazione tra S e S* è approssimativamente S* = 0,4 S.  Supponiamo che la prima cifra di S sia 1. Allora la prima cifra di S* è compresa tra 4 e 8 (e viceversa, se la prima cifra di S* è compresa tra 4 e 8 allora la prima cifra di S è 1). Infatti

Log10(2)-log10(1)=log10(8)-log10(4),

E analogamente per le altre cifre. Più in generale, si può dimostrare l’invarianza delle successioni di Benford rispetto ai cambi di scala (vedi [10]) cioè se {tn} soddisfa la legge di Benford forte, allora, per ogni numero reale α > 0, anche {αtn} soddisfa la legge di Benford forte.
Si può dimostrare anche il viceversa: le successioni che (con un’opportuna definizione) sono invarianti per cambi di scala soddisfano la legge di Benford forte (vedi [3]).

 

 

Applicazioni

 

La legge di Benford ha alcune applicazioni semplici e nello stesso tempo molto efficaci. Per introdurne qualcuna torniamo alle considerazioni fatte sui comuni italiani. Se le loro popolazioni seguono molto bene la legge di Benford, possiamo assumere che la seguiranno anche in futuro. Abbiamo così una tecnica per valutare l’attendibilità di modelli demografici: basta stabilire se i dati previsti (pur approssimati) seguono la legge di Benford.
Più in generale, la legge di Benford riceve attenzione da chi deve investigare sulle frodi che coinvolgono una considerevole quantità di dati numerici, come per esempio le frodi fiscali (il US Internal Revenue Service usa la legge di Benford per evidenziare le dichiarazioni dei redditi sospette), assicurative o relative alle richieste di rimborso presentate a compagnie pubbliche o private dai propri dipendenti (vedi [8], [9]). Per studiare questi dati si può esaminare la prima o le prime cifre dei numeri dichiarati (considerando cioè situazioni intermedie tra la legge di Benford e la legge di Benford forte).

L’applicazione della legge di Benford nella ricerca delle frodi può sembrare una «pistola con un solo colpo», inutile nel momento in cui la legge diventa conosciuta al grosso pubblico.
In realtà la sua applicazione può variare in modalità e raffinatezza, rendendo comunque difficile la creazione di dati numerici falsi, come sostiene in questo commento Mark Nigrini (vedi [6]): «Il problema di quelli che commettono frodi è che fino al momento in cui tutti i dati sono inseriti non hanno idea di come appare il quadro complessivo. Le frodi di solito riguardano una parte di un dataset, ma quelli che frodano non sanno come questo insieme sarà analizzato: per trimestre, per dipartimento, o per regione. Verificare che la frode non viola la legge di Benford diventa duro – e molti di quelli che frodano non sono ingegneri aerospaziali.»
La tabella che segue, dovuta a Mark Nigrini, confronta le percentuali di prime cifre uguali a secondo la legge di Benford (blu), i dati fiscali falsi dell’anno 1995 nella Contea di Kings, New York (rosso), i dati fiscali corretti (verde).

 

 

Altre applicazioni della legge di Benford comprendono la diagnosi di modelli matematici in biologia e in finanza, la scoperta di immagini digitali alterate, la suddivisione di una memoria per l’allocazione di dati.

 

 

Giustificazioni

 

Chi intende usare la legge di Benford vorrebbe averne una spiegazione convincente per sapere quando è applicabile a dati numerici reali. A questa domanda non è ancora stata data una risposta completamente soddisfacente (si veda per esempio [2]). Il motivo per cui {2n}, {n!} o la successione di Fibonacci soddisfano la legge di Benford è forse diverso dal motivo per cui la soddisfano il numero di abitanti dei comuni italiani o la superficie dei paesi nel mondo.
È abbastanza ovvio che i dati devono essere molti e distribuiti su più ordini di grandezza; le altezze delle persone per esempio non possono soddisfare la legge di Benford perché iniziano quasi tutte con la cifra 1. Sia il caso delle popolazioni dei comuni italiani sia quello delle superfici dei paesi del mondo forniscono invece numeri che spaziano su più ordini di grandezza. Nel primo caso si va infatti dalle poche decine di abitanti dei piccoli comuni ai milioni delle città metropolitane, mentre nel secondo caso si va dai pochi chilometri quadrati della Città del Vaticano alle decine di milioni di chilometri quadrati della Russia.
Supponiamo ora di voler rappresentare con un grafico le frequenze con cui si presentano le popolazioni dei comuni. Occorre dividere il numero di abitanti in classi e per ogni classe conteggiare quanti comuni hanno un numero di abitanti che ricade nella classe considerata. Da subito ci si rende però conto che è impossibile ottenere dei grafici significativi utilizzando classi equispaziate. Se per esempio utilizziamo una ampiezza della classe pari a 5000, vi sono 5683 comuni con un numero di abitanti compreso tra 0 e 5000, 1192 con un numero di abitanti compreso tra 5001 e 10000 e 480 con un numero di abitanti compreso tra 10001 e 15000. Le prime tre classi contengono pertanto 7355 comuni su 8092. Per arrivare però alla popolazione di Roma (2.761.477 abitanti) abbiamo bisogno di 554 classi (la maggior parte delle quali vuote).
La natura dei dati, e in particolare il fatto che spaziano su più ordini di grandezza, ci costringe pertanto a utilizzare classi non equispaziate. Utilizzando delle classi di ampiezza progressivamente crescente, come per esempio 10-20, 20-40, 40-80, 80-160, eccetera, otteniamo il seguente grafico.

 

 

In questa scala «logaritmica» (nel senso che non sono le classi a essere equispaziate ma i loro logaritmi) le frequenze delle popolazioni dei comuni hanno una distribuzione normale; si concentrano cioè attorno al valore più frequente (che nel nostro caso corrisponde ai comuni con circa 2500 abitanti) per poi diminuire velocemente quando ci si allontana da questo valore con il tipico andamento a campana. Si può dimostrare che più la campana è allargata, meglio i dati soddisfano la legge di Benford.

 

 

 

Luca Brandolini
(Docente di Analisi Matematica nell’Università di Bergamo)

 

Giancarlo Travaglini
(Docente di Analisi Matematica nell’Università di Milano-Bicocca)

 

 

 

Indicazioni bibliografiche

  1. F. Benford, The Law of Anomalous Numbers, Proc. Am. Philos. Soc., 78 (1938), 551-572.
  2. A. Berger e T. Hill, Benford’s Law Strikes Back: No Simple Explanation in Sight for Mathematical Gem, The Mathematical Intelligencer, 33 (2011), 85-91.
  3. A. Berger e T. Hill, A basic theory of Benford’s law, Probability Survey, 8 (2011), 1-126.
  4. M. Bramanti, Come e perché insegnare gli integrali. Una proposta didattica, Emmeciquadro n° 36 (2009) 47-68.
  5. L. Kuipers e H. Niederreiter, Uniform distribuition of sequences, Dover, 2006.
  6. R. Matthews, The power of one, New Scientist, 10 July 1999.
  7. S. Newcomb, Note on the Frequency of Use of the Different Digits in Natural Numbers, Am. J. Math., 4 (1881), 39-40.
  8. M. Nigrini, I’ve Got Your Number, J. Accountancy, www.journalofaccountancy.com/Issues/1999/May/nigrini.
  9. M. Nigrini e L. Mittermaier, The use of Benford’s Law as an Aid in Analytical procedures, Auditing – A Journal of Practice & Theory 16 (1997), 52-67.
  10. R. Pinkham, On the distribution of first significant digits, Ann. Math. Stat., 32 (1961), 1223-1230.
  11. G. Travaglini, Appunti su teoria dei numeri, Analisi di Fourier e distribuzione di punti, Unione Matematica Italiana – Pitagora, 2010.

 

 

 

 

© Pubblicato sul n° 45 di Emmeciquadro




© RIPRODUZIONE RISERVATA

I commenti dei lettori