La Legge di Benford

Numeri CasualiI mezzi che abbiamo a disposizione per indagare la realtà a volte superano la fantasia. Consideriamo, ad esempio, il numero di abitanti dei comuni italiani e i dati contenuti nel Bollettino Statistico della Banca d'Italia (2010 - I). Cosa devono avere in comune? A prima vista si tratta di campioni molto diversi tra loro.

In realtà abbiamo dato per scontato che i numeri nel Bollettino abbiano le stesse caratteristiche di quelle del censimento, cioè soddisfare la legge di Benford. Ora, vediamo in dettaglio quali sono le proprietà della legge e se anche la nostra pubblicazione le soddisfa. La legge, detta anche "della prima cifra", descrive la probabilità che un numero presente in una raccolta di dati reali (ad esempio, quotazione delle azioni, numero di strade esistenti in alcune località etc.) cominci con una determinata cifra. La cosa che colpisce di questa legge è la distribuzione della probabilità di una cifra in una data posizione. Nel 30,1% dei casi "1" dovrebbe essere la prima cifra, pari a quasi un terzo delle volte. Ma com'è possibile che eventi e campioni tanto differenti tra loro (ad esempio, la tiratura dei quotidiani, la lunghezza delle coste e i tassi di mortalità) siano collegati da una regola che sembra indebolire persino il libero arbitrio? Che cosa porta i dati a comportarsi in un modo, apparentemente, così inatteso?

Per una spiegazione si pensi ai numeri con cui ci confrontiamo quotidianamente. Essi hanno un limite finito, e soprattutto sono prodotti in ordine crescente. Tornando all'esempio iniziale, la popolazione di un comune può partire da un abitante (improbabile ma possibile...) e crescere fino a qualche decina di milioni. Facciamo allora un esperimento teorico e scegliamo un numero casuale nell'intervallo da 1 a 1000, ad esempio 200. In questo caso più del 50% dei valori inizia per 1 (1, i dieci numeri da 10 a 19 e i cento da 100 a 199). Se avessimo scelto 1000, sarebbe stato poco sopra il 10% delle ricorrenze, ma sicuramente in media in qualunque numero la cifra '1' non apparirà mai meno delle altre.

Il Bollettino Statistico soddisfa questa legge (sospiro di sollievo...). Prendiamo in esame la parte statistica del Bollettino (1) e analizziamo la distribuzione della prima cifra nei numeri riportati nelle varie tabelle (2): notiamo che i valori tendono ad allinearsi al modello di Benford (vedi grafico a barre a sinistra).

Questa legge è stata usata anche per smascherare frodi fiscali. Chi falsifica dati tende, infatti, a "creare" valori che hanno una distribuzione più uniforme di quella di Benford. Ad esempio, negli Stati Uniti il fisco ha usato questa regola come primo screening nel controllo delle dichiarazioni dei redditi (3): ne sa qualcosa anche l'ex presidente Clinton, che pare non abbia superato questo vaglio.

A proposito di "frodi", Benford non è il vero scopritore, intorno al 1940, della legge che porta il suo nome; lo è in realtà un astronomo di nome Newcombe il quale sessanta anni prima, incuriosito dal fatto che le prime pagine delle sue tavole dei logaritmi (le calcolatrici di qualche secolo fa...) fossero più rovinate delle ultime, si accorse di questo strano comportamento.
In definitiva si tratta di una scoperta molto utile, con moltissime applicazioni pratiche ma che, purtroppo, non aumenta le nostre probabilità di vincere il superenalotto...

(1) Informazioni strutturali, sull'intermediazione creditizia, finanziaria e mobiliare, sulla clientela e sul rischio, i tassi di interesse e le informazioni sulla Banca d'Italia.
(2) Un programma in C legge il file del Bollettino (salvato in formato testo), considerando solo la parte numerica ed estraendo la prima cifra.
(3) Per un approfondimento sull'utilizzo per l'analisi contabile della legge di Benford visitate il sito di www.nigrini.com; (M. Nigrini The detection of income evasion through an analysys of digital distributions)