4.20. FONCTION DE BENFORD




COURS DE STATISTIQUES


1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs

Cette distribution aurait été découverte une première fois en 1881 par Simon Newcomb, un astronome américain, après qu'il se fut aperçu de l'usure (et donc de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Frank Benford, aux alentours de 1938, remarqua à son tour cette usure inégale, crut être le premier à formuler cette loi qui porte indûment son nom aujourd'hui et arriva aux même résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc).

Seule explication possible : nous avons plus souvent besoin d'extraire le logarithme de chiffres commençant par 1 que de chiffres commençant par 9, ce qui implique que les premiers sont "plus nombreux" que les seconds.

Bien que cette idée lui paraisse tout à fait invraisemblable, Benford entreprend de vérifier son hypothèse. Rien de plus simple : il se procure des tables de valeurs numériques, et calcule le pourcentage d'apparition du chiffre le plus à gauche (première décimale). Les résultats qu'il obtient confirment son intuition:

Chiffre initial

Probabilité d'apparition

1

30.1 %

2

17.6 %

3

12.5 %

4

9.7 %

5

7.9 %

6

6.7 %

7

5.8 %

8

5.1 %

9

4.6 %

Tableau: 7.7  - Probabilité d'appartion d'un chiffre selon la loi de Benford

A partir de ces données, Benford trouve expérimentalement que la probabilité qu'un nombre commence par le chiffre n (excepté 0) est (nous allons le démontrer plus loin) donnée par la relation :

equation   (7.499)

appelée "fonction de Benford" (ou "loi de Benford").

exempleExemple:

Voici un tracé de la fonction précédente :

equation
  (7.500)

Il convient de préciser que cette loi ne s'applique qu'à des listes de valeurs "naturelles", c'est-à-dire à des chiffres ayant une signification physique. Elle ne fonctionne évidemment pas sur une liste de chiffres tirés au hasard.

La loi de Benford a été testée sur toutes sortes de tables : longueur des fleuves du globe, superficie des pays, résultat des élections, liste des prix de l'épicerie du coin... Elle se vérifie à presque tous les coups.

Elle est évidemment indépendante de l'unité choisie. Si l'on prend par exemple la liste des prix d'un supermarché, elle fonctionne aussi bien avec les valeurs exprimées en Francs qu'avec les mêmes prix convertis en Euros.

Cet étrange phénomène est resté peu étudié et inexpliqué jusqu'à une époque assez récente. Puis une démonstration générale en a été donnée en 1996, qui fait appel au théorème de la limite centrale.

Aussi surprenant que cela puisse paraître, cette loi a trouvé une application : le fisc l'utilise aux Etats-Unis pour détecter les fausses déclarations. Le principe est basé sur la restriction vue plus haut : la loi de Benford ne s'applique que sur des valeurs ayant une signification physique.

S'il existe une distribution de probabilité universelle P(n) sur de tels nombres, ils doivent êtres invariants sous un changement d'échelle tel que:

equation   (7.501)

Si :

equation   (7.502)

alors:

equation   (7.503)

et la normalisation de la distribution donne:

equation   (7.504)

si nous dérivons equation par rapport à equation nous obtenons :

equation   (7.505)

en posant equation nous avons :

equation   (7.506)

Cette équation différentielle a pour solution:

equation   (7.507)

Cette fonction, n'est pas en premier lieu à proprement parler une fonction de distribution de probabilité (elle diverge) et deuxièmement, les lois de la physique et humaines imposent des limites.

Nous devons donc comparer cette distribution par rapport à une référence arbitraire. Ainsi, si le nombre décimal étudié contient plusieurs puissance de 10 (10 au total: 0,1,2,3,4,5,6,7,9) la probabilité que le premier chiffre non nul (décimal) soit D est donné par la distribution logarithmique:

equation   (7.508)

Les bornes de l'intégrale sont de 1 à 10 puisque la valeur nulle est interdite.

L'intégrale du dénominateur donne:

equation   (7.509)

L'intégrale du numérateur donne:

equation   (7.510)

Ce qui nous donne finalement:

equation   (7.511)

De par les propriétés des logarithmes (voir le chapitre d'Analyse fonctionnelle) nous avons :

 equation   (7.512)

Cependant, la loi de Benford ne s'applique pas uniquement aux données invariantes par changement d'échelle mais également à des nombres de provenant de sources quelconques. Expliquer ce cas implique une investigation plus rigoureuse en utilisant le théorème de la limite centrale. Cette démonstration a été effectuée seulement en 1996 par T. Hill par une approche utilisant la distribution des distributions.


page suivante : 5. Estimateurs de vraisemblance