4.8. FONCTION DE GAUSS-LAPLACE/LOI NORMALE




COURS DE STATISTIQUES


1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs

Cette caractéristique est la plus importante fonction de distribution en statistiques suite au résultat d'un théorème connu appelé "théorème central limite" qui comme nous le verrons, permet de démontrer (entre autres) que toute suite de variables aléatoires indépendantes de même loi ayant une espérance et un écart-type fini et non nécessairement égaux converge vers une fonction de Gauss-Laplace (loi Normale).

Il est donc très important de focaliser particulièrement sont attention sur les développements qui vont être faits ici!

Partons d'une fonction Binomiale et faisons tendre le nombre n d'épreuves vers l'infini. Si p est fixé au départ, la moyenne equation tend également vers l'infini, de plus l'écart-type equation tend également vers l'infini.

Remarque: Le cas où p varie et tend vers 0 tout en laissant fixe la moyenne equation ayant été étudié lors de la présentation de la fonction de Poisson.

Si nous voulons calculer la limite de la fonction Binomiale, il s'agira donc de faire un changement d'origine qui stabilise la moyenne, en 0 par exemple, et un changement d'unité qui stabilise l'écart-type, à 1 par exemple.

Voyons tout d'abord comment varie equation en fonction de k (nombre de réussites) et calculons la différence:

equation   (7.252)

Nous en concluons que equation est une fonction croissante de k, tant que equation est positif (pour n, p et q fixés). Pour le voir il suffit de prendre quelques valeurs (du membre de droite de l'égalité) ou d'observer la distribution graphique de la fonction Binomiale en se souvenant bien que:

equation   (7.253)

Comme equation il est par conséquent évident que la valeur de k voisine de la moyenne equation constitue le maxima de equation.

D'autre part la différence equation est le taux d'accroissement de la fonction equation. Nous pouvons alors écrire :

equation   (7.254)

comme étant la pente de la fonction.

Définissons maintenant une nouvelle variable aléatoire telle que sa moyenne soit nulle (variations négligeables) et son écart-type unitaire (une variable centrée-réduite en d'autres termes). Nous avons alors :

equation

Nous avons alors aussi avec cette nouvelle variable:

 equation   (7.255)

Appelons F(x) l'expression de equation calculée en fonction de la nouvelle variable de moyenne nulle et d'écart-type unitaire dont nous recherches l'expression quand n tend vers l'infini.

Reprenons:

equation   (7.256)

Afin de simplifier l'étude de cette relation quand n tend vers l'infini et k vers l'espérance, multiplions des deux côtés par equation:

equation   (7.257)

Récrivons le terme de droite de l'égalité. Il vient alors:

equation   (7.258)

Et maintenant récrivons le terme de gauche de la relation antéprécédente. Il vient:

equation

Après un passage à la limite pour n tendant vers l'infini nous avons dans un premier temps pour le terme antéprécédent:

equation   (7.259)

Donc:

equation   (7.260)

et dans un second temps, tenant compte du fait que les valeurs de k considérées se trouvent alors au voisinage de l'espérance np, nous obtenons:

equation   (7.261)

et:

equation   (7.262)

Donc:

equation   (7.263)

et comme:

equation   (7.264)

Nous avons finalement:

equation   (7.265)

Cette relation peut encore s'écrire en réarrangeant les termes: 

equation   (7.266)

et en intégrant les deux membres de cette égalité nous obtenons (cf. chapitre de Calcul Différentiel Et Intégral) :

equation   (7.267)

La fonction suivante est une des solutions de la relation précédente: 

equation   (7.268)

Effectivement:

equation   (7.269)

La constante est déterminée par la condition que:

equation   (7.270)

qui représente la somme de toutes les probabilités, vaille 1. Nous pouvons montrer pour cela que :

equation   (7.271)

Démonstration:

Nous avons:

equation   (7.272)

Donc concentrons-nous sur le dernier terme de l'égalité. Ainsi:

equation   (7.273)

puisque equation est une fonction paire (cf. chapitre d'Analyse Fonctionnelle). Ecrivons maintenant le carré de l'intégrale de la manière suivante:

equation   (7.274)

et faisons un changement de variable en passant en coordonnées polaires, dès lors nous faisons aussi usage du Jacobien dans ses mêmes coordonnées (cf. chapitre de Calcul Différentiel Et Intégral) :

equation   (7.275)

Par extension pour equation nous avons:

equation   (7.276)

equationC.Q.F.D.

Nous obtenons donc la "loi normale centrée réduite" notée:

equation   (7.277)

qui peut être calculée dans MS Excel avec la fonction LOI.NORMALE.STANDARD( ) ou pour la réciproque par LOI.NORMALE.STANDARD.INVERSE( ).

Pour information, une variable suivant une loi Normale centrée réduite est très souvent par tradition notée Z (pour "Zentriert" en allemand).

En revenant aux variables non normées:

equation   (7.278)

nous obtenons donc la "fonction Gauss-Laplace" (ou "loi de Gauss-Laplace") ou également appelée "loi Normale" :

equation   (7.279)

souvent notée N(equation,equation) qui peut être calculée dans MS Excel avec la fonction LOI.NORMALE( ) ou pour la réciproque par LOI.NORMALE.INVERSE( ).

La probabilité cumulée de valoir une certaine valeur k étant bien évidemment donnée par :

equation   (7.280)

exempleExemple:

Tracé de la fonction de distribution et répartition pour la fonction Normale de paramètresequation:

equationequation
  (7.281)

Cette loi régit sous des conditions très générales, et souvent rencontrées, beaucoup de phénomènes aléatoires. Elle est par ailleurs symétrique par rapport à la moyenne equation (c'est important de s'en souvenir).

Montrons maintenant que equation représente bien l'espérance mathématique (ou la moyenne) de x (c'est un peu bête mais on peut quand même vérifier...):

equation   (7.282)

Posons :

equation   (7.283)

Nous avons dès lors :

equation   (7.284)

Calculons la première intégrale:

equation   (7.285)

Donc il vient au final:

equation   (7.286)

Remarques:

R1. Le lecteur pourrait trouver cela déroutant dans un premier temps que le paramètre d'une fonction soit un des résultats que nous cherchons de la fonction. Ce qui dérange est la mise en pratique d'une telle chose. Au fait, tout s'éclairera lorsque nous étudierons plus loin dans ce chapitre les concepts "d'estimateurs de vraisemblance".

R2. Indiquons que dans la pratique (finance, qualité, assurance, etc.) il est fréquent de devoir calculer l'espérance uniquement pour des valeurs positives de la variable aléatoire qui est définie alors naturellement comme étant "l'espérance positive" et donnée par:

equation   (7.287)

Nous en verrons un exemple pratique dans le chapitre d'Économétrie lors de notre étude du modèle théorique de la spéculation de Louis Bachelier.

Montrons aussi (...) que equation représente bien l'écart type de X (il convient, en d'autres termes de montrer que equation) et pour cela rappelons que nous avions démontré que (formule de Huyghens):

equation   (7.288)

Nous avons déjà calculé tout à l'heure equation commençons alors par calculer equation :

equation   (7.289)

Posons equation qui conduit dès lors à :

equation   (7.290)

Or, nous savons :

equation   (7.291)

Il reste donc à calculer la première intégrale. Pour cela, procédons par une intégration par parties (cf. chapitre de Calcul Différentiel et Intégral) :

equation   (7.292)

D'où :

equation   (7.293)

Il vient finalement :

equation   (7.294)

Une signification supplémentaire de l'écart-type dans la loi de Gauss-Laplace est une mesure de la largeur de la distribution telle que (cela ne peut se vérifier qu'à l'aide d'intégration à l'aide de méthodes numériques) que toute moyenne et pour tout écart-type non nul nous avons:

equation
  (7.295)

La largeur de l'intervalle a une très grande importance dans l'interprétation des incertitudes d'une mesure. La présentation d'un résultat comme equation signifie que la valeur moyenne a environ 68.3% de chance (probabilité) de se trouver entre les limites de equation et equation, ou qu'elle a 95.5% de se trouver entre equation et equation etc.

Remarque: Ce concept est beaucoup utilisé en gestion de la qualité en entreprise particulièrement avec le concept industriel anglo-saxon Six Sigma (cf. chapitre de Génie Industriel) qui impose une maîtrise de 6equation autour de chaque côté (!) de la moyenne des côtés des pièces fabriquées (ou tout autre sujet dont on mesure la déviation).

Niveau de qualité Sigma

Taux de non-défection assuré en %

Taux de défection en parties par million

1equation

68.26894

317'311

2equation

95.4499

45'500

3equation

99.73002

2'700

4equation

99.99366

63.4

5equation

99.999943

0.57

6equation

99.9999998

0.002

Tableau: 7.4  - Niveau de qualité Sigma avec taux de défection/non-défection

La deuxième colonne du tableau peut facilement être obtenue avec Maple. Par exemple pour la première ligne:

>S:=evalf(int(1/sqrt(2*Pi)*exp(-x^2/2),x=-1..1));

et la première ligne de la troisième colonne par:

>(1-S)*1E6;

Si la loi Normale est décentrée, il suffirait alors d'écrire pour la deuxième colonne:

>S:=evalf(int(1/sqrt(2*Pi)*exp(-(x-mu)^2/2),x=-1..1));

et ainsi de suite pour tout écart-type et toute moyenne on retombre sur les mêmes intervalles!!!

La loi de Gauss-Laplace n'est par ailleurs pas qu'un outil d'analyse de données mais également de génération de données. Effectivement, cette loi est une des plus importantes dans le monde des multinationales qui recourent aux outils statistiques pour la gestion du risque, la gestion de projets et la simulation lorsqu'un grand nombre de variables aléatoires sont en jeu. Le meilleur exemple d'application en étant le logiciel CrystalBall ou @Risk de Palisade (mon préféré...).

Dans ce cadre d'application (gestion de projets), il est par ailleurs très souvent fait usage de la somme (durée des tâches) ou le produit de variables aléatoires (facteur d'incertitude du client) suivant des lois de Gauss-Laplace. Voyons comment cela se calcule :

SOMME DE DEUX VARIABLES ALÉATOIRES

Soit X, Y deux variables aléatoires indépendantes. Supposons que X suit la loi equation et que Y suit la loi equation. Alors, la variable aléatoire equation aura une densité égale au produit de convolution deequation. C'est-à-dire:

equation   (7.296)

ce qui équivaut à faire le produit conjoint (cf. chapitre de Probabilités) des probabilités d'apparition des deux variables continues (se rappeler le même genre de calcul sous forme discrète!)

Pour simplifier l'expression, faisons le changement de variable equation et posons equation, equation.

Comme:

equation   (7.297)

Nous obtenons:

equation   (7.298)

Nous posons :

equation   (7.299)

Alors :

equation   (7.300)

Sachant que :

equation   (7.301)

et:

equation   (7.302)

 notre expression devient :

equation   (7.303)

Nous reconnaissons l'expression de la loi de Gauss-Laplace de moyenne equation et d'écart type equation.

Par conséquent, equation suit la loi :

equation   (7.304)

Ce résultat est ce que nous nommons en statistiques la "stabilité par la somme" de la loi de Gauss-Laplace. Nous retrouverons ce type de propriétés pour d'autres lois que nous étudierons plus loin.

PRODUIT DE DEUX VARIABLES ALÉATOIRES

Soit X, Y deux variables aléatoires indépendantes réelles. Nous désignerons par equation et equation les densités correspondantes et nous cherchons à déterminer la densité de la variable equation.

Notons f la fonction de densité du couple (X,Y). Vu que X, Y  sont indépendantes (cf. chapitre de Probabilités) :

equation   (7.305)

La fonction de répartition de Z est:

equation   (7.306)

equation.

D peut se réécrire comme union disjointe (nous faisons cette opération pour anticiper lors du futur changement de variables une division par zéro) :

equation   (7.307)

avec :

equation   (7.308)

Nous avons :

equation  (7.309)

La dernière intégrale vaut zéro car equation est de mesure (épaisseur) nulle pour l'intégrale selon x.

Nous effectuons ensuite le changement de variable suivant :

equation   (7.310)

Le jacobien de la transformation est:

equation   (7.311)

Donc:

equation   (7.312)

Notons equation la densité de la variable Z. Par définition :

equation   (7.313)

D'un autre côté :

equation   (7.314)

comme nous venons de le voir. Par conséquent :

equation   (7.315)

Ce qui est un peu triste c'est que dans le cas d'une loi de Gauss-Laplace (loi Normale), cette intégrale ne peut être calculée simplement que numériquement... il faut alors faire appel à des méthodes d'intégration du type Monte-Carlo (cf. chapitre de Méthodes Numériques).

D'après quelques recherche faites sur Internet cependant, mais sans certitude, cette intégrale pourrait être calculée et donnerait une nouvelle loi appelée "loi de Bessel".

LOI NORMALE CENTRÉE RÉDUITE

La fonction de Gauss-Laplace n'est pas tabulée puisqu'il faudrait autant de tables numériques que de valeurs possibles pour la moyenne equation et l'écart-type equation (qui sont donc des paramètres de la fonction comme nous l'avons vu).

C'est pourquoi, en opérant un changement de variable, la loi Normale devient la "loi Normale centrée réduite" où :

1. "Centrée" signifie soustraire la moyenne equation (la fonction à alors pour axe de symétrie l'axe des ordonnées)

2. "Réduite" signifie, diviser par l'écart-type equation

Par ce changement de variable, la variable k est remplacée par la variable aléatoire centrée réduite :

equation   (7.316)

Si la variable k a pour moyenne equation et pour écart- type equation alors la variable equation a pour moyenne 0 et pour écart-type 1.

Donc la relation :

equation   (7.317)

s'écrit alors (trivialement) plus simplement :

equation   (7.318)

qui n'est d'autre que l'expression de la loi Normale centrée réduite souvent notée N(0,1) que nous retrouverons très fréquemment dans les chapitres relatifs à la physique, la finance, la gestion et l'ingénierie!

Remarque: Calculer l'intégrale de la relation précédente entre n'importe quelle bornes n'est pas possible formellement parlant de manière exacte. Une idée possible et simple consiste alors à exprimer l'exponentielle en série de Taylor et de faire ensuitre l'intégration terme par terme de la série (en s'assurant de prendre suffisamment de termes pour la convergence!).

DROITE DE HENRY

Souvent, dans les entreprises c'est la loi de Gauss-Laplace (Normale) qui est analysée mais des logiciels courants et facilement accessibles comme MS Excel sont incapables de vérifier que les données mesurées suivent une loi Normale lorsque nous faisons de l'analyse fréquentielle (aucun outil intégré par défaut ne permet de le faire) et que nous n'avons pas les données d'origines non groupées.

L'astuce consiste alors à utiliser la variable centré réduite qui se construit comme nous l'avons démontré plus haut avec la relation suivante:

equation   (7.319)

L'idée de la droite d'Henry est alors d'utiliser la relation linéaire entre k et k* donnée par l'équation de la droite:

equation   (7.320)

et qui peut être tracée pour déterminer la moyenne et l'écart-type de la loi Normale.

exempleExemple:

Supposons que nous ayons l'analyse fréquentielle suivante de 10'000 tickets de caisse dans un supermarché :

Montant des
tickets

Nombre de tickets

Nombre cumulés de tickets

Fréquences
relatives cumulées

[0;50[

668

668

0.068

[50,100[

919

1'587

0.1587

[100,150[

1'498

3'085

0.3085

[150,200[

1'915

5000

0.5000

[200,250[

1'915

6'915

0.6915

[250,300[

1'498

8'413

0.8413

[300,350[

919

9'332

0.9332

[350,400[

440

9'772

0.9772

[400 et +

228

10'000

1

Tableau: 7.5  - Intervalles de classe pour la détermination de la droite de Henry

Si nous traçons maintenant cela sous MS Excel nous obtenons:

equation
  (7.321)

Ce qui ressemble terriblement à une loi Normale d'où l'autorisation, sans trop de risques, d'utiliser dans cet exemple la technique de la droite d'Henry.

Mais que faire maintenant? Eh bien connaissant les fréquences cumulées, il ne nous reste plus qu'à calculer pour chacune d'entre elles k*  à l'aide de tables numériques ou avec la fonction NORMSINV( ) de MS Excel (car rappelons que l'intégration formelle de la fonction gaussienne n'est pas des plus faciles...).

Ceci nous donnera les valeurs de la loi Normale centrée réduite N(0,1) de ces mêmes fréquences respectives cumulées (fonction de répartition). Ainsi nous obtenons (nous laissons le soin au lecteur de chercher sa table numérique ou d'ouvrir son logiciel préféré...):

Borne supérieure de l'intervalle

Fréquences relatives cumulées

Correspondance pour k* de N(0,1)

50

0.068

-1.5

100

0.1587

-1

150

0.3085

-0.5

200

0.5000

0

250

0.6915

0.5

300

0.8413

1

350

0.9332

1.5

400

0.9772

2

-

1

-

Tableau: 7.6  - Fréquences relatives cumulées pour la droite de Henry

Signalons que dans le type de tableau ci-dessus, dans MS Excel, les valeurs de fréquences cumulées nulles et unitaires (extrêmes) posent problèmes. Il faut alors jouer un petit peu...

Comme nous l'avons spécifié plus haut, nous avons sous forme discrète:

equation   (7.322)

Donc graphiquement sous MS Excel nous obtenons grâce à notre tableau le graphique suivant :

equation
  (7.323)

Donc à l'aide de la régression donnée par MS Excel (ou calculée par vos soins selon les techniques de régressions linéaires vues dans le chapitre de Méthodes Numériques). Il vient :

equation   (7.324)

dont nous déduisons immédiatement :

equation   (7.325)

Il s'agit donc d'une technique particulière pour une distribution particulière! Des techniques similaires plus ou moins simples (ou compliquées suivant les cas) existent pour nombre de distributions.


page suivante :

4.9. Fonction Log-Normale