6. INTERVALLES DE CONFIANCE




COURS DE STATISTIQUES


1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs

Jusqu'à maintenant nous avons toujours déterminé les différents estimateurs de vraisemblance ou estimateurs simples (variance, écart-type) à partir de lois (fonctions) statistiques théoriques ou mesurées sur toute une population de données.

Nous allons maintenant aborder une approche un peu différente et importante dans l'industrie en se demandant maintenant quelles doivent être les tailles d'échantillons pour avoir une certaine validité (intervalle de confiance I.C.) pour les données mesurées ou encore quel écart-type ou fractile dans une loi Normale centrée réduite (grand nombre d'échantillons), du Khi-deux, de Student ou de Fisher correspond à un certain intervalle de confiance (nous verrons ces deux derniers cas de faibles échantillons dans la partie traitant de l'analyse de la variance ou ANOVA) lorsque la variance ou la moyenne est connue ou respectivement inconnue sur l'ensemble ou une partie de la population de donnée.

Indiquons que ces intervalles de confiance utilisent le théorème central limite démontré plus loin (afin d'éviter toute frustration) et que les développements que nous allons faire maintenant nous seront également utiles dans le domaine des Tests d'Hypothèse qui ont une place majeure en statistique!

6.1. I.C. SUR LA MOYENNE AVEC VARIANCE théorique CONNUE

Commençons par le cas le plus simple et le plus courant qui est la détermination du nombre d'échantillons pour avoir une certaine confiance dans la moyenne des mesures effectuées d'une variable aléatoire supposée suivre une loi Normale.

D'abord rappelons que nous avons démontré au début de ce chapitre que l'erreur-type (écart-type à la moyenne) était :

equation   (7.55)

Maintenant, avant d'aller plus loin, considérons X comme une variable aléatoire suivant une loi Normale de moyenne equation et d'écart-type equation. Nous souhaiterions déterminer à combien de sigma correspond un intervalle de confiance de 95%. Pour déterminer cela, nous écrivons d'abord:

equation   (7.56)

Remarque: Donc avec un intervalle de confiance de 95% vous aurez raison 19 fois sur 20, ou n'importe quel autre niveau de confiance ou niveau de risque (1-niveau de confiance, soit 5%) que vous vous serez fixé à l'avance. En moyenne, vos conclusions seront donc bonnes, mais nous ne pourrons jamais savoir si une décision particulière est bonne! Si le niveau de risque est très faible mais que l'événement a quand même lieu, les spécialiste parlent alors de "grande déviation".

En centrant et réduisant la variable aléatoire :

equation   (7.57)

Notons maintenant Y la variable centrée réduite :

equation   (7.58)

Puisque la loi Normale centrée réduite est symétrique :

equation   (7.59)

D'où :

equation   (7.60)

A partir de là en lisant dans les tables numériques de la loi Normale centrée réduite, nous avons pour satisfaire cette égalité que :

equation   (7.61)

Ce qui s'obtient facilement avec MS Excel en utilisant la fonction: -NORMSINV((1-0.95)/2).

Donc :

equation   (7.62)

Ce qui est noté de façon traditionnelle dans le cas général autre que 95% par (Z n'est pas une variable aléatoire c'est juste le facteur qui est la variable suivante) :

equation   (7.63)

Or, considérons que la variable X sur la quelle nous souhaitons faire de l'inférence statistique est justement la moyenne (et nous démontrerons plus loin que celle-ci suit une loi Normale centrée réduite). Dès lors :

equation   (7.64)

nous en tirons :

equation   (7.65)

Ainsi, nous pouvons maintenant savoir le nombre d'échantillons à avoir pour s'assurer un intervalle de précision equation (marge d'erreur) autour de la moyenne et pour qu'un pourcentage donné des mesures se trouvent dans cet intervalle et en supposant l'écart-type expérimental equation connu (ou imposé) d'avance (typiquement utilisé dans l'ingénierie de la qualité ou les instituts de sondages).

Autrement dit, nous pouvons calculer le nombre n d'échantillons à mesurer pour s'assurer un intervalle de confiance donné (associé à Z) de la moyenne mesurée en supposant l'écart-type expérimental connu (ou imposé) et en souhaitant un précision de equation en valeur absolue sur la moyenne.

Cependant... en réalité, la variable Z provient du théorème central limite (voir plus bas) qui donne pour un échantillon de grande taille (approximativement):

equation   (7.66)

En réarrangeant nous obtenons:

equation   (7.67)

et comme Z peut être négatif ou positif alors il est plus censé d'écrire cela sous la forme:

equation   (7.68)

Soit:

equation   (7.69)

que les ingénieurs notent parfois:

equation   (7.70)

avec LCL étant la lower confidence limit et UCL la upper confidence limit. C'est de la terminologie Six Sigma (cf. chapitre de Génie Industriel).

Et nous venons de voir plus avant que pour avoir un intervalle de confiance à 95% nous devions avoir Z=1.96. Et puisque la loi Normale est symétrique:

equation   (7.71)

Cela se note finalement:

equation   (7.72)

soit dans le cas d'un I.C. (intervalle de confiance) à 95%:

equation   (7.73)

Nous sommes ainsi capables maintenant d'estimer des tailles de population nécessaires à obtenir un certain niveau de confiance dans un résultat, soit d'estimer dans quel intervalle de confiance se trouve la moyenne théorique par rapport à la moyenne expérimentale (empirique). Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est en dehors d'un certain intervalle... (l'un comme l'autre étant beaucoup utilisés dans l'industrie).

6.2. I.C. SUR LA VARIANCE AVEC moyenne théorique CONNUE

Commençons à démontrer une propriété fondamentale de la loi du khi-deux :

Si une variable aléatoire X suit une loi Normale centrée réduite equation alors son carré suit une loi du khi-deux de degré de liberté 1 :

equation   (7.74)

Démonstration:

Pour démontrer cette propriété, il suffit de calculer la densité de la variable aléatoire equation avec equation. Or, si equation et si nous posons equation, alors pour tout equation nous obtenons:

equation   (7.75)

Puisque la loi Normale centrée réduite est symétrique par rapport à 0 pour la variable aléatoire X, nous pouvons écrire :

equation   (7.76)

En notant equation la fonction de répartition de la loi Normale centrée réduite (sa probabilité cumulée en d'autres termes pour rappel...), nous avons :

equation   (7.77)

et comme :

equation   (7.78)

alors  :

equation   (7.79)

La fonction de répartition de la variable aléatoire (probabilité cumulée) equation est donne donnée par :

equation   (7.80)

si y est supérieur ou égal à zéro, nulle si y inférieur à zéro. Nous noterons cette réparation equation pour la suite des calculs.

Puisque la fonction de distribution est la dérivée de la fonction de répartition et que X suit une loi Normale centrée réduite alors nous avons pour la variable aléatoire X :

equation   (7.81)

alors nous avons pour la loi de distribution de Y  (qui est donc le carré de X pour rappel!) :

equation   (7.82)

cette dernière expression correspond exactement à la relation que nous avions obtenu lors de notre étude de la loi du khi-deux en imposant un degré de liberté unité.

Le théorème est donc bien démontré tel que si X suit une loi Normale centrée réduite alors son carré suit une loi du khi-deux à 1 degré de liberté tel que :

equation   (7.83)

equationC.Q.F.D.

Ce type de relation est utilisé dans les processus industriels et leur contrôle (cf. chapitre de Génie Industriel).

Nous allons maintenant utiliser un résultat démontré lors de notre étude de la loi Gamma. Nous avons effectivement vu plus haut que la somme de deux variables aléatoires suivant une loi Gamma suit aussi une loi Gamma dont les paramètres s'additionnent :

equation   (7.84)

Comme la loi du khi-deux n'est qu'un cas particulier de la loi Gamma, le même résultat s'applique.

Pour être plus précis, cela revient à écrire :

Si equation sont des variables aléatoires indépendantes (!) et identiquement distribuées N(0,1) alors par extension de la démonstration précédente où nous avons montré que:

equation   (7.85)

et de la propriété d'addition de la loi Gamma, la somme de leurs carrés suit alors une loi du khi-deux de degré k tel que:

equation   (7.86)

Ainsi, la loi du equation à k degrés de liberté est la loi de probabilité de la somme des carrés de k variables normales centrées réduites linéairement indépendantes entre elles. Il s'agit de la propriété de linéarité de la loi du Khi-deux (implicitement de la linéarité de la loi Gamma)!

Maintenant voyons une autre propriété importante de la loi du khi-deux : Si equation sont des variables aléatoires indépendantes et identiquement distribuées equation (donc de même moyenne et même écart-type et suivant une loi Normale) et si nous notons l'estimateur de maximum de vraisemblance de la variance:

equation   (7.87)

alors, le rapport de la variable aléatoire equation sur l'écart-type supposé connu de l'ensemble de la population (dit "écart-type vrai" ou "écart-type théorique" pour bien différencier!) multiplié par le nombre d'échantillons n de la population suit une loi du khi-deux de degré n telle que :

equation   (7.88)

Remarques:

R1. En laboratoire, les equation peuvent être vues comme une classe d'échantillons d'un même produit étudié identiquement par différentes équipes de recherche avec des instruments de même précision (écart-type de mesure nul).

R2. equation est la "variance interclasse" également appelée "variance expliquée". Donc elle donne la variance d'une mesure ayant eu lieu dans les différents laboratoires.

Ce qui est intéressant c'est qu'à partir du calcul de la loi du khi-deux en connaissant n et l'écart-type equation il est possible d'estimer cette variance (écart-type) interclasse.

Pour voir que cette dernière propriété est une généralisation élémentaire de la relation :

equation   (7.89)

il suffit de constater que la variable aléatoire equation est une somme de n carrés de N(0,1) indépendants les uns des autres. Effectivement, rappelons qu'une variable aléatoire centrée réduite (voir notre étude de la loi Normale) est donnée par :

equation   (7.90)

Dès lors :

equation   (7.91)

Or, puisque les variables aléatoires equation sont indépendantes et identiquement distribuées selon une loi Normale, alors les variables aléatoires :

equation   (7.92)

sont aussi indépendantes et identiquement distribuées mais selon une loi Normale centrée réduite.

Puisque:

equation   (7.93)

en réarrangeant nous obtenons:

equation   (7.94)

Donc sur la population de mesures, l'écart-type vrai suit la relation donnée ci-dessus. Il est donc possible de faire de l'inférence statistique sur l'écart-type lorsque la moyenne théorique est connue (...).

Puisque la fonction du khi-deux n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors l'intervalle de confiance à 95% (par exemple...) de la manière suivante:

equation   (7.95)

Soit en notant equation:

equation   (7.96)

le dénominateur étant alors bien évidemment la probabilité cumulée. Cette relation est rarement utilisée dans la pratique car la moyenne théorique n'est pas connue. Voyons donc le cas le plus courant:

6.3. I.C. SUR LA VARIANCE AVEC moyenne empirique connue

Cherchons maintenant à faire de l'inférence statistique lorsque la moyenne théorique de la population equation n'est pas connue. Pour cela, considérons maintenant la somme:

equation   (7.97)

où pour rappelequationest la moyenne empirique (arithmétique) de l'échantillon:

equation   (7.98)

En continuant le développement nous avons:

equation
  (7.99)

Or, nous avons démontré au début de ce chapitre que la somme des écarts à la moyenne était nulle. Donc:

equation
  (7.100)

et reprenons l'estimateur sans biais de la loi Normale (nous changeons de notation pour respecter les traditions et bien différencier la moyenne empirique de la moyenne théorique):

equation   (7.101)

Dès lors:

equation   (7.102)

ou autrement écrit:

equation   (7.103)

Puisque le deuxième terme (au carré) suit une loi Normale centrée réduite aussi, alors si nous le supprimons nous obtenons de par la propriété démontrée plus haut de la loi du Khi-deux:

equation   (7.104)

Ces développements nous permettent cette fois-ci de faire aussi de l'inférence sur la variance equation d'une loi equation lorsque les paramètres equation et equation sont tous les deux inconnus pour l'ensemble de la population. C'est ce résultat qui nous donne, par exemple, l'intervalle de confiance:

equation   (7.105)

lorsque la moyenne théorique equation est donc inconnue.

6.4. I.C. SUR LA MOYENNE AVEC moyenne empirique connue

Nous avons démontré beaucoup plus haut que la loi de Student provenait de la relation suivante:

equation   (7.106)

si Z et U sont des variables aléatoires indépendantes et si Z suit une loi Normale centrée réduite N(0,1) et U une loi du khi-deux equation tel que:

equation   (7.107)

Voici une application très importante du résultat ci-dessus:

Supposons que equation constituent un échantillon aléatoire de taille n issu de la loi equation. Alors nous pouvons déjà écrire que selon les développements faits plus haut:

equation   (7.108)

Et pour U qui suit une loi equation, si nous posons equation alors selon les résultats obtenus plus haut:

equation   (7.109)

Nous avons alors après quelques simplifications triviales:

equation   (7.110)

Donc puisque:

equation   (7.111)

suit une loi de Student de paramètre k alors nous obtenons le "independant one-sample t-test":

equation   (7.112)

suit aussi une loi de Student de paramètre n-1.

Ce qui nous donne aussi :

equation   (7.113)

Ce qui nous permet de faire de l'inférence sur la moyenne equation d'une loi Normale d'écart-type inconnu mais dont l'estimateur sans biais de l'écart-type est connu (donc l'écart-type théorique est inconnu!). C'est ce résultat qui nous donne l'intervalle de confiance:

equation   (7.114)

où nous retrouvons les mêmes indices que pour l'inférence statistique sur la moyenne d'une variable aléatoire d'écart-type connu puisque la loi de Student est symétrique! Nous pouvons bien évidemment dès lors aussi déterminer la probabilité avec laquelle la moyenne est dedans ou en dehors d'un certain intervalle... (l'un comme l'autre étant beaucoup utilisés dans l'industrie).

Remarque: Le résultat précédent fut obtenu par William S. Gosset aux alentours de 1910. Gosset qui avait étudié les mathématiques et la chimie, travaillait comme statisticien pour la brasserie Guinness en Angleterre. À l'époque, on savait que si equation sont des variables aléatoires indépendantes et identiquement distribuées alors:

equation   (7.115)

Toutefois, dans les applications statistiques on s'intéressait bien évidemment plutôt à la quantité:

equation   (7.116)

on se contentait alors de supposer que cette quantité suivait à peu près une loi Normale centrée réduite ce qui n'était pas une mauvais approximation comme le montre l'image ci-dessous (equation):

equation
  (7.117)

Suite à de nombreuses simulations, Gosset arriva à la conclusion que cette approximation était valide seulement lorsque n est suffisamment grand (donc cela lui donnait l'indication comme quoi il devait y avoir quelque part derrière le théorème central limite). Il décida de déterminer l'origine de la distribution et après avoir suivi un cours de statistique avec Karl Pearson il obtint son fameux résultat qu'il publia sous le pseudonyme de Student. Ainsi, on appelle loi de Student la loi de probabilité qui aurait dû être appelée la loi ou fonction de Gosset.

Signalons enfin que le test de student est très utilisée pour identifier si des variations (progressions ou l'inverse) de la moyenne de chiffres de deux populations identiques sont significatives.


page suivante : 7. Loi faible des grands nombres