10. TESTS D'HYPOTHÈSE (OU D'ADÉQUATION)




COURS DE STATISTIQUES


1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs

Lors de notre étude des intervalles de confiance, rappelons nous sommes arrivées aux relations suivantes:

equation   (7.191)

et:

equation   (7.192)

et:

equation   (7.193)

et enfin:

equation   (7.194)

qui permettaient donc de faire de l'inférence statistique en fonction de la connaissance ou non de la moyenne ou de la variance vraie sur la totalité ou sur un échantillon de la population. En d'autres termes de savoir dans quelles bornes se situait un moment (moyenne ou variance) en fonction d'un certain niveau de confiance imposé. Nous avions vu que le deuxième intervalle ci-dessus ne peut être que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le troisième.

Nous allons également démontré en détails plus loin les deux intervalles suivants:

equation   (7.195)

et:

equation   (7.196)

Le premier intervalle ci-dessus ne peut être lui aussi que difficilement utilisé dans la pratique (suppose la moyenne théorique connue) et nous lui préférons donc le deuxième.

Lorsque nous cherchons à savoir si nous pouvons faire confiance à la valeur d'un moment ou d'une variable aléatoire en général avec une certaine confiance, nous parlons de "test d'hypothèse" ou "test d'adéquation" ou encore de "test de conformité".

Les tests d'hypothèses sont destinés à vérifier si un échantillon peut être considéré comme extrait d'une population donnée ou représentatif de cette population, vis-à-vis d'un paramètre comme la moyenne, la variance ou la fréquence observée. Ceci implique que la loi théorique du paramètre est connue au niveau de la population.

Par exemple, si nous souhaitons savoir avec une certaine confiance si une moyenne donnée d'un échantillon de population est réaliste par rapport à la vraie moyenne théorique inconnue, nous utiliserons le "test-Z" qui est simplement:

equation   (7.197)

si la moyenne de toute la population se trouve bien dans les bornes pour la confiance donnée, la moyenne de l'échantillon test de taille n avec l'écart-type de toute la population connue!

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.198)

alors la soustraction (différencier) des moyennes donne:

equation   (7.199)

Donc pour la différence de deux moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.200)

Nous pouvons alors adapter le test-Z sous la forme:

equation   (7.201)

Cette relation est très utile lorsque pour deux échantillons de deux populations de données, nous voulons vérifier s'il existe une différence significative des différences des moyennes théoriques à un niveau de confiance donné et la probabilité associée pour avoir cette différence par exemple donné par:

equation   (7.202)

Donc:

equation   (7.203)

Nous parlons du "test-Z de la moyenne à deux échantillons" et il est beaucoup utilisé dans l'industrie pour vérifier l'égalité de la moyenne de deux populations de mesures.

Et si l'écart-type théorique n'est pas connu, nous utiliserons le"test-T" de Student (pas mal utilisé en pharmaco-économie) démontré plus haut:

equation   (7.204)

Dans la même idée pour l'écart-type, nous utiliserons le "test du khi-deux" aussi déjà démontré plus haut:

equation   (7.205)

Et lorsque nous voulons tester l'égalité de la variance de deux populations nous utilisons le "test-F" de Fisher (démontré plus bas lors de notre étude de l'analyse de la variance):

equation   (7.206)

Le fait que nous obtenions alors l'ensemble des valeurs satisfaisant à ce test borné à droite et (!) à gauche est ce que nous appelons dans le cas général un "test bilatéral" car il comprend le test unilatéral à gauche et unilatéral à droite. Ainsi, tous les tests susmentionnés sont dans une forme bilatérale mais nous pourrions en faire une analyse unilatérale aussi!:

equation
  (7.207)

Signalons aussi que les tests d'hypothèses sur l'écart-type (variance), la moyenne ou la corrélation sont appelés des "tests paramétriques" à l'inverse des tests non-paramétriques que nous verrons plus loin.

Remarque: Il existe également une autre définition du concept de test paramétrique et non-paramétrique (un peu différente car plus précise) à voir plus loin...

Enfin, de nombreux logiciels calculent ce que nous appelons la "p-value" qui est généralement (car c'est le statisticien qui va faire le choix du niveau de qualité de son estimation) le risque limite pour lequel nous passons de l'état d'hypothèse acceptée à l'état refusée.

Pour un test, le 5% de risque est celui de rejeter l'hypothèse alors même qu'elle est vraie. Si le risque est 5% et que la p-value est inférieure, le test échoue (rejet de l'hypothèse). Nous acceptons l'hypothèse si la p-value est plus grande que 5% (0.05). Au fait, plus la p-value est grande, mieux c'est car l'intervalle de confiance est de plus en plus petit. Si l'intervalle de confiance vient à être énorme (très proche de 100%) car la p-value est très petite alors l'analyse n'a plus vraiment de sens physiquement parlant!

Remarque: Nous ne devrions jamais dire que nous "acceptons" une hypothèse ou encore qu'elle est"vraie" ou "fausse" car ces termes sont trop forts. Nous devrions dire si nous "rejetons" ou non l'hypothèse et qu'elle est éventuellement "correcte" ou "non correcte".

Nous allons dans ce qui suit démontrer l'origine du test-F de Fisher et par la même occasion nous introduirons deux autres tests qui sont le "test-T homoscédastique" et le "test-T hétéroscédastique".

10.1. ANALYSE DE LA VARIANCE (ANOVA a un facteur)

L'objectif de l'analyse de la variance (contrairement à ce que son nom pourrait laisser penser) est une technique statistique permettant de comparer les moyennes de deux populations ou plus (très utilisé dans le pharma ou dans les labos de R&D ou de bancs d'essais). Cette méthode, néanmoins, doit son nom au fait qu'elle utilise des mesures de variance afin de déterminer le caractère significatif, ou non, des différences de moyenne mesurées sur les populations.

Plus précisément, la vraie signification est de savoir si le fait que des moyennes d'échantillons sont (légèrement) différentes peut être attribué au hasard de l'échantillonnage ou provient du fait que facteur de variabilité engendre réellement des échantillons qui sont significativement différents (si nous avons les valeurs de toute la population, nous n'avons rien à faire!).

Pour l'analyse de la variance abrégée "ANOVA à une facteur" (ANalysis Of VAriance) ou "ANAVAR à un facteur" (ANAlyse de la VARiance), dite aussi "ANOVA à une voie", nous allons d'abord rappeler, comme nous l'avons démontré, que la loi de Fisher-Snedecor est donnée par le rapport de deux variables aléatoires indépendantes suivant une loi du khi-deux et divisée par leur degré de liberté tel que:

equation   (7.208)

et nous allons voir maintenant son importance.

Considérons un échantillons aléatoire de taille n, disons equation issu de la loi equation et un échantillon aléatoire de taille m, disons equation issu de la loi equation.

Considérons les estimateurs de maximum de vraisemblance de l'écart-type de la loi Normale traditionnellement notée dans le domaine de l'analyse de la variance par:

equation et equation   (7.209)

Les statistiques ci-dessus sont les statistiques que nous utiliserions pour estimer les variances si les moyennes théoriques equation sont connues. Donc nous pouvons utiliser un résultat démontré plus haut lors de notre étude des intervalles de confiance:

equation   (7.210)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.211)

sont indépendantes l'une de l'autre.

Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.212)

ainsi que:

equation et equation   (7.213)

Nous avons donc:

equation   (7.214)

Soit:

equation   (7.215)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne théorique est connue. Puisque la fonction du Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

equation   (7.216)

Dans le cas où les moyennes equation sont inconnues, nous utilisons l'estimateur sans biais de la variance traditionnellement notée dans le domaine de l'analyse de la variance par:

equation et equation   (7.217)

Pour estimer les variances théoriques, nous utilisons le résultat démontré plus haut:

equation et equation   (7.218)

Comme les equation sont indépendantes des equation (hypothèse!), les variables:

equation   (7.219)

sont indépendantes l'une de l'autre. Nous pouvons donc appliquer la loi de Fisher-Snedecor avec:

equation et equation   (7.220)

ainsi que:

equation et equation   (7.221)

Nous avons donc:

equation   (7.222)

Soit:

equation   (7.223)

Ce théorème nous permet de déduire l'intervalle de confiance du rapport de deux variances lorsque la moyenne empirique est connue. Puisque la fonction du Fisher n'est pas symétrique, la seule possibilité pour faire l'inférence c'est de faire appel au calcul numérique et nous noterons alors pour un intervalle de confiance donné le test de la manière suivante:

equation   (7.224)

R. A. Fisher (1890-1962) est, comme Karl Pearson, l'un des principaux fondateurs de la théorie moderne de la statistique. Fisher étudia à Cambridge où il obtint en 1912 un diplôme en astronomie. C'est en étudiant la théorie de l'erreur dans les observations astronomiques que Fisher s'intéressa à la statistique. Fisher est l'inventeur de la branche de la statistique appelée l'analyse de la variance.

Au début du 20ème siècle, R. Fischer développe donc la méthodologie des plans d'expérience (cf. chapitre de Génie Industriel). Pour valider l'utilité d'un facteur, il met au point un test permettant d'assurer que des échantillons différents sont de natures différentes. Ce test est basé sur l'analyse de la variance (des échantillons), et nommé ANOVA (analyse normalisée de la variance).

Prenons k échantillons de n valeurs aléatoires chacun (appelé "facteur explicatif" dans l'analyse de la variance). Chacune des valeurs étant considérée comme une observation ou une mesure de quelque chose ou sur la base de quelque chose (un lieu différent, ou un objet différent... bref: un seul et unique facteur de variabilité entre les échatillons!). Nous aurons donc un nombre total de N d'observations (mesures) donnée par:

equation   (7.225)

si chacun des échantillons a un nombre identique de valeurs tel que equation (nous parlons alors de "plan équilibré" à k niveaux.

Remarque: Si nous avons plusieurs facteurs de variabilité (par exemple: chaque lieu comparé à lui-même plusieurs labos), nous parlerons alors d'ANOVA multifactorielle. Dès lors, s'il n'y a que deux facteurs de variabilité, nous parlons d'ANOVA à deux facteurs.

Nous considérerons que chacun des k échantillons est issu (suit) d'une variable aléatoire suivant une loi Normale.

En termes de test, nous voulons tester si les moyennes des k échantillons sont égales sous l'hypothèse que leurs variances sont égales. Ce que nous écrivons sous forme d'hypothèse de la manière suivante:

equation   (7.226)

Autrement dit: les échantillons sont représentatifs d'une même population (d'une même loi statistique). C'est-à-dire que les variations constatées entre les valeurs des différents échantillons sont dues essentiellement au hasard. Pour cela nous étudions la variabilité des résultats dans les échantillons et entre les échantillons.

Nous noterons i l'indice d'échantillon (de 1 à k) et j l'indice de l'observation (de 1 à n). Donc equation sera la valeur de la j-ème observation de l'échantillon de données numéro i.

Selon l'hypothèse susmentionnée, nous avons:

equation   (7.227)

Nous noterons par equation la moyenne empirique/estimée (arithmétique) de l'échantillon i :

equation   (7.228)

et equationla moyenne empirique/estimée des N valeurs (soit la moyenne des equation) donnée donc par:

equation   (7.229)

En utilisant  les propriétés de l'espérance et de la variance déjà démontrées plus haut nous savons que:

equation et equation   (7.230)

avec equation qui est la moyenne des moyennes vraies equation:

equation   (7.231)

Maintenant, introduisons la "variance totale" comme étant la variance estimée sans biais en considérant l'ensemble des N observations comme un seul échantillon:

equation   (7.232)

où rappelons que le terme au numérateur est appelé "variation totale".

La variance entre échantillons (c'est-à-dire entre les moyennes des échantillons) est l'estimateur de la variance des moyennes des échantillons:

equation   (7.233)

Comme nous avons démontré que si toutes les variables sont identiquement distribuées (même variance) la variance des individus vaut n fois celle de la moyenne:

equation   (7.234)

alors la variance des observations (variables aléatoires dans un échantillon) est donnée par :

equation   (7.235)

Nous avons donc ci-dessus l'hypothèse de l'égalité des variances qui est exprimée sous forme mathématique pour les développements à suivre.

La variance résiduelle est l'effet des facteurs dits non contrôlés. C'est par définition la moyenne des variances des échantillons.

equation   (7.236)

Au final, ces indicateurs sont parfois résumés sous la forme suivante:

equation   (7.237)

Remarquons que si les échantillons n'ont pas la même taille (ce qui est rare), nous avons alors:

equation   (7.238)

Remarques:

R1. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SST signifiant en anglais "Sum of Squares Total" ou plus rarement TSS pour "Total Sum of Square".

R2. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSB signifiant en anglais "Sum of Squares Between (samples)" ou plus rarement SSk pour "Sum of Squared Beetween treatments".

R3. Le terme equation est souvent indiqué dans l'industrie par l'abréviation SSW signifiant en anglais "Sum of Squares Within (samples)" ou plus rarement SSE pour "Sum of Squared due to Errors".

Indiquons que nous voyons souvent dans la littérature (nous réutiliserons un peu plus loin cette notation):

equation   (7.239)

avec donc l'estimateur sans biais de la variance des observations:

equation   (7.240)

Avant d'aller plus loin, arrêtons-nous sur la variance résiduelle. Nous avons donc pour des échantillons qui ne sont pas de même taille:

equation   (7.241)

Ouvrons maintenant une petite parenthèse... Prenons le cas particulier deux échantillons seulement. Nous pouvons alors écrire:

equation   (7.242)

Soit en introduisant l'estimateur de maximum de vraisemblance de la variance:

equation   (7.243)

Nous pouvons d'ailleurs observer que dans le cas particulier où:

equation   (7.244)

alors:

equation   (7.245)

Donc:

equation   (7.246)

Supposons maintenant que nous souhaitions comparer avec un certain intervalle de confiance la moyenne de deux populations ayant une variance différente pour savoir si elles sont de natures différentes ou non.

Nous connaissons pour le moment deux tests pour vérifier les moyennes. Le test-Z et le test-T. Comme dans l'industrie il est rare que nous ayons le temps de prendre des grands échantillons, concentrons-nous sur le deuxième que nous avions démontré plus haut:

equation   (7.247)

Et rappelons aussi que:

equation   (7.248)

Maintenant rappelons que nous avons démontré que si nous avions deux variables aléatoires de loi:

equation   (7.249)

alors la soustraction (différencier) des moyennes donne:

equation   (7.250)

Donc pour la différence de deux  moyennes de variables aléatoires provenant de deux échantillons de population nous obtenons directement:

equation   (7.251)

Et maintenant l'idée est de prendre l'approximation (sous l'hypothèse que les variances sont égales):

equation   (7.252)

Cette approximation est appelée "hypothèse homoscédastique".

Nous avons alors l'intervalle de confiance:

equation   (7.253)

Comme l'idée est de tester l'égalité des moyennes théoriques à partir des estimateurs connus alors:

equation   (7.254)

avec:

equation   (7.255)

Dans la plupart des logiciels disponibles sur le marché, le résultat est uniquement donné à partir du fait que le equation que nous avons est compris dans le equation correspondant à l'intervalle de confiance donné rappelons-le par:

equation   (7.256)

dans le cas de l'hypothèse homoscédastique (égalité des variances).

Remarque: Cette dernière relation est appelée "independent two-sample T-test", ou "test-T homoscédastique", avec taille des échantillons différentes et variances égales. Souvent dans la littérature, les deux moyennes théoriques sont égales lors de la comparaison. Il s'en suit que nous avons alors:

equation   (7.257)

Sinon, dans le cas plus général de l'hypothèse hétéroscédasticité (non égalité des variances), nous écrivons explicitement :

equation   (7.258)

Donc:

equation   (7.259)

Remarque: La relation antéprécédente est appelée "independent two-sample T-test", ou "test-T hétéroscédastique". Si la taille des échantillons est égale et que les variances le sont aussi et que nous supposons les deux moyennes théoriques sont égales lors de la comparaison, il s'en suit que nous avons alors:

equation   (7.260)

Bref, fermons cette parenthèse et revenons à nos moutons... Nous en étions donc au tableau suivant:

equation   (7.261)

où nous avons donc le cas d'échantillons de même taille:

equation   (7.262)

Ainsi que la variance totale qui est la somme de la variance des moyennes (interclasses) et de la variance résiduelle (intra-classes) et ce que les échantillons soient de même taille ou non:

equation   (7.263)

Effectivement:

equation   (7.264)

Or, nous avons:

equation   (7.265)

car:

equation   (7.266)

Donc:

equation   (7.267)

Sous les hypothèses mentionnées au début (égalité des moyennes entre échantillons) nous avons:

equation   (7.268)

ce qui découle immédiatement de la démonstration que nous avions fait lors de notre étude de l'inférence statistique où nous avions obtenu:

equation   (7.269)

Ce que nous souhaitons faire c'est voir s'il y a une différence entre la variance des moyennes (interclasses) et de la variance résiduelle (intra-classes). Pour comparer deux variances lorsque les moyennes vraies sont inconnues nous avons vu que le mieux était d'utiliser le test de Fisher.

De même, nous avons:

equation   (7.270)

Effectivement, d'abord nous avons:

equation   (7.271)

Donc de par la linéarité de la loi du Khi-deux:

equation   (7.272)

puisque:

equation   (7.273)

et parce que:

equation   (7.274)

Donc pour résumer nous avons:

equation et equation   (7.275)

et puisque equation, nous avons alors:

equation   (7.276)

C'est maintenant qu'intervient la loi de Fisher dans l'hypothèse où les variances sont égales! Puisque:

equation et equation   (7.277)

Or, nous avons démontré dans notre étude de la loi de Fisher un peu plus haut que:

equation   (7.278)

où dans notre cas d'étude:

equation   (7.279)

Indiquons encore que la relation précédente:

equation   (7.280)

et souvent indiquée dans la littérature sous la formation suivante:

equation   (7.281)

où MSK est appelé "Mean Square for treatments" et MSE "Mean Square for Error".

Remarque: S'il y a seulement deux populations, il faut bien comprendre qu'à ce moment l'utilisation du test-T de Student suffit amplement.

Tous les calculs que nous avons fait sont très souvent représentés dans les logiciels sous la forme d'une table standardisée donc voici la forme et le contenu (c'est ainsi que le présente MS Excel ou Minitab par exemple):

Source

Somme des carrés

ddl du equation

Moyenne des carrés

F

Valeur critique F

Inter-Classe

equation

k-1

equation

equation

equation

Intra-Classe

equation

N-k

equation

   

Total

equation

N-1

     
Tableau: 7.1  - Terminologie et paramètres traditionnels d'une ANOVA à un facteur

ainsi, pour que l'hypothèse soit acceptée, il faut que la valeur de:

equation   (7.282)

soit plus petite ou égale à au centile de la même loi F avec une probabilité cumulée à l'intervalle de confiance imposé.

10.2. TEST D'AJUSTEMENT DU KHI-DEUX

Nous allons étudier ici notre premier test d'hypothèse non-paramétrique, un des plus connus certainement et des plus simples.

Supposons qu'une variable statistique suive une loi de probabilité P. Si nous tirons un échantillon dans la population correspondant à cette loi, la distribution observée s'écartera toujours plus ou moins de la distribution théorique, compte tenu des fluctuations d'échantillonnage.

Généralement, nous ne connaissons ni la forme de la loi P, ni la valeur de ses paramètres. C'est la nature du phénomène étudié et l'analyse de la distribution observée qui permettent de choisir une loi susceptible de convenir et d'en estimer les paramètres.

Les écarts entre la loi théorique et la distribution observée peuvent être attribués soit aux fluctuations d'échantillonnage, soit au fait que le phénomène ne suit pas, en réalité, la loi supposée.

En gros, si les écarts sont suffisamment faibles, nous admettrons qu'ils sont imputables aux fluctuations aléatoires et nous accepterons la loi retenue ; au contraire, s'ils sont trop élevés, nous en conclurons qu'ils ne peuvent pas être expliqués par les seules fluctuations et que le phénomène ne suit pas la loi retenue.

Pour évaluer ces écarts et pouvoir prendre une décision, il faut :

1. Définir la mesure de la distance entre distribution empirique et distribution théorique résultant de la loi retenue.

2. Déterminer la loi de probabilité suivie par cette variable aléatoire donnant la distance

3. Énoncer une règle de décision permettant de dire, d'après la distribution observée, si la loi retenue est acceptable ou non.

Nous aurons pour cela besoin du théorème central limite et deuxièmement rappelons que lors lors de la construction de la loi Normale, nous avons montré que la variable:

equation   (7.283)

suivait une loi Normale centrée réduite lorsque n tendait vers l'infini (condition de Laplace).

En pratique, l'approximation est tout à fait acceptable... dans certaines entreprises... lorsque  equation  et equation soit (c'était un des termes qui devait tendre vers zéro quand nous avions fait la démonstration):

equation   (7.284)

Par exemple dans les deux figures ci-dessous où nous avons représenté les lois binomiales approchées par les lois Normales associées, nous avons à gauche equation et à droite equation:

equation
  (7.285)

Rappelons enfin, que nous avons démontré que le sommes des carrées de n variables aléatoires normales centrées réduites linéairement indépendantes suit une loi du khi-deux à n degrés de liberté noté equation.

Considérons maintenant  une variable aléatoire X suivant une fonction de distribution théorique (continue ou discrète) P et tirons un échantillon de taille n dans la population correspondant à cette loi P.

Les n observations seront réparties suivant k modalités (classes de valeurs) C1, C2, ..., Ck, dont les probabilités p1, p2, ..., pk sont déterminées par la fonction de distribution P (se référer à l'exemple de la droite de Henry).

Pour chaque modalité Ci, l'effectif empirique est lui une variable aléatoire ki de loi binomiale:

equation   (7.286)

Cet effectif ki correspond en effet au nombre de succès "résultat égal à la modalité Ci" de probabilité pi, obtenus au cours des n tirages d'un lot expérimental (et non dans la population de la loi théorique comme avant).

Nous avons démontré lors de l'étude de la loi binomiale que son espérance:

equation   (7.287)

représente l'effectif théorique de la modalité Ci et sa variance est:

equation   (7.288)

car pi est relativement petite, ce qui donne  equation qui est assez proche de 1. Son écart-type est donc:

equation   (7.289)

Dans ces conditions, pourvu que la modalité Ci ait un effectif théorique npi au moins égal à 5, l'écart réduit:

equation   (7.290)

entre effectif empirique et effectif théorique peut être approximativement considéré comme une variable normale centrée réduite comme nous l'avons vu plus haut.

Nous définissons alors la variable:

equation   (7.291)

equationest souvent nommée "fréquence expérimentale" et equation "fréquence théorique".

Signalons que cette variable est aussi parfois (un peu malheureusement) notée:

equation    (7.292)

ou le plus souvent:

equation   (7.293)

Cette variable D, somme des carrés des variables Ei, nous donne une mesure de ce que nous pourrions appeler une "distance" ou  "différence" ou "écart" entre distribution empirique et distribution théorique. Notons bien cependant qu'il ne s'agit cependant pas d'une distance au sens mathématique habituel (topologique).

Rappelons que D peut donc aussi s'écrire:

equation   (7.294)

D est donc la somme des carrés de N variables aléatoires normales centrées réduites liées par la seule relation linéaire:

equation   (7.295)

n est donc la taille de l'échantillon. Donc D suit une loi khi-deux mais à N-1 degrés de liberté, donc un degré de moins à cause de l'unique relation linéaire qui les lie! Effectivement, rappelons que le degré de liberté indique le nombre de variables indépendantes dans la somme et non pas juste le nombre de termes sommés.

Donc:

equation   (7.296)

Nous appelons ce test un "test non-paramétrique du khi-2" ou "test du khi-2 de Pearson" ou encore "test d'ajustement du khi-2" ou encore "test de Karl Pearson".

Ensuite, l'habitude est de déterminer la valeur de la loi du khi-deux à N-1 degrés de liberté ayant 5% de probabilité d'être dépassée. Donc dans l'hypothèse où le phénomène étudié suit la loi théorique P, il y a donc 95% de probabilité cumulée que la variable D prenne une valeur inférieur à celle donnée par la loi du khi-deux.

Si la valeur de la loi du khi-deux obtenu à partir de l'échantillon prélevé est inférieure à celle correspondant aux 95% de probabilité cumulée, nous acceptons l'hypothèse selon laquelle le phénomène suit la loi P.

Remarques:

R1.  Le fait que l'hypothèse de la loi P soit acceptée ne signifie pas pour autant que cette hypothèse soit vraie, mais simplement que les informations données par l'échantillon ne permettent pas de la rejeter. De même, le fait que l'hypothèse de la loi P soit rejetée ne signifie pas nécessairement que cette hypothèse soit fausse mais que les informations données par l'échantillon conduisent plutôt à conclure à l'inadéquation d'une telle loi.

R2. Pour que la variable D suive une loi du khi-deux, il est nécessaire que les effectifs théoriques npi des différentes modalités Ci soient au moins égaux à 5, que l'échantillon soit tiré au hasard (pas d'autocorrélation) et qu'aucune des probabilités pi soit trop proche de zéro.


page suivante : 11. Calculs d'erreurs