TYPES DE VARIABLES




COURS DE STATISTIQUES


1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs

Lorsque nous avons parlé des échantillons au début de ce chapitre, nous avons fait mention de deux types d'informations : les variables quantitatives et qualitatives. Nous n'avons cependant pas précisé qu'il existait trois types de variables quantitatives très importantes qu'il convient absolument de différencier :

1. Les variables discrètes (par comptage): Sont analysées avec des loi stastistiques basées un domaine de définition dénombrable toujours strictement positif (loi de Poisson typiquement dans l'industrie). Sont quasiment toujours représentées sous forme graphique par des histogrammes.

2. Les variables continues (par mesure): Sont analysées avec des loi stastistiques basées un domaine de définition non dénombrable strictement positif ou pouvant prendre toute valeur positive ou négative (loi Normale typiquement dans l'industrie). Sont également quasiment toujours représentées sous forme graphique par des histogrammes avec des intervalles de classe.

3. Les variables par attribut (de classification): Il ne s'agit pas de données numériques mais de données qualitatives de type {Oui, Non}, {Réussi, Échec}, {A temp, En retard}, etc. Les données de type attribut suivent une loi Binômiale.

Comprendre les différents types de données est une disciples important de l'ingénieur parce que cela a des conséquences importantes sur le type d'analyse, les outils et et technique qui seront employées.

Il y a une question fréquente concernant la collecte de données est de savoir la quantité qui devrait être collecter. Au fait cela dépend du niveau de précision souhaité. Nous verrons beaucoup plus loin dans ce chapitre (avec démonstration) comment déterminer mathématiquement la quantité de données à collecter en faisant de la précision souhaitée pour un process Normal.

Voyons de près de quoi il s'agit car maintenant que le concept de moyenne nous est relativement bien connu, nous allons pouvoir aborder des calculs plus formels et qui prendront tout leur sens.

VARIABLES DISCRÈTES

Soit X un variable indépendante (un élément d'un échantillon dont la propriété est indépendante des autres éléments) qui peut prendre les valeurs aléatoires discrètes equation dans equation avec les probabilités respectives equation où, de par l'axiomatique des probabilités: 

equation   (7.76)

Alors nous définissons "l'espérance mathématique" de la variable X par la relation:

equation   (7.77)

appelée aussi "règle des parties".

En d'autres termes, nous savons qu'à chaque événement de l'espace des échantillons est associé une probabilité à laquelle nous associons également une valeur (donnée par la variable aléatoire). La question étant alors de savoir quelle valeur, à long terme, nous pouvons obtenir. La valeur espérée, (l'espérance mathématique donc...) est alors la moyenne pondérée, par la probabilité, de toutes les valeurs des événements de l'espace des échantillons.

Si la probabilité est donnée par une fonction de distribution (voir les définitions des fonctions de distribution plus bas) de la variable aléatoire, nous avons:

equation   (7.78)

Remarques:

R1. equation peut être notée equation s'il n'y pas de confusion possible.

R2. Si nous considérons chaque valeur equation comme les composantes d'un vecteur equation et chaque probabilité (ou pondération) equation comme les composantes d'un vecteur equation alors nous pouvons écrire l'espérance de manière technique sous la forme d'un produit scalaire souvent noté:

equation   (7.79)

Voici les propriétés mathématiques les plus importantes de l'espérance pour toute variable aléatoire (quelque soit sa loi!) ou pour toute série de variables aléatoires et que nous utiliserons souvent tout au long de ce chapitre:

P1. Multiplication par une constante:

equation   (7.80)

P2. Somme de deux variables aléatoires:

equation   (7.81)

où nous avons utilisé dans la 4ème ligne, la propriété vue dans le chapitre de Probabilités:

equation

Nous en déduisons que pour n variables aléatoires equation, définies sur une même loi de distribution:

equation   (7.82)

P3. Espérance d'une constante:

equation   (7.83)

Après avoir traduit la tendance par l'espérance, il est intéressant de traduire la dispersion ou "déviation standard" autour de l'espérance par une valeur appelée "variance de X", notée V(X) ou equation (lire "sigma-deux") et donnée sous sa forme discrète par:

equation   (7.84)

La variance n'est cependant pas comparable directement à la moyenne, car l'unité de la variance est le carré de l'unité de la variable, ce qui découle directement de sa définition. Pour que l'indicateur de dispersion puisse être comparé aux paramètres de tendance centrale (moyenne, médiane et... mode), il suffit d'en prendre la racine carrée.

Par commodité, nous définissons ainsi "l'écart-type" de X, noté equation, par:

equation   (7.85)

L'écart-type est donc la moyenne quadratique des écarts entre les observations et leur moyenne.

Remarques:

R1. L'écart-type equation de la variable aléatoire X peut être noté equation s'il n'y pas de confusion possible.

R2. L'écart-type et la variance sont, dans la littérature, souvent appelés "paramètres de dispersion" à l'opposé de la moyenne, mode et médiane qui sont appelés des "paramètres de position".

Définition: Le rapport equation (exprimé en %) parfois utilisé dans les entreprises comme comparaison de la moyenne et de l'écart-type est appelée le "coefficient de variation" (C.V.).

Pourquoi trouvons-nous un carré (réciproquement une racine) dans cette définition de la variance? La raison intuitive est simple (la rigoureuse l'est nettement moins...). Nous avons démontré plus haut que la somme des écarts à la moyenne pondéré par les effectifs, est toujours nulle :

equation   (7.86)

Or, si nous assimilons les effectifs par la probabilité en normalisant ceux-ci par rapport à n, nous tombons sur une relation qui est la même que la variance à la différence que le terme entre parenthèse n'est pas au carré. Et nous voyons alors immédiatement le problème... la mesure de dispersion serait toujours nulle d'où la nécessité de porter cela au carré.

Nous pourrions imaginer cependant d'utiliser la valeur absolue des écarts à la moyenne, mais pour un certain nombre de raisons que nous verrons plus loin lors de notre étude des estimateurs le choix de porter au carré intervient s'impose assez naturellement.

Signalons cependant quand même l'utilisation courante dans l'industrie de l'écart-moyen:

equation

qui est un indicateur élémentaire très utilisé lorsque nous ne souhaitons pas faire de l'inférence statistique sur une série de mesures. Cet écart peut être facilement calculé dans MS Excel à l'aide de la fonction ECART.MOYEN( ).

Dans le cas où nous avons à disposition une série de mesures, nous pouvons estimer la valeur expérimentale de la moyenne (l'espérance) et de la variance des mesures par les estimateurs suivants (il s'agit simplement au fait de l'espérance et l'écart-type d'un échantillon dont les événements sont tous équiprobables) dont la notation est particulière :

equation et equation   (7.87)

Démonstration:

equation   (7.88)

equationC.Q.F.D.

Le terme de la somme se trouvant dans l'expression de la variance (écart-type) est appelée "somme des carrés des écarts à la moyenne". Nous l'appelons aussi la "somme des carrés totale", ou encore la "variation totale" dans le cadre de l'étude de l'ANOVA (voir la fin de ce chapitre).

Remarque: Il est important que le lecteur comprenne que dans ce cas l'espérance se calcule simplement en utilisant la moyenne arithmétique!

La variance peut également s'écrire sous la forme de la "formule de Huyghens" que nous réutiliserons plusieurs fois par la suite. Voyons de quoi il s'agit:

equation   (7.89)

Faisons maintenant un petitr crochet relativement à un scénario fréquent générateur d'erreurs dans les entreprises lorsque plusieurs séries statistiques sont manipulées (cas très fréquent dans l'industrie ainsi que dans les assurances ou la finance).

Considérons deux séries statistiques portant sur le même caractère:

- equation, effectif total n, moyenne equation, écart-type equation

- equation, effectif total m, moyenne equation, écart-type equation

Nous noterons equation la série statistique obtenue en regroupant les deux séries. Nous avons alors:

equation   (7.90)

Donc la moyenne des moyennes n'est pas égale à la moyenne globale (première erreur fréquente dans les entreprises) exceptée si les deux séries statistiques ont le même nombre d'effectifs!!!

Concernant l'écart-type, rappelons d'abord que nous avons:

equation   (7.91)

Pour la suite, rappelons que nous avons démontré précédemment la relation de Huyghens:

equation   (7.92)

Il vient alors:

equation
  (7.93)

Donc nous voyons que l'écart-type global n'est pas égal à la somme des écarts-types (deuxième erreur courante dans les entreprises) excepté si les effectifs et les moyennes sont les mêmes dans les deux séries!!!

Considérons maintenant X une variable aléatoire d'espérance equation (valeur constante et déterminée) et de variance equation (valeur constante et déterminée), nous définissons la "variable centrée réduite" par la relation:

equation   (7.94)

et l'on démontre de façon très simple (contactez-nous si vous souhaitez que nous ajoutions la démonstration) en utilisant la propriété de linéarité de l'espérance et la propriété de multiplication par un scalaire de la variance (voir de suite après) que:

equation   (7.95)

Démonstration:

equation   (7.96)

et en utilisant la formule de Huyghens:

equation   (7.97)

equationC.Q.F.D.

Ainsi, toute répartition statistique définie par une moyenne et un écart-type peut être transformée en une autre distribution statistique souvent plus simple à analyser.

Voici quelques propriétés mathématiques importantes de la variance :

P1. Multiplication par une constante :

equation   (7.98)

P2. Somme de deux variables aléatoires:

equation   (7.99)

où nous introduisons le concept de "covariance" dont nous verrons une expression plus commode un peu plus bas.

Introduisons une forme plus générale et extrêmement importante dans de nombreux domaines:

equation   (7.100)

Donc dans le cas général:

equation   (7.101)

En utilisant la linéarité de l'espérance et le fait que:

equation   (7.102)

nous avons pour la covariance :

equation   (7.103)

et donc nous obtenons la relation très utilisée en statistiques et finance appelée "formule de la covariance"... :

equation   (7.104)

Indiquons également que si equation, nous retrouvons la formule de Huyghens:

equation   (7.105)

Ainsi, le terme de covariance equation est défini par l'expression:

equation   (7.106)

appelée "forme bilinéaire de la variance" ou "forme multivariée".

Remarque: Les statistiques peuvent être découpées selon le nombre de variables aléatoires que nous étudions. Ainsi, lorsqu'une seule variable aléatoire est étudiée, nous parlons de "statistique univariée", pour deux variables aléatoires de "statistique bivariée" et en général, de "statistique multivariée".

Si la covariance est univariée, nous avons dès lors: 

equation   (7.107)

Si et seulement si les variables sont équiprobables, nous la retrouvons la covariance dans la littérature sous la forme suivante qui découle de calculs que nous avons déjà fait ultérieurement avec l'espérance :

equation   (7.108)

La covariance est un indicateur de la variation simultanée de X et Y. En effet si, en général X et Y croissent simultanément, les produits equation seront positifs (corrélés positivement), tandis que si Y décroît lorsque X croît, ces même produits seront négatifs (corrélés négativement).

Soit equationun vecteur de composantes equation et equation un autre vecteur de composantes equation, tous deux étant des variables aléatoires, le calcul de la covariance des composantes deux à deux donnent ce que l'on appelle la "matrice des covariances" (outil très utilisé en finance et dans la gestion en général!).

Effectivement, si nous notons: 

equation   (7.109)

Nous pouvons dès lors écrire une matrice symétrique (le plus souvent dans la pratique elle est carrée) sous la forme:

equation   (7.110)

Cette matrice a comme propriété remarquable que si nous prenons deux vecteurs identiques (dont les composantes sont les mêmes variables aléatoires) et que nous calculons la matrice, alors la diagonale de cette dernière donnera les variances des composantes de vecteurs (voir les exemples dans le chapitre d'économétrie)! Raisons pour laquelle cette matrice est souvent appelée "matrices des variances-covariances".

Remarque: Cette matrice est très importante et nous la retrouverons fréquemment dans le chapitre d'Économétrie lors de notre étude da la théorie du portefeuille et dans les techniques de fouille de données (data mining, clustering) dans le chapitre de Méthodes numériques (l'analyse par composantes principales).

Rappelons maintenant que nous avions un axiome en probabilités (cf. chapitre de Probabilités) qui énonçait que deux événements A,B sont indépendants si :

equation   (7.111)

De la même façon, par extension, nous définissons l'indépendance des variables aléatoires discrètes.

Définition: Soit X,Y deux variables aléatoires discrètes. Nous disons que X, Y sont indépendantes si :

equation   (7.112)

Plus généralement, les variables discrètes equation sont indépendantes (en bloc) si :

equation.  (7.113)

L'indépendance de deux variables aléatoires implique que leur covariance est nulle (la réciproque est fausse!). Prouvons ceci dans le cas où les variables aléatoires ne prennent qu'un nombre fini de valeurs equation et equation respectivement, avec I, J des ensembles finis :

equation   (7.114)

et donc :

equation   (7.115)

Remarque: Donc plus la covariance est faible, plus les séries sont indépendantes. A l'inverse, plus la covariance est élevée, plus les séries sont liées.

Etant donné que :

equation   (7.116)

si X, Y sont indépendantes alors equation:

equation   (7.117)

De manière plus générale si equation sont indépendantes (en bloc) alors pour toute loi statistique (!) nous avons:

equation   (7.118)

Souvent en statistique, il est utile de déterminer l'écart-type de la moyenne empirique (ou en d'autres termes... : l'erreur quadratique moyenne). Voyons de quoi il s'agit :

Soit la moyenne d'une série de termes déterminés chacun par la mesure de plusieurs valeurs (il s'agit au fait de son estimateur dans un cas particulier comme nous le verrons beaucoup plus loin): 

equation    (7.119)

alors en utilisant les propriétés de l'espérance:

equation   (7.120)

et si toutes les variables aléatoires sont identiquement distribuées et indépendantes nous avons alors:

equation   (7.121)

Pour la variance, le même raisonnement s'applique:

equation   (7.122)

et si les variables aléatoires sont toutes identiquement distribuées:

equation   (7.123)

d'où l'écart-type de la moyenne appelé aussi "erreur-type", "erreur-standard" ou encore "variation non systématique":

equation   (7.124)

et il s'agit rigoureusement de l'écart-type de l'estimateur de la moyenne (c'est peut-être plus clair ainsi)!

Cette relation se trouve dans de nombreux logiciels dont dans les graphiques MS Excel (mais il n'y a pas de fonction intégrée), écrite avec l'écart-type (comme ci-dessus), soit avec la notation de la variance (suffit de mettre au carré...).

Signalons que la dernière relation peut-être utilisée même si la moyenne des n variables aléatoires n'est pas identique! La condition suffisante étant juste que les écarts-types soient tous égaux et c'est le cas de l'industrie (production).

Nous avons donc:

equation   (7.125)

equation désigne la somme des n variables aléatoires et equation leur moyenne.

La variable centrée réduite que nous avions introduite plus haut:

equation   (7.126)

peut alors s'écrire de plusieurs manières:

equation   (7.127)

Par ailleurs, en supposant que le lecteur sait déjà ce qu'est une loi normale equation, nous démontrerons plus loin en détails car c'est extrêmement important (!) que la loi de probabilité de la variable aléatoire equation, moyenne de n variables aléatoires identiquement distribuées et linéairement indépendantes, est alors la loi:

equation   (7.128)

Maintenant, considérons X et Y deux variables aléatoires ayant pour covariance:

equation   (7.129)

Nous avons:

equation   (7.130)

nous allons démontrer cette relation immédiatement car l'utilisation de la covariance seule pour l'analyse des données n'est pas géniale car elle n'est pas à proprement parler bornée et simple d'usage (au niveau de l'interprétation). Nous allons donc construire un indicateur plus facile d'usage en entreprise.

Démonstration:

Choisissons une constante a quelconque et calculons la variance de :

equation   (7.131)

Nous pouvons alors immédiatement écrire à l'aide des propriétés de la variance et de l'espérance:

equation   (7.132)

La quantité de droite est positive et nulle en tout a par construction de la variance (de gauche). Donc le discriminant de l'expression, vue comme un trinôme en a du type:

equation   (7.133)

Donc pour que P(a) soit positif pour tout a nous avons comme seule possibilité que:

equation   (7.134)

Soit après simplification:

equation   (7.135)

equationC.Q.F.D.

Ce qui nous donne:

equation   (7.136)

Finalement nous obtenons une forme de l'inégalité statistique dite "inégalité de Cauchy-Schwarz" :

equation   (7.137)

Si les variances de X et Y sont non nulles, la corrélation entre X et Y est définie par le "coefficient de corrélation linéaire" :

equation   (7.138)

ce qui peut aussi s'écrire sous forme développée (en utilisant la formule de Huyghens) :

equation   (7.139)

ou encore plus condensée :

equation   (7.140)

Quels que soient l'unité et les ordres de grandeur, le coefficient de corrélation est un nombre sans unité, compris entre -1 et 1. Il traduit la plus ou moins grande dépendance linéaire de X et Y et ou, géométriquement, le plus ou moins grand aplatissement. Un coefficient de corrélation nul ou proche de 0 signifie qu'il n'y a pas de relation linéaire entre les caractères. Mais il n'entraîne aucune notion d'indépendance plus générale.

Quand le coefficient de corrélation est proche de 1 ou -1, les caractères sont dits fortement corrélés. Il faut prendre garde à la confusion fréquente entre corrélation et causalité. Cependant, que deux phénomènes soient corrélés n'implique en aucune façon que l'un soit cause de l'autre.

Ainsi:

- Si equation nous avons affaire à une corrélation négative dite "corrélation négative parfaite" (tous les points de mesures sont situés sur une droite de régression de pente négative).

- Si equation nous avons affaire à une corrélation négative ou positive dite "corrélation imparfaite" ou la relation linéaire sera respectivement décroissante ou croissante.

- Si equation la corrélation est nulle... (pas de relation linéaire).

- Si equation nous avons affaire à une corrélation positive dite "corrélation positive parfaite" (tous les points de mesures sont situés sur une droite de régression de pente positive).

L'analyse de régression et de corrélation poursuit donc deux objectifs:

1. Déterminer le degré d'association entre les différentes variables: celui-ci est exprimé par le coefficient de détermination, qui est le carré du coefficient de corrélation. Le coefficient de détermination mesure la contribution d'une des variables à l'explication de la seconde.

2. Déterminer les caractéristiques de cette association, c'est-à-dire des paramètres equation et equation de la droite de régression (voir la section d'analyse numérique du site au chapitre des algorithmes traitant de la régression linéaire). Si l'on peut faire valablement l'hypothèse de la stabilité du processus générateur des couples de valeurs des deux variables, la connaissance de ces paramètres permettrait de prédire le comportement du phénomène étudié

En utilisant les expressions de la moyenne et de l'écart-type de variables équiprobables tel que démontré plus haut, nous passons de :

equation   (7.141)

à :

equation   (7.142)

où nous voyons que la covariance devient alors la moyenne des produits moins le produit des moyennes.

Soit après simplification :

equation   (7.143)

et peut être calculé dans MS Excel avec entre autres la fonction COEFFICIENT.CORRELATION( ).

Remarques:

R1. Dans la littérature le coefficient de corrélation est souvent appelée "coefficient d'échantillonnage de Pearson" (dans le cas équiprobable) ou "test de Bravais-Pearson" (dans le cas non équiprobable) et lorsque nous le portons au carré, nous parlons alors de "coefficient de détermination".

R2. Souvent le carré de ce coefficient est un peu abusivement interprété comme le % de variation expliqué de la variable étudiée Y par la variable explicative X.

Enfin, à noter que nous avons donc la relation suivante qui est énormément utilisée dans la pratique (voir le chapitre d'Économétrie pour des exemples fameux!):

equation   (7.144)

ou sa version avec l'écart-type:

equation   (7.145)

exempleExemple:

Une compagnie aérienne a à sa disposition 120 sièges qu'elle réserve pour des passagers en correspondance venant de deux autres vols arrivés un peu plus tôt dans la journée et en partance pour Francfort. Le premier vol arrive de Manille et le nombre de passagers à son bord suit une loi Normale de moyenne 50 et de variance 169. Le second vol arrive de Taïpei et le nombre de passagers à son bord suit une loi Normale de moyenne 45 et de variance 196.

Le coefficient de corrélation linéaire entre le nombre de passagers des deux vols est de:

equation   (7.146)

La loi que suit le nombre de passagers pour Francfort si nous supposons que la loi du couple suit elle aussi une loi Normale est (nous utilisons la propriété de stabilité de la loi Normale qui sera démontrée plus loin):

equation   (7.147)

avec:

equation   (7.148)

et:

equation   (7.149)

ce qui donne:

equation   (7.150)

3.2. VARIABLES CONTINUES

Définitions:

D1. Nous disons que X est une variable continue si sa "fonction de répartition" est continue. La fonction de répartition de X étant définie par:

equation   (7.151)

soit la probabilité cumulée que la variable aléatoire X soit plus petite ou égale à la valeur x fixée. Nous avons aussi bien évidemment equation.

D2. Si de plus la fonction de répartition F de X est continûment dérivable de dérivée equation appelée "fonction de densité" ou "fonction de masse" ou encore "fonction de distribution" alors nous disons que X est absolument continue et dans ce cas nous avons:

equation   (7.152)

avec la condition de normalisation:

equation   (7.153)

Toute fonction de distribution de probabilité doit satisfaire l'intégrale de normalisation dans son domaine de définition!

Remarque: Il est intéressant de remarquer que la définition amène à ce que la probabilité qu'une variable aléatoire totalement continue prenne une valeur donnée est nulle! Donc ce n'est pas parce qu'un événement à une probabilité nulle qu'il ne peut arriver!!!

La moyenne ayant été définie par la somme pour une variable discrète, elle devient une intégrale pour une variable continue:

equation   (7.154)

et la variance s'écrit donc :

equation   (7.155)

Nous avons alors aussi la médiane qui est logiquement redéfinie dans le cas d'une variable aléatoire continue par:

equation   (7.156)

et elle coïncide rarement avec la moyenne!

Souvent les statisticiens utilisent les mêmes notations pour l'espérance mathématique d'une variable continue:

  equation   (7.157)

et pour la variance:

equation   (7.158)

que pour une variable discrète.

Par la suite, nous calculerons ces différents termes avec développements uniquement dans les cas les plus usités.


page suivante : 4. Fonctions de distributions