Grands échantillons
Comparaison de deux moyennes observées
(1) cas des grands échantillons :
et
On admet qu'un échantillon est grand quand son effectif
est supérieur ou égal à 30 ; ceci est partiellement arbitraire.
Dans ce cas (
), alors la moyenne
suit une loi de Gauss. Cela signifie que si l'on pouvait faire un nombre infini d'échantillons dans la même population, alors l'histogramme des moyennes de cette infinité d'échantillons aurait la forme d'une loi normale.
Si on connait la distribution théorique des données dans la population dont on extrait les échantillons, on peut préciser les caractéristiques de la loi de Gauss qui caractérise la moyenne des échantillons : sa moyenne sera
et l'écart-type de la moyenne (= erreur-standard)
.
Pour la différence de deux moyennes, on a le même résultat dans chaque groupe, soit :
Pour la différence de ces deux moyennes, un résultat similaire s'applique : si il n'y a pas de différence entre les deux groupes, et si on connait la distribution des valeurs dans la population (constituée des deux populations d'intérêt qui sont en fait identiques sous l'hypothèse d'absence de différence), alors la loi de la différence des moyennes suit une loi de Gauss dont les paramètres sont :
Ceci est vrai seulement si les deux échantillons sont indépendants.
La plupart du temps, les
ne sont pas connues
Comme
et
sont grands, on peut remplacer
et
par leurs valeurs observées
et
(bonne approximation)
alors, sous l'hypothèse d'égalité des variances :
Il y a ici deux approximations de nature différente :
la distribution de
par une loi normale
celle de la valeur de
par
Pour un test bilatéral :
si
on accepte
: absence de différence
si
on conclut
: différence des moyennes
Et pour un test unitaléral :
pour
alors rejet de
si
pour
alors rejet de
si
En pratique : on calcule la valeur de
(voir formule plus haut et exemple plus loin) et on la compare à la valeur de référence de la loi normale pour le
consentie. En général
et
.
Application
Exemple : Somnifères
Deux traitements
et
(
), comparés sur la durée de sommeil
on observe
,
,
et
,
formulation unilatérale
et
(
= 1,645), donc différence non significative
donc
, l'absence de différence est ici retenue et on conclut que l'on ne met pas en évidence de différence entre les deux traitements (remarque : on n'affirme pas l'égalité des moyennes)
0,39 h = 23 mn : gain non négligeable mais insuffisant pour montrer la supériorité de A sur un placebo avec les effectifs considérés