Individus, population, échantillon
Compte tenu de l'existence d'une variabilité inter-individus, on se trouve logiquement dans l'impossibilité de porter des conclusions « généralisables » sur la base d'une seule observation. Idéalement, lorsque l'on s'intéresse à un phénomène dans une certaine population (ce qui est le plus souvent le cas dans le domaine de la santé), il semblerait intéressant de recueillir les informations nécessaires sur l'ensemble de la population concernée ; on parle alors d'étude exhaustive, ou de recensement. Il est cependant souvent difficile, pour des raisons organisationnelles, ou plus souvent financière et parfois éthiques, de travailler au niveau d'une population entière. Il faut alors travailler sur une partie de la population, que l'on appelle échantillon. Il n'est d'ailleurs pas toujours souhaitable ou nécessaire d'étudier la population entière, un échantillon pouvant apporter une information suffisante.
La première étape d'une étude est de définir l'unité de base étudiée (« l'individu statistique ») et la population cible. En santé humaine, l'unité de base sera souvent le patient ou la personne, mais il peut en être autrement ; cela peut être le séjour hospitalier lorsque l'on s'intéresse aux hospitalisations, ou encore une unité géographique (la commune, le département) lorsque l'on s'intéresse à la répartition spatiale d'un phénomène, etc. Le choix de la population cible est également particulièrement important ; de ce choix dépendra la portée des résultats obtenus. Par exemple, il est possible dans une étude portant sur le cancer du sein, d'étudier tous les patients atteints d'un cancer du sein, très rare chez l'homme, ou de restreindre l'étude uniquement aux patients de sexe féminin. Dans ces deux cas, les conclusions n'auront pas la même portée : il sera impossible de généraliser les résultats à l'ensemble des patients atteints d'un cancer du sein si seules les femmes ont été prises en compte dans l'étude.
La seconde étape correspond à la constitution de l'échantillon qui sera étudié ; il faut bien entendu pour construire un échantillon savoir quelle est l'unité statistique et quelle est la population cible. L'échantillonnage étant aléatoire, il introduit une variabilité qui sera gérée par les méthodes statistiques.
La constitution de l'échantillon est particulièrement importante. Imaginons une enquête visant à évaluer le niveau de revenus des ménages d'une commune : l'individu statistique est le ménage, la population cible est l'ensemble des ménages de la commune concernée. Ne pouvant interroger l'ensemble des ménages de la commune, l'enquêteur n'interrogera qu'un échantillon de ces ménages, en espérant pouvoir généraliser ce qu'il aura observé dans les ménages interrogés à l'ensemble des ménages de la commune. Si l'enquêteur n'interroge que des ménages domiciliés au centre ville, qu'apporteront les résultats de cette étude alors que les quartiers défavorisés n'auront pas été visités ? Il existe ici un biais évident.
Différentes techniques d'échantillonnage peuvent être utilisées. La technique fondamentale correspond à l'échantillonnage aléatoire simple, c'est-à-dire un échantillonnage par tirage au sort. Dans notre exemple, l'enquêteur devrait tirer au sort les ménages à interroger dans la liste exhaustive des ménages de la commune. On voit ici un des impératifs de tout échantillonnage : il faut disposer d'une « base d'échantillonnage » ou « base de sondage ».
Quel qu'il soit, un choix systématique risque toujours d'interférer avec un facteur systématique, que ce facteur soit connu ou inconnu. Le hasard permet de minimiser ce risque. On parle d'échantillon représentatif lorsque tous les individus de la population étudiée ont la même probabilité d'être dans l'échantillon ; on ne peut généraliser les résultats obtenus sur un échantillon à la population dont il est issu que si cet échantillon est représentatif de la population cible.
Le tirage au sort permet le plus souvent d'obtenir un échantillon représentatif de la population dont il est issu. Cependant, le hasard amène une source de variabilité. Dans un jeu de pile ou face, la probabilité a priori d'obtenir pile est de 50%, et celle d'obtenir face de 50% également ; sur une infinité de lancers, la proportion de pile ou de face sera donc de 50%. Mais sur un nombre limité de lancers (un échantillon), on peut être amené à observer une répartition légèrement différente de ce que l'on attend en raison de la variabilité liée à l'aléatoire. Il en est de même lors d'un échantillonnage par tirage au sort : la valeur observée dans l'échantillon est probablement proche de la valeur réelle dans la population, mais pas forcément strictement égale à celle-ci. En général, plus l'échantillon est de taille importante, plus l'estimation sera précise et proche de ce qui se passe dans la population. La taille de l'échantillon doit autant que possible être prévue dès début de l'étude ; elle dépend d'une part de la précision souhaitée, et d'autre part de la variabilité du phénomène étudié.
Outre l'échantillonnage aléatoire simple (obtenu par tirage au sort, noté TAS), d'autres stratégies d'échantillonnage plus ou moins complexes existent : échantillonnage stratifié, échantillonnage en grappes, méthode des quotas (très utilisé dans les sondages d'opinion), etc. Dans tous les cas, un échantillonnage nécessite l'existence d'une base de sondage.