Nature et enregistrement des données
Le choix des informations à recueillir (et de la forme sous laquelle elles doivent être recueillies) est très important. On distingue habituellement deux grandes familles de variables : les variables quantitatives et les variables qualitatives.
Variables quantitatives
Les variables quantitatives sont des variables pouvant se traduire par des valeurs numériques ; pour chaque individu, la valeur d'une variable quantitative représente une quantité. La taille, le poids, la glycémie, la pression artérielle, la fréquence cardiaque, le nombre d'enfants sont autant de variables quantitatives. Une variable quantitative peut être continue ou discontinue.
Les variables quantitatives discontinues (ou discrètes) correspondent aux données de dénombrement ; les résultats s'expriment donc sous la forme d'un entier positif (ou nul). Il s'agit par exemple du nombre d'enfants.
Les variables quantitatives continues correspondent à des données issues de mesures, comme par exemple la taille, le poids, la pression artérielle, la glycémie, etc. Les variables quantitatives continues posent le problème du choix de l'unité de mesure (par exemple : taille en cm ou en m ?), mais surtout le problème de la précision (ou plus exactement de l'imprécision) de la mesure. En réalité, une variable par nature continue est toujours mesurée de manière discontinue du fait de la nécessité d'arrondir les résultats en fonction de l'imprécision des outils de mesure.
Variables qualitatives
Les variables qualitatives sont des variables caractérisant l'appartenance de l'individu à un groupe (ou une catégorie). Une variable qualitative est donc codée avec des classes mutuellement exclusives (chaque individu ne peut appartenir qu'à une seule catégorie).
Les variables qualitatives nominales, sont des variables qualitatives dont les catégories ne peuvent pas être ordonnées. Il s'agit par exemple du sexe, de la catégorie professionnelle, du diagnostic des maladies (maladie cardiaque, rénale, psychiatrique...), les groupes sanguins.
Les variables qualitatives ordinales (ou variables semi-quantitatives) sont des variables qualitatives qui peuvent être ordonnées. Par exemple, le niveau de satisfaction en 5 classes allant de « très insatisfait » à « très satisfait », la protéinurie mesurée à la bandelette urinaire de 0 à +++ sont des variables qualitatives ordinales. Il est possible d'utiliser une autre approche, telle que des échelles analogiques visuelles comme l'échelle de la douleur, qui permettent alors d'obtenir une valeur, ici des « cm », entre deux affirmations extrêmes comme « pas de douleur » et « douleur intolérable » ; on a alors affaire à une variable quantitative.
A noter que l'on peut aisément transformer une variable quantitative en une variable qualitative en construisant des classes (par exemple : transformer la variable âge en une variable classes d'âge). Cette transformation s'accompagne cependant d'une perte d'information, raison pour laquelle il vaudra toujours mieux recueillir les variables sous forme quantitative (l'âge de chaque individu) plutôt que de recueillir l'information sous forme qualitative (la classe d'âge dans laquelle se trouve chaque individu).
Les variables qualitatives les plus simples sont les variables qualitatives binaires (ou dichotomiques) qui ne comptent que deux modalités ; c'est le cas par exemple pour le sexe, ou pour le codage de la plupart des états pathologiques (présence ou absence de la maladie).
Les variables qualitatives sont donc décrites en termes de dénombrement (fréquence absolue de chaque modalité) et de pourcentages (fréquences relatives).
Recueil et traitement des données
Une fois établie la liste des variables à recueillir, reste à définir la méthodologie à suivre pour effectuer le recueil. Tout doit être si possible planifié et prévu à l'avance : circonstances de recueil, méthode de recueil (questionnaire papier ou informatique, auto-questionnaire, questionnaire téléphonique ou en présence d'un enquêteur, etc.). Une attention toute particulière devra être portée, lors de la création du questionnaire comme lors du recueil des données, à la problématique des données manquantes. Une question mal posée ou indiscrète pourra en effet entraîner un nombre important de non-réponses, ce qui en compliquera l'analyse et surtout pourra induire des biais.
Une fois les données recueillies (le plus souvent sous la forme d'un questionnaire papier), il faut créer une base de données informatique. Lors de cette étape de saisie, un certain nombre de contrôles pourront (devront) être mis en place. Au terme de l'étape de saisie, la qualité des données sera contrôlée, certaines variables pourront ensuite être crées (par exemple : calcul de l'Indice de Masse Corporelle à partir du poids et de la taille) et d'autre modifiées (transformation de variables quantitatives en variables qualitatives) en fonction des besoins. L'utilisation d'un questionnaire informatisé (web-questionnaire) permet d'envisager dès la saisie des données des contrôles intra-champ (taille comprise entre 1,50m et 2,50m chez l'adulte) et inter-champs (incompatibilité entre homme et antécédent de cancer de l'utérus).