VARIABLES STATISTIQUES

Pour bien comprendre les bases en statistiques et faire une analyse correcte des vos données, il est important de connaitre les Variables statistiques ainsi que les mesures de celle là ou les observations. Les critères ou les facteurs mesurés lors d’une étude sont des variables. Les valeurs de mesure de ces facteurs chez les sujets sont des observations. 

Reconnaitre donc la nature de ces critères est primordial en statistique car tous les calculs et les types d’analyse à réaliser en dépendent. Les différents paramètres descriptifs à calculer ainsi que le choix du test statistique à appliquer dépendent de la nature de vos critères dans l’étude (les Variables statistiques). Le type de test statistique dépend en grande partie du type de la variable de l’étude. 

Les Tableaux statistiques

Avant de commencer avec les variables statistiques pour décrire leurs différents types, nous allons parler rapidement des tableaux et des bases de données. Il est impossible de parler des statistiques sans aborder le sujets des bases de données. 

Il n’est jamais inutile de rappeler l’importance de la base de données lors d’une analyse statistique. La qualité d’une analyse passe par la qualité des ses données. Pour avoir des résultats significatifs et probants, il faut bien travailler et structurer sa base de données. Pour rappel :

  • Des données suffisantes, exploitables,  pertinentes pour l’étude et de qualité, donnent des résultats exactes et des conclusions concluantes. 
  • Peu de données, données manquantes, aberrantes, manque d’exactitude et de précision ont un impact sur les résultats et donc sur les conclusions.

Il est en plus plus facile et moins couteux de refaire une analyse statistique que de ressaisir les données. Car refaire une étude est plus complexe et plus couteux. 

La Qualité d’une étude et la solidité des preuves scientifiques qu’elle procure passent par la qualité de ses données.

Le Tableau des données Excel

Pour être analyser, une base de données doit être dans un format informatisé. Pour cela, toute donnée recueillie, que ça soit par un logiciel spécialisé de Data Management ou saisie à la main, doit être enregistrée dans un tableau de données et de préférence dans un format MS. Excel.

Le format d’un tableau Excel est tout d’abord facile à comprendre et à manipuler, facilement et généralement accessible. Mais en outre il est reconnu et accepté par quasi la totalité des logiciels de statistiques.

Cependant, bien que les logiciels statistiques préfèrent le format des données Excel, il est tout de même important que ces tableaux aient la bonne structure, les variables en colonne et les observations ou unités statistiques en lignes. 

Ceux-ci permet aux logiciels de statistiques de comprendre l’ensemble des données, de les importer, puis de les transformer à leur propre format pour être pouvoir les analyser. 

Structure d’un tableau de données

Sans pour autant rentrer dans les détails des exigences des logiciels des statistiques, il y a tout de même certaines normes à respecter dans le format des données pour que les logiciels puissent reconnaitre et analyser l’ensemble de la base. Autrement se sont des données erronées et manquantes qui vont être analyser et produiront des résultats faux et incomplets.

Pour citer un exemple très courant, c’est celui des séparateurs des valeurs décimales par un point au lieu d’une virgule ou quelques fois les deux au sein d’une même base de données.

Pour résumer, il est tous de même primordial de bien nettoyer, homogénéiser et corriger les erreurs de saisies dans une base de données. Veiller à bien gérer les données aberrantes et manquantes pour une analyse bien menée et sans erreurs.

En dernier point concernant les tableaux de données Excel:

Il faut bien attribuer des N° d’identification aux sujets (ou les patients) avant de les anonymiser (supprimer des données personnelles). Il s’avère très utile pour pouvoir identifier des observations aberrantes, manquantes et extrêmes ou en cas de besoin. 

A  propos des données personnelles, es noms permettant d’identifier les sujets, la loi est très claire à ce sujet. Les données à caractère personnelle sont encadrées par une réglementation stricte et une obligation de déclaration auprès du CNIL

Les différentes natures des variables statistiques

Pour commencer à se familiariser avec la notion de variable, prenant l’exemple d’un critère étudié qui a été mesuré dans un échantillon de plusieurs sujets. Chaque sujet a sa valeur propre pour ce critère, c’est ce que l’on appelle une observation ou unité statistiques. Ces valeurs ou observations sont saisies et alignées dans une colonne du tableau de données Excel.

Ce critère dont le nom est représenté dans l’entête de la colonne du tableau est une variable en statistique. Tous les facteurs dont les mesures sont enregistrés dans la base de données et qui font l’objet de l’étude sont les variables de cette étude.

A ce propos et avant de passer à détailler les types de variables, un tableau de données Excel contient deux types d’information ou de de variables :

  • Les Variables d’identification des unités comme par exemple le N° de sujet ou N° d’identification, le groupe de traitement, les temps de mesure ou les visites.
  • Variables de l’étude qui sont les paramètres mesurées par besoins de les comparer ou les expliquer comme le taux de glycémie, score de douleur, Guérison, endurance.
  • Variables ou facteurs d’information telle que l’âge, le sexe, les antécédents médicaux.

Enfin dans une base de données, une feuille glossaire peut accompagner la table de données. Elle a pour but de donner des informations très utiles sur les variables abrégées, leurs unités de mesure, les observations ou  le codage des données manquantes ou aberrantes.

Par définition une variable est une caractéristique, un facteur, un paramètre susceptible de prendre une valeur différente selon les individus ou observation (Le poids, la taille, sexe, la couleur des cheveux, score de douleur).

Structure d'une base de données Excel

Les Types de Variables statistiques

Les variables sont classées en deux grands groupes Variables quantitatives sont caractérisées par des valeurs numériques tel que poids ou la taille. Variables qualitatives : les valeurs sont des qualités non numériques (le sexe, la couleur des yeux) ou des valeurs numériques réparties en classes. (classes d’âge entre [0,18 [ ou ]18, 40]). Dans ce derniers cas le nombre de valeurs est limité.

Variables quantitatives

Parmi les Variables quantitatives, nous avons dit qu’elles sont caractérisées par des valeurs numériques. Il y a les:

Variables Continues:

La variable continue peut prendre une infinité de valeurs. Comme par exemple le poids de 56,3kg ou le  taux de cholestérol de 2,45 g/l.

Variables Discrètes:

Cette variable a un nombre limité de valeurs. Ex. Nombre d’enfant dans une famille (0, 1 , 2, 5), le score clinique (0 à 5), les notes d’une classe.

Variables Temporaires

Celle là est une mesure de temps qui peut être une durée ou un instant dans le temps.

Durée d’incubation d’une maladie (3jours), Nombre de semaines de grossesse. Ou une date de naissance, la date de l’entorse, le jour de visite.

Variables qualitatives

En ce qui concerne les variables qualitatives, comme son nom l’indique les valeurs prises sont des qualités ou des valeurs numériques réparties en classe (exemple classe de l’IMC <25, 25-30 , >30), elle sont aussi réparties en :

Variables Ordinales :

Les observations de cette variable sont ordonnées selon une échelle de valeurs. exemple. niveau d’étude (primaire, secondaire, supérieur) , Score subjective (mauvais, moyen, bon); classes d’âge ordonné ([0-18[, [18-40[, [40-60[).

Variables Nominales ou Catégorielles

Les observations sont des qualités et ne sont pas hiérarchisées. Elles sont nommées mais pas ordonnées. Les variables nominales sont souvent des données texte. Les groupes sanguin (A, B, AB et O); le sexe (H, F); le Groupe de Traitement et le Contrôle.

Enfin les variables Binaires ou Dichotomiques :
Elles sont particulièrement utilisées en épidémiologie mais pas que. Elles sont aussi appelées Variables Booléennes et dont  les observations ne peuvent prendre que deux valeurs. Vrais et faux ; malade et sain ; vivant et décédé ; cas et témoin; Présent et absent. Les valeurs son codées 0 et 1.

En résumé

Tout critère d’évaluation d’une étude, ainsi que les facteurs jouant un rôle dans cette évaluation (l’âge ou le sexe par exemple) sont des variables statistiques. La nature de chacune de ces variables détermine le type  l’analyse à appliquer et le choix du test statistique Il en est de même pour le calcul du Nombre de Sujet Nécessaire.  A titre d’exemple, pour comparer entre variables quantitatives, le test T de Student ou une ANOVA est à appliquer. Par contre pour étudier une variables qualitatives, nous utilisons le test de Khi-2 ou Chi- carré