Test Little pour données manquantes MCAR
Le test Little pour données MCAR, permet d’évaluer la nature des données manquantes d’une base de données. Il nous indique de manière formelle si les données sont manquantes d’une manière complètement aléatoire, MCAR ou pas. Les données MCAR de « Missing Completely At Random » sont moins problèmatiques lors d’une analyse statistique car elles introduisent moins de biais. Dans la suite de cet article nous expliquerons pourquoi et comment tester les données manquantes avec le test Little pour valider les résultats d’une étude.
Pourquoi est-ce important un test des données manquantes MCAR?
Les données manquantes d’une base de données menacent l’integrité et la validité des résultats d’une analyse statistique. Voir notre article sur les types de données manquantes et leurs traitements.
Il est donc essentiel, si des données manquantes existent, de connaitre leur nature afin de déterminer la méthode la plus appropriée pour leurs traitements. Selon le type de ces données, la gestion et la complexité de traitement différents énormément. Dans le cas des données MCAR, un simple remplacement des valeurs absentes par des paramètres descriptifs suffit. Par contre des méthodes avancées sont nécessaires pour la gestion des données MNAR. Ce traitement est important pour réaliser une analyse statistique correcte et ainsi valider les résultats de l’étude.
Principe de fonctionnement du test Little
Le test Little est une méthode statistique qui évalue si les données manquantes sont complètement aléatoires (MCAR). Le test examine les motifs de données manquantes en utilisant un test du Khi-deux.
Il compare les moyennes des variables dans plusieurs sous-groupes de données complètes et incomplètes, pour voir si ces moyennes diffèrent de manière significative.
En d’autres termes, il teste l’hypothèse nulle selon laquelle les données manquantes sont MCAR.
– Si le test de Little donne un résultat non significatif (p > 0,05), cela signifie qu’il n’y a pas de différence significative entre les sous-groupes de données complètes et incomplètes, et les données manquantes peuvent donc être considérées comme MCAR.– Si le test est significatif (p ≤ 0,05), cela signifie qu’il y a une différence significative, et donc les données manquantes ne sont probablement pas complètement aléatoires.
Réalisation du test de Little pour MCAR
A l’aide d’un exemple de jeu de données, nous expliquerons le mode de fonctionnement et les différentes étapes de calcul du test de Little. Ce qui nous permettra de savoir si les données manquantes sont de type MCAR.
Exemple: étude sur les habitudes alimentaires
Lors d’une étude sur les habitudes alimentaires d’une population, 12 participants ont répondus à des questions relatives à leur âge, le nombre de repas équilibrés par semaine et le nombre d’heures d’exercice par semaine.
Certains participants n’ont pas répondu.
Nous voulons savoir si ces données manquantes sont complètement aléatoires, c’est à dire de type MCAR. Pour cela nous allons réaliser le test de Little étape par étape.
Hypothèses du test de Little pour données MCAR
Hypothèse nulle (H₀) : Les données manquantes sont MCAR .
Cela signifie que la probabilité de manquer une valeur est indépendante des variables mesurées ou non mesurées.
Hypothèse alternative (H₁) : Les données ne sont pas MCAR (elles sont MAR ou MNAR).
Le test compare les valeurs référencées et attendues pour vérifier si les motifs des données manquantes diffèrent significativement d’une distribution MCAR.
Si le résultat est significatif (p < 0,05), on rejette l’hypothèse nulle, ce qui indique que les données ne sont pas MCAR .
Etapes du test de Little pour MCAR
Première étape, identification des motifs des valeurs manquantes. Nous allons construire un motif pour chaque schéma spécifique de données observées et manquantes. C’est à dire pour chaque participant (ligne d’observation), nous attribuons un motif selon si toutes les données sont présentes pour toutes les variables, ou absentes pour certaines variables.
Par exemple dans l’exemple le motif 111, toutes les valeurs de toutes les variables âge, Repas équilibré et Heures d’exercice sont complètement observées.
Pour le motif 101, les valeurs de l’âge et du repas équilibré sont présentes mais il manque le nombre de repas équilibrés.
Le motif 110, les valeurs du nombre d’heures d’exercice sont manquantes.
Et enfin pour le motif 100, seules les valeurs « âge » sont présentes. Les valeurs des deux autres variables manquent.
Une fois tous les motifs sont définis, nous calculons leurs fréquences d’apparition. Par exemple pour le Motif 111, complètement observé il existe 6 occurrences.
Calcul des moyennes et variances globales
En deuxième étape, nous calculerons pour chaque variable du questionnaire les moyennes et les variances globales sur toutes les données enregistrées.
Calcul des moyennes conditionnelles selon les motifs
Pour calculez la moyenne conditionnelle de chaque variable par motif, nous utilisons uniquement les données référencées pour ce motif. Par exemple :
– Pour le motif 111 : La moyenne conditionnelle des heures d’exercice est de (3+4+5+6+3+4)/6 = 4.17.
– Pour le motif 110 « Repas équilibrés », la moyenne conditionnelle des Repas équilibrés est égale à (6 + 5 + 5) / 3 = 5.33.
Nous Répétons ces calculs pour chaque motif et chaque variable
Calcul de la valeur du Test de Little pour MCAR
La troizième étape consite à comparerer les moyennes avec le test Little.
Ce test compare les moyennes conditionnelles (par motif) à la moyenne globale de la variable concernée. En d’autre terme, il calcule les écarts entre les moyennes des sous-groupes (définies par les motifs de données manquantes) et la moyenne globale des données enregistrées. Ces écarts sont évalués avec une statistique de Chi-carré ou Khi-deux.
Valeur du Test de Little
Avec le degrè de liberté dll = Nombre de motif – 1
et
j est le nombre de motif j
k est la variable k
n(j) est le nombre d’observations pour le motif j
x(j,k) est la moyenne conditionnelle pour le motif j de la variable k
𝑥ˉk est la moyenne générale de la variable k
S(k) est la variance générale de la variable k
Pour simplifier la compréhension, nous calculons la Valeur du Khi-deux pour chaque variable séparément. Ensuite nous ferons la somme des variances pour obtenir la valeur du test de Little.
Pour tous les calculs nous avons utilisé MS Excel. Les différentes étapes sont exposées dans la tableau ci-dessous.
Calcul de la Valeur du Khi-deux pour chaque variable
Le test de chi-carré est calculé pour chaque variable suivant la formule ci-dessous.
Remarque sur le test de Khi-deux
Le test de Khi-deux est souvent associé à l’analyse des fréquences dans des tableaux de contingence pour des données qualitatives. Cependant, dans le contexte du test de Little, le X² est utilisé de manière différente. Dans le test de Little, le X² est utilisé pour évaluer la cohérence statistique entre les moyennes conditionnelles des variables enregistrées dans chaque motif de données manquantes et leurs moyennes globales (calculées sur toutes les observations disponibles). Même si les moyennes proviennent de données quantitatives, elles sont comparées dans une logique d’ajustement similaire à celle du Khi-deux classique pour les fréquences.Résultats
Nous avons obtenu les valeur de Khi-deux (X²) pour âge=4.45, Repas équilibre=0.86 et Heures d’exercice = 2.54.
La valeur du test de Little est égale à la somme des différentes valeur de X² et elle esdt égale = 7.85 avec dll = 4-1 =3.
La recherche de la p-value dans la table de Khi-deux donne la valeur p=0.05.
Interprétation
Avec p=0,059 nous ne rejetons pas l’hypothèse nulle au seuil de 0.05. Cela signifie que les données sont compatibles avec le mécanisme MCAR. Les données manquent complètement de manière aléatoire.En conclusion pour cet exemple
Les données manquantes de ce jeu de données sont de type MCAR. Elle peuvent êtres gérées de manière très simple. Nous pouvons les remplacer par des valeurs moyennes ou médianes. Soit les supprimer, sans introduire de biais dans l’analyse statistique.Conclusions
Utiliser le test de Little, particulièrement utile pour vérifier l’hypothèse MCAR avant de décider des méthodes de traitement des données manquantes.
Si les données ne sont pas MCAR, des approches comme l’imputation multiple (MAR) ou des modèles plus complexes (MNAR) doivent être utilisées. Si les données sont MCAR, des méthodes simples comme la suppression de lignes ou l’imputation par la moyenne peuvent suffire.
Le test de Little ne différencie pas entre les MAR et MNAR et il permet juste de rejeter ou accepter l’hypothèse des données MCAR.
Il peut aussi manquer de puissance pour de petits échantillons.
Enfin, une fois que vous avez compris l’utilité, le principe et les étapes de calcul du test de Little pour MCAR, il est tout à fait possible de le réaliser sur un logiciel de statistique comme IBM SPSS.