Données manquantes MCAR, MAR et MNAR
Les données manquantes sont en général un réel problème lors d’une analyse statistique. Si elles sont très nombreuses et définies comme non aléatoires, ces données manquantes peuvent affecter la significativité et la validité des résultats de l’étude. Nous verrons ci-dessous les différents types des données manquantes MCAR, MAR et les MNAR, les problèmes statistiques liés à leur présence ainsi que leurs traitements selon leur type.
CONTENUS
Problèmes liés aux données manquantes
Dans une base de données, des valeurs ou des observations peuvent être absentes pour certains sujets. Les causes de leur absence peuvent être très variées. Globalement elles sont manquantes soit par ommission de saisie de certaines informations, ou le plus souvent par négligence non intentionnelle. Dans tous les cas, quand le nombre des données manquantes est important, leur présence peut compromette les résultats d’une analyse statistique.
Tout d’abord, les données manquantes réduisent la taille de l’échantillon à analyser, ce qui diminue la puissance statistique et par ailleurs biaise l’estimation des paramètres statistiques.
Deuxièmement, les données manquantes rendent les résultats d’une étude inexploitables ou erronés. En effet, si elles créent un déséquilibre entre les groupes à comparer, elles introduisent des erreurs de comparabilité avec une sous-estimation ou une surestimation des groupes. Donc des mauvaises évaluations avec des erreurs de p-values et donc des résultats erronées.
En plus, les données manquantes compliquent les analyses avancées en multivariées, car certaines observations peuvent être exclues en raison des valeurs manquantes dans une ou plusieurs variables.
Dans tous ces cas, les données manquantes compromettent la validité et la fiabilité des conclusions tirés de l’analyse statistique.
Les différents types de données manquantes
Comme mentionné précédemment, les données peuvent être manquantes pour plusieurs raisons. Le plus souvent elles sont manquantes dans toute une base de données d’une manière aléatoire par manque d’information non intentionnelle. Mais il arrive, que certaines données manquent par omission de saisie de certaines informations très spècifiques d’une carractèristique ou d’une vatriable étudiée. Dans ce dernier cas, se sont des données manquantes non aléatoires problèmatiques impactant les résultats statistiques. Cependant, les données manquantes complètement aléatoire ou MCAR ne sont influencées ni par leurs propres valeurs manquantes ni par d’autres variables observées. Ce sont des données facilement gérables lors d’une analyse statistique.
Avec l’exemple ci-dessous, nous présenterons mieux les différents types de données manquantes, alétoires et non aléatoires.
Exemple de données aléatoires et non aléatoires
Lors d’une étude nous voulons savoir si les revenus des salariés dependent de leurs niveaux d’étude. Les participants à l’enquête remplissent un questionnaire détaillé sur leur niveau d’études (lycée, licence, master, doctorat), le salaire annuel brut, la fonction, le secteur d’activité., … etc.
Après saisie, des données manquantes sont observées. Trois raisons justifient cette absence de données :
– Premier cas : des erreurs de saisie dans le formulaire informatique ont effacé une partie des données. Ces données manquantes sont réparties aléatoirement pour l’ensemble des participants et pour les variables étudiées.
– Deuxième cas : Des participants âgés n’ont pas répondu à la question relatif aux « Niveau d’étude » (car les anciens salariés ont été embauchés avec un niveau d’étude bas, mais ayant évolué grâce à la formation continue, ne savent pas quoi répondre). La variable observée pour ce cas est « l’âge ».
– Dans un troisième cas, les salariés les mieux payés n’ont pas répondu à la question relatif aux revenus. Ces informations très spécifiques de la carractèristique « Tranche salaire élevé » sont manquantes pour la variables « Revenus ».
Quelle différence entre ces trois types de données ?
En un mot, la raison de l’absence d’une partie des données définie le type de données manquantes.
Dans le premier cas, les données manquent d’une manière aléatoire. Elles ne dépendent ni d’une variable observée « âge » ni de certaines caractéristiques « tranche de revenu élevé ». Les réponses restantes sont un échantillon représentatif de tous les salariés et restent tout à fait exploitables. Se sont des données manquantes complètement aléatoires MCAR de Missing Completely At Random.
Dans le deuxième cas, les données manquantes sont liés à la variable observée « âge », car certains participants jugent qu’ils ne peuvent pas répondre à cette question. Se sont des données manquantes MAR
(Missing At Random).
Et enfin le troisième cas présente des données manquantes très spécifiques lièes à la carractèristique « tranche de salaire élevés ». Les données sont directement liées à la tranche de salaires élevés dependant du critère d’étude « revenu » et aux valeurs manquantes elles-mêmes. Se sont donc des données manquantes MNAR (Missing Not At Random). Ces derniere ont un impact important sur les résultats de l’étude.
Définitions des MCAR, MAR et MNAR
Données manquantes aléatoires MAR (Missing At Random)
Les données manquantes MAR sont définies comme dépendentes d’autres variables observées, mais pas de la caractéristique étudiée et des valeurs manquantes elles-mêmes.
Dans l’exelpme précedent, Les participants les plus agés (caractéristique mesurée est l’âge) ont tendance à sauter la question sur leur niveau d’étude à l’embauche car ont évolué par la formation continue ou l’évolution de carrière. Dans ce cas, des résultat manquent pour une tranche d’âge qui est une variable observée. Le problème dans ce cas est si nous ne prenons pas en compte la variable « âge » lors de l’analyse, les résultats peuvent être biaisés. Par exemple, niveau d’étude des salariés dans la population pourrait être surestimée.
Données manquantes complètement aléatoires MCAR (Missing completely At Random)
Se sont des données manquantes de manière totalement hasardeuse pour des raisons totalement indépendantes des participants ou de leurs caractéristiques comme l’âge, le sexe, le revenu, etc. Pour ce type de données, la probabilité qu’une donnée soit manquante ne dépend ni des valeurs d’une autre variable observée, ni des valeurs manquantes elles-mêmes. Il est possible de supprimer les observations contenant des valeurs manquantes sans introduire de biais
significatif dans les résultats
Les données manquantes sont donc complètement aléatoires et les données présentes restent un échantillon
représentatif et totalement exploitables.
Données manquantes non aléatoires MNAR (Missing Not At Random)
Ce type de données manquantes dépendent directement de la variable de l’étude et donc des valeurs manquantes elles-mêmes. C’est-à-dire la valeur de la variable manquante est liée à la raison pour laquelle elle est manquante.
Dans l’exemple ci-dessus, les participants les mieux payés, ne répondent pas à la question relatif aux revenus élevés par gène. Les données manquantes sont directement liées aux revenus élevés (une variable étudiée).
Ce type de données est le plus problématique car il introduit un biais important d’estimation statistique. Si nous analysons les données sans tenir compte de ce phénomène, les salaires seront largement sous-estimés, les hauts revenus sont absents.
Gestion des données MCAR, MAR et MNAR
Selon que les données manquantes, soit complètement aléatoires (MCAR), aléatoires (MAR, Missing At Random), ou non aléatoires (MNAR, Missing Not At Random), la manière dont on gère ces valeurs manquantes aura un impact majeur sur les analyses statistiques et les conclusions.
Les données MCAR sont celles qui introduisent le moins de biais et elles sont simples à traiter ou à remplacer. Encore faut il les reconnaitre dans une base de données.
Le test Little, permet d’affirmer de manière formelle si les données manquantes d’une base de données sont MCAR ou pas.
Les méthodes de gestion ou d’imputation des données manquantes citées ci-dessous, sont des méthodes simples et ne permettent pas dans plusieurs cas de corriger la représentativité de l’échantillon. Des méthodes avancées plus robustes doivent être utiliser pour remedier à ce problème
Gestion des données MCAR
Aucune gestion
Si les MCAR ne sont pas très importantes, il est tout à fait possible de réaliser l’analyse sans biais sans les supprimer. Par exemple dans une base de données, 10 % des réponses sont manquantes de manière complètement aléatoire, les 90 % restantes restent un sous-échantillon aléatoire représentatifs de la population
Suppression des observations (listwise deletion)
Il est aussi possible (si pas très importantes) de supprimer les observations (listwise deletion) contenant des valeurs manquantes sans introduire de biais significatif dans les résultats. Le faite de supprimler une observation, n’a pas d’effet sur les valeurs des variables analysées. Par contre cette méthode, presente l’inconvenient de réduire la taille de l’échantillon et introduit un biais si les données ne sont pas MCAR.
Imputation par la moyenne, la médiane, le mode ou le ratio
Ceci revient à remplacer les valeurs manquantes par une valeur fixe d’un paramètre descriptif de la variable concernée.
Cette méthode pourtant simple réduit la variabilité des données et introduit des biais dans les analyses.
Attribution de la dernière valeur observée
Lorsque des données sont recueillies de manière répetitive chez les sujets, par exemple en fonction du temps, une valeur manquante à un temps t peut être remplacée par la dernière valeur observée chez ce même sujet. Cette méthode présente l’inconvénient de perte d’information en fonction du temps.
Méthodes basées sur des méthode de régression
L’imputation par la méthode de régression (linéaire ou logistique) permet de prédire la valeur manquante en fonction des autres variables observées. Cette méthode utilisant les relations existantes n’est applicable que si les variables ont des relations linéaires ou logistiques entre elles.
Méthode k-Nearest Neighbors (k-NN)
Cette méthode remplace une valeur manquante par une moyenne ou une médiane des k observations les plus proches (sur la base des autres variables).
Son avantage c’est qu’elle tient compte des similarités entre les individus. Par contre, elle est complexe pour des jeux de données volumineux et peut être sensible aux valeurs aberrantes.
Analyse par maximum de vraisemblance (ML)
Pour cette méthode, nous estimons directement les paramètres du modèle statistique sans imputer les données manquantes. Ele permet de fournir des estimations non biaisées pour les données MCAR et MAR.
Gestion des données MAR et MNAR
Lorsque les données manquantes dépendent d’autres variables observées (MAR) ou de valeurs non observées (MNAR), ignorer ces valeurs peut fausser les résultats. Par exemple, si des valeurs de revenu manquent surtout pour les hauts revenus, l’estimation de la moyenne de revenu sera biaisée.
Avec des données MAR, des méthodes beaucoup plus sophistiquées comme l’imputation multiple ou les modèles basés sur les équations d’estimation généralisées (GEE) sont préférables. Ces dernières tiennent compte de l’information contenue dans les autres variables pour combler les données manquantes.
Dans le cas de données MNAR, il est souvent nécessaire de modéliser spécifiquement le processus de données manquantes, ce qui nécessite des hypothèses fortes et des méthodes avancées comme les modèles de sélection ou de sensibilité.
Conclusion
Les données manquantes biaisées peuvent conduire à des interprétations erronées. Par exemple, si les données des historiques médicales manquent chez les patients gravement malades, une analyse naïve pourrait sous-estimer la prévalence de certaines conditions médicales. Comprendre la nature des données manquantes permet de prendre des précautions dans l’interprétation et d’ajuster les modèles pour des résultats plus fiables.
Connaitre la nature des données manquantes permet de aussi de choisir la méthode de traitement la plus appropriée pour garantir des analyses valides et représentatifs. Le test Little, permet de tester de manière formelle si les données manquantes sont de type MCAR ou non.Reste à savoir que le meilleur moyen de gérer les données manquantes est de prévenir leurs apparitions au moment de la collecte des données.