Coefficient de corrélation Intraclasse ICC pour évaluer la fiabilité

Coefficient de Corrélation Intraclasse ICC

Le Coefficient de Corrélation Intraclasse , Intraclass Correlation Coefficient ou ICC en anglais, est une mesure statistique permettant d’évaluer la fiabilité entre évaluateurs. Ce coefficient est calculé pour indiquer le degré de concordance des mesures répétées réalisées sur un même individu par plusieurs évaluateurs ou instruments. Le ICC est généralement déterminé lorsque les mesures sont à échelle quantitative ou semi-quantitative. Il est aussi un indicateur de la répétabilité ou la reproductibilité des mesures réalisées par un même instrument ou un même évaluateur.

Sommaire

Principe du coefficient de corrélation Intraclasse ICC

Il est essentiel qu’avant de pouvoir utiliser des mesures d’évaluation ou des instruments de mesure à des fins d’applications cliniques ou de recherche, d’établir leur fiabilité. La fiabilité se réfère à la capacité des mesures à être reproduites avec précision. En d’autres termes, elle évalue non seulement la corrélation entre les mesures, mais aussi leur cohérence ou leur concordance.

L’ICC permet donc de mesurer le degré de similitude entre ces observations qui doivent être dépendantes ou appariées. C’est-à-dire prises de manière répétée chez le même sujet. Elles doivent être aussi d’ordre quantitative.
L’ICC, comme tout coefficient (Pearson ou Spearman) est compris entre 0 et 1. Un ICC proche de 1 indique une forte concordance entre les mesures, ce qui suggère une grande fiabilité entre évaluateurs. En revanche, un ICC proche de 0 indique une faible concordance et une faible fiabilité entre évaluateurs.
Cependant, il existe plusieurs types ou formes d’ICC, chacun adapté au contexte spécifique de l’étude et ses applications. Ceci dit, il faut bien choisir le type d’ICC adapté aux objectifs de l’étude, des caractéristiques des données et des hypothèses sous-jacentes sur les évaluations à tester. La différence entre les différents types réside principalement dans la façon dont ils modélisent et évaluent la concordance ou la cohérence entre les mesures.

Les différents types d’ICC

Les différents types d’ICC existants se différenties principalement selon le contexte de l’étude de fiabilité et les caractéristiques des données. Il y a trois grands groupes d’étude de fiabilité. Pour chacune d’elle un coefficient de corrélation intraclasse correspondant peut être calculer. La principale différence entre les types d’ICC réside dans la manière dont ils modélisent les sources de variance, la nature des mesures évaluées et l’interprétation des résultats.

Les types d’ICC selon le type d’étude de fiabilité

Nous pouvons distinguer trois grands types selon les objectifs de l’étude et les mesures

Fiabilité inter-évaluateurs (Inter-rater reliability en anglais)

Pour ce type d’étude, nous voulons évaluer le degré de concordance entre plusieurs évaluateurs qui mesurent la même quantité dans le même groupe de sujets. l’ICC calculé nous indique dans quelle mesure les évaluateurs sont d’accord dans leurs évaluations. Plus précisément, l’ICC évalue la proportion de la variance attribuable aux différences entre les évaluateurs par rapport à la variance totale. Cette dernière comprend également la variance due aux différences entre les sujets évalués.
Prenons l’exemple d’une étude portant sur l’évaluation de la douleur postopératoire. La douleur est un paramètre très subjectif, il est crucial d’évaluer ce paramètre sans biais et ainsi assurer des soins de qualité aux patients. Pour cela, trois professionnels formés mesurent chez le même groupe de patients récrément opérés, l’intensité de la douleur à l’aide de l’échelle visuelle analogique (EVA). Chaque patient aura donc trois mesures EVA, chacune d’elle correspond à un professionnel différent.
Suite à cela, nous comparons les résultats des trois professionnels pour mesurer leur degré de concordance. Ensuite nous procéderons au calcul du coefficient de corrélation intraclasse (ICC) pour l’ensemble des patients. Sa valeur permet de mesurer la cohérence entre les évaluations des différents professionnels. Si par exemple la valeur ICC est de 0,90, cela indiquerait une forte concordance entre leurs évaluations. Ce qui suggère une fiabilité inter-évaluateurs élevée. En d’autres termes, les professionnels sont cohérents dans leurs évaluations de la douleur des patients. Dans le contexte de l’étude de Fiabilité inter-évaluateurs, l’ICC calculé est de type ICC(2,1).

Fiabilité test-retest

Lors de cette étude, nous voulons mesurer la stabilité ou la reproductibilité d’une évaluation ou d’une mesure prise dans des conditions identiques, par exemple, lors d’une période de temps donnée. Dans ce cas nous évaluons la fiabilité d’un instrument ou d’un évaluateur en mesurant la concordance entre deux séries de mesures, réalisées dans les mêmes conditions, sur le même groupe de sujets, mais à des moments différents.

La méthode test-retest fonctionne généralement par différentes mesures.

Une première mesure (Test) est réalisée sur tous les sujets de l’échantillon pour la première fois. Après une période d’attente, le même évaluateur ou instrument réalise une deuxième mesure (Retest) sur les mêmes sujets et dans les mêmes conditions. Ensuite, nous pouvons calculer le coefficient de corrélation intraclasse ICC pour évaluer la fiabilité test-retest. Il est aussi possible de calculer le coefficient de corrélation de Pearson, pour mesurer cette reproductibilité.
Une fiabilité test-retest élevée indique une cohérence que l’instrument ou l’évaluation est stable dans le temps et produit des résultats fiables et reproductibles. Cependant, des facteurs inducteurs de biais, tels que la variabilité naturelle des mesures, les changements réels dans la condition des sujets et les effets de la mémoire peuvent affecter la fiabilité test-retest. Par conséquent, il est important de prendre en compte ces facteurs lors de l’interprétation des résultats de la fiabilité test-retest.
Le calcul de l’ICC utilise généralement le modèle adapté aux mesures répétées effectuées par les mêmes évaluateurs sur les mêmes sujets à deux moments différents. La variance entre les sujets représente la variation des moyennes des mesures entre les différents sujets (Voir Calcul de l’ICC).

La fiabilité intra-évaluateur (Intra-rater reliability en anglais)

Comme son nom l’indique, la fiabilité intra-évaluateur mesure la cohérence des évaluations effectuées par un même évaluateur. Elle est utilisée pour évaluer la constance des scores ou des mesures similaires réalisées par un évaluateur à plusieurs reprises.

Par exemple, lors d’une étude clinique évaluant la gravité des symptômes d’une maladie chez des patients à l’aide de scores de gravité. Le clinicien effectue une première série de scores de gravité sur l’ensemble des patients de l’échantillon. Puis, une deuxième évaluation est réalisée dans les mêmes conditions, mais après une période d’attente. Une période d’attente est nécessaire pour minimiser les biais d’évaluation, par exemple les effets de la mémoire. Nous pouvons ensuite calculer le Coefficient de Concordance Intraclasse ICC de la fiabilité intra-évaluateur.
Une fiabilité intra-évaluateur élevée indique que l’évaluateur est cohérent dans ses mesures. Il donne des résultats similaires lorsqu’il évalue les sujets à différents moments. Cependant, des facteurs tels que la fatigue, les variations dans l’interprétation des critères d’évaluation ou les changements dans l’état des sujets, peuvent influencer la fiabilité intra-évaluateur. Il est donc important de prendre en compte ces facteurs lors de l’interprétation des résultats de la fiabilité intra-évaluateur. Le modèle d’ICC doit être généralement adapté aux mesures répétées sur les mêmes sujets à deux moments différents.

Calcul du Coefficient de Corrélation Intraclasse ICC

La formule de calcul de l’ICC est commune pour tous les types d’ICC. La différence réside principalement dans la prise en considération de la variance entre les groupes. La variance entre les groupes représente la variation des moyennes des mesures entre les différents groupes, que ce soit des groupes d’évaluateurs, des groupes de sujets ou des groupes de temps.

Formune générale

ICC évalue la proportion de la variance totale des mesures qui est attribuable à la variance entre les sujets (évaluateurs ou mesures) par rapport à la variance totale. Cette dernière mesure à la fois la variance entre les sujets (inter-sujet) et la variance à l’intérieur des sujets (variance résiduelle).

σ² entre-sujets est la variance entre les sujets. C’est la variance des moyennes des évaluations pour chaque sujet.
σ² erreur est la variance due à l’erreur de mesure.
σ² entre-sujets + σ² erreur est la variance totale des mesures.

Nous pouvons utiliser la formule standard de calcul de la variance, en fonction des types de mesures que nous avons effectué et les hypothèses de notre modèle statistique. Une fois que nous avons ces valeurs de variance, nous pouvons les utiliser dans la formule de l’ICC pour obtenir une mesure de la fiabilité intra-évaluateur ou inter-évaluateur.

Calculs des différents types de ICC

Pour évaluer la fiabilité intra-évaluateur, nous devons utiliser le modèle d’ICC pour mesures répétées. Et calculer la variance entre les mesures répétées par le même évaluateur (σ² entre-sujets) par rapport à la variance totale (σ² entre-sujets + σ² erreur).
Dans le cas de l’évaluation de la fiabilité test-retest, le modèle d’ICC est à mesures répétées à différents temps de mesures. Nous utiliserons la variance entre les mesures prises à différents moments par rapport à la variance totale.
Enfin, nous utiliserons un ICC à mesures uniques pour évaluer la fiabilité inter-évaluateurs. Dans ce cas, nous calculerons donc la variance entre les évaluateurs par rapport à la variance totale.

Calcul de l’ICC(2,1) pour évaluer la faisabilité inter-évaluateur (Inter-rater )

En résumé, en adaptant la formule de l’ICC en fonction du contexte spécifique de l’étude, nous pouvons obtenir une mesure de la fiabilité qui est pertinente et appropriée pour les objectifs fixés par la recherche.

Koo et Li (2016) expliquent en détail les différents types ou modèles d’ICC selon les objectifs de l’étude de fiabilité et la structure des données. Ils donnent des indications très précises sur le choix de l’ICC et son interprétation.

Interprétation du Coefficient de Corrélation Intraclasse ICC

La valeur ICC obtenu est standard quelque soit le modèle d’ICC mentionné. Cette valeur varie de 0 à 1.
Un ICC proche de 1 indique une forte concordance entre les évaluateurs ou les mesures. Ceci suggère une bonne fiabilité inter-évaluateur. En revanche, un ICC proche de 0 indique une faible concordance. Ce qui indique des divergences significatives entre les évaluateurs. Toujours selon les indications de Koo et Li (2016) :

Une valeur ICC en dessous de 0,50 a un faible degrès de faisabilité
Entre 0,50 et 0,75 , la faisabilité est moyenne
Entre 0,75 et 0,90, le degré de faisabilité est bon
Enfin, au-dessus de 0,90, la faisabilité est excellente.

Classification des types d’ICC selon la nature des données

En complément des trois grands types d’ICC classés selon le type d’étude de Faisabilité, d’autres type d’ICC sont décrits en fonction de la nature des mesures réalisées :

ICC à mesure unique, lorsqu’une seule mesure est prise sur chaque sujet ou objet. C’est e type d’ICC est également connu sous le nom d’ICC de cohérence.
ICC à effet aléatoire à deux voies, c’est le cas ou chaque sujet présente plusieurs mesures prises par plusieurs évaluateurs. Ce ICC mesure l’accord entre évaluateurs, c’est un ICC d’accord.
ICC à effet mixte : utilisée lorsque plusieurs mesures sont effectuées sur chaque sujet ou objet et qu’il y a à la fois plusieurs évaluateurs et plusieurs sujets. Cest un ICC de mesure moyenne.

Choix du type d’ICC

IL est à noter que le calcul des différentes formes d’ICC sur la même base de données donnent des résultats tout à fait différents. Il est donc crucial de choisir le type d’ICC selon la structure des données et du désigne de l’étude. Koo and Li 2016 définissent les types d’ICC en fonction des critères suivants:

Le type de Modèle : Modèle d’ICC adapté à la structure de la base de données permettant de construire le modèle d’analyse. Selon des modèles à effets aléatoires à un facteur, à effets aléatoires à deux facteurs ou effets fixes à deux facteurs.

L’unité de mesure : est-elle basée sur un évaluateur unique ou une moyenne de k évaluateurs.

Le type de relation considéré comme important : cohérence (consistency en anglais) ou accord absolu (absolute agreement).

La détermination de l’ICC implique l’utilisation de modèles d’analyse de variance à effets fixes ou mixtes. Se sont donc des méthodes d’analyses statistiques avancées. Les calculs de ce coefficient par un logiciel statistique est importante. En plus de cela, la majorité des logiciels statistiques permettent de calculer les différents types d’ICC (jusqu’à 6) avec leurs Intervalles de Confiance IC95%. Cependant, il reste tout de même une étape importante du choix de bon type d’ICC à appliquer et de son interprétation.

Tous les logiciels statistiques permettent de calculer les différentes formes d’ICC avec leurs IC95%. IBM SPSS (calcul 6 types). Une macro du logiciel SAS donne les valeurs de 10 types d’ICC en une seules étapes. il est de même pour le logiciel R.

Etude de cas de faisabilité inter-évaluateur et calcul de l’ICC

Lors d’une étude qui vise à évaluer la fiabilité inter-évaluateurs des mesures de l’épaisseur du muscle quadriceps effectuées par trois échographistes expérimentés. L’épaisseur du muscle quadriceps est une mesure importante dans le domaine médical pour évaluer la santé musculaire. Un échantillon de vingt participants sont recrutés pour cette étude. Ces participants sont représentatifs de la population générale en termes d’âge et de sexe. Chaque échographiste réalise des mesures échographiques de l’épaisseur du muscle pour chaque participant selon le même protocole.
Pour évaluer la fiabilité inter-évaluateurs, nous calculons les moyennes des mesures de chaque échographiste pour chaque participant. Ensuite, nous calculons le coefficient de corrélation intraclasse (ICC) pour évaluer la concordance entre les mesures des trois échographistes. On utilise dans ce cas le modèle ICC(2,1) adapté aux mesures répétées par les mêmes évaluateurs.

Calculs de l’ICC (2,1) par le logiciel IBM SPSS.

Pour cette étude, les participants et les évaluateurs sont des échantillons aléatoires représentatifs de leurs populations plus larges. L’étude vise aussi à valider et normaliser ces mesures d’échographies pour qu’elles soient proposées à l’ensemble de la population. Pour ces raisons, l’ICC calculé suit un modèle Aléatoire à deux facteurs avec un indexe de cohérence absolue. Pour exécuter le calculer ICC sous SPSS, nous sélectionnons : Analyser > Echelle > Analyse de fiabilité.

Dans la boite de dialogue de l’analyse de faisabilité, nous sélectionnons « Modèle Aléatoire à deux facteurs ». Et ensuite un l’index de cohérence absolu.

Nous demandons aussi le calcul de l’intervalle de Confiance IC95%.

L’analyse des données révèle un ICC de 0,924 entre les échographistes pour les mesures de l’épaisseur du muscle quadriceps. La moyenne des mesures des trois échographistes formés est fiable avec un intervalle de 0,890 à 0,948 et une confiance de 95%. Ce qui suggère que malgré leurs différences apparentes, les mesures restent concordantes. La corrélation intra-classe à mesure unique est la fiabilité que nous obtiendrons si nous n’avons utilisé qu’un seul professionnel. Cela indique une forte concordance entre les évaluateurs, suggérant une excellente fiabilité inter-évaluateurs.

Nous pouvons dans ces conditions, proposer ces mesures d’échographies du muscle quadriceps comme des mesures de référence à l’ensemble de la population.

Conclusion

En résumé, l’ICC est une mesure biostatistique importante dans le domaine de la recherche. Il permet d’évaluer la fiabilité des mesures effectuées par différents évaluateurs ou instruments.

L’interprétation de l’ICC dépend du contexte spécifique de l’étude et des critères de fiabilité souhaités. En général, une valeur d’ICC plus élevée est préférable car elle indique une meilleure fiabilité inter-évaluateurs. Cependant, il est important de noter que plusieurs facteurs peuvent influencer l’interprétation de l’ICC. C’est le cas par exemple l’effet du nombre d’évaluateurs, la variabilité des évaluations et la méthodologie utilisée pour calculer l’ICC .