Tests post hoc ou à postériori d'ANOVA- comparaisons deux à deux

Tests post hoc (ou à postériori) d’ANOVA

Un test post hoc ou test à postériori d’analyse de variance, est un test utilisé après une ANOVA significative. En effet, une ANOVA indique qu’il existe au moins un groupe qui diffère significativement des autres, mais ne spécifie pas le quel. Les tests post hoc sont conçus pour comparer les groupes entre eux et indiquer quel groupe diffère de l’autre. En même temps, ces tests permettent de corriger le risque accru d’erreurs de type I qui survient lorsque plusieurs comparaisons sont effectuées sans ajustement. Il en existe plusieurs, chacun adapté aux objectifs de l’étude et à la structure des données. Nous exposerons ci-dessous quelques-uns mais nous détaillerons plus précisément le test des contrastes de Scheffé.

Sommaire

Principe des tests post hoc

Les tests post hoc ou à postériori, comme leur nom l’indique, sont utilisés après avoir rejeter l’hypothèse nulle H0 lors d’une ANOVA. C’est-à-dire, après avoir démontrer l’existence d’une différence significative entre au moins deux groupes. Dans l’Analyse de variance ANOVA nous avons expliqué pourquoi utiliser ce test pour comparer plusieurs groupes entre eux (trois ou plus). Surtout que l’utilisation du test T pour des comparaisons deux à deux n’est pas adaptée car il fait gonfler le risque d’erreur Alpha. Nous devons donc faire appel à un test unique le test F de Fisher-Snedecor, en comparant globalement tous les groupes. Ensuite et en cas de significativité du test F, nous pouvons comparer les moyennes deux à deux à l’aide des tests post-hoc.

Rappel des formules de calculs des variances de l’ANOVA

Quelques rappels des valeurs de calcul de la variance et de celles de l’ANOVA qui nous serviront pour les tests de comparaison Post Hoc exposés. Pour plus de détails sur les étapes de calcul de test de Fisher-Snedecor voir l’article ANOVA Analyse de variance.

La Variance :

Variance intergroupe :

Variance Intragroupe ou résiduelle

Valeur du test de Fisher Snedecor :

Avec les dlls: c – 1 et N – c

Dans les conditions d’ANOVA, on montre que la somme des carrés des écarts (et donc la variance) peut être calculée simplement par la formule :

$SCE_{\text{total}}=SCE_{\text{facteur}}+SCE_{\text{residu}}~$

SCE pour Somme des Carrés des Écarts = Variance.

S²g = $SCE_{\text{facteur}}=\sum _{i=1}^{p}n_{i}({\overline {y_{i}}}-{\overline {y}})^{2}$

S²r = $SCE_{\text{residu}}=\sum _{i=1}^{p}\sum _{j=1}^{n_{i}}(y_{ij}-{\overline {y_{i}}})^{2}$

– SCE facteur aussi appelée variabilité intergroupe, SSB ou Sum of Square Between class, mesure la dispersion des moyennes des groupes par rapport à la moyenne globale des données. Elle représente les différences entre les moyennes des différents groupes dans une étude expérimentale ou observationnelle. SCE facteur peut être expliquée par le modèle lorsque les différences observées entre les moyennes des groupes sont attribuables aux facteurs ou variables indépendantes étudiées.

Par exemple, prenons le cas d’une étude de l’effet de trois produits sur la croissance des plantes. La variation des mesures de croissance entre les groupes de plantes traitées par chacun des produits représente la variabilité intergroupe, SCE facteur. Par exemple, si l’un des trois produits favorise une croissance plus rapide que les deux autres, le modèle peut expliquer la variabilité intergroupe. Cela signifie que les différences de croissance entre les groupes sont principalement dues aux produits administrés.

– SCR residu est la variabilité aléatoire, variabilité intragroupe ou résiduelle SSW ou Sum of Square Within class est la variation dans les observations qui ne peut pas être expliquée par les variables indépendantes incluses dans le modèle. Dans le contexte de l’ANOVA, la variabilité résiduelle représente la variation non attribuée aux différences entre les groupes ou aux effets des variables indépendantes incluses dans le modèle. Elle est généralement considérée comme du bruit ou de l’erreur dans les données. Cette variation est attribuée à des facteurs non pris en compte dans le modèle ou à des sources de variabilité aléatoire.

Les conditions d’utilisation de l’ANOVA

L’ANOVA est un test statistique qui s’applique aux données quantitatives. On ne peut l’utiliser que si les conditions de normalité et d’homoscédasticité sont vérifiées. Ce qui veut dire que, les données comparer doivent suivre une distribution normale (ou presque) et que leurs variances doivent être égales (homoscédasticité). La normalité des distributions est vérifiable par le test de Shapiro-Wilk.

Cependant, pour vérifier l’égalité des variances, ils existent plusieurs tests. Parmi lesquels, le test de Bartlett, le test de Hartly et le test de Levene, sont les plus utilisés. Par ailleurs il existe d’autres tests comme le test de Brown-Forsythe est plus puissant ou celui de O’brien équivalent au test de Levene modifié. La majorité des logiciels de statistique permettent de tester l’homoscédasticité des groupes automatiquement lors ou après une ANOVA.

Nous développons ci-dessous le test le plus utilisé, celui de Bartlett.

Test d’homoscédasticité avec le test de Bartlett

Comme pour tout test statistique, nous posons les Hypothèses au risque d’erreur Alpha α= 5%.

Hypothèse Nulle H₀ : les variances des « c » groupes à comparer sont toutes égales σ²₁ = σ²₂ = ..= σ²_c. Versus Hypothèse alternative H1 en bilatérale : au moins une des « c » variances est différente.

Ensuite, la valeur du test de Bartlett est calculée suivant la formule ci-dessous.

Valeur du test de Bartlett avec dll = c – 1:

c : est le nombre de groupes à comparer.

n_i: est la taille de l’échantillon du groupe.

N : est la taille totale de tout l’échantillon N = n1 + n2 + …+ nc.

S²_r: est la variance intragroupe ou variance résiduelle.

Une fois la valeur T du test de Bartlett est calculée, nous devons la comparer à la valeur χ²(α=0,05) dans la table du Khi-deux avec dll = c -1. Deux résultats se présentent :

Soit : T < χ²(5%) cela signifie que l’on accepte H0, il n y a pas de différence entre les variances des groupes à comparer.

Soit : T ≥ χ²(5%) dans ce cas, on rejette H0, il y a une au moins une variance d’un groupe qui est différente des autres.

Nous pouvons aussi rechercher directement la p-value dans la table de Khi-deux. Voir détail dans l’article test du Khi-deux sur Excel.

De la même manière, deux résultats permettent de trancher sur la significativité du test de Bartlett.

Soit la p-value > 0,05 et on accepte H0. On conclut donc qu’il n y a pas de différence entre les variances des groupes à comparer. Soit à l’inverse, la p-value ≤ 0,05, on rejette H0. On peut conclure qu’il y a au moins une variance d’un des groupes qui est différente des autres.

Résultats du test de Bartlett par le logiciel de statistique

Nous avons fait plus simple et avons réaliser le test de Bartlett dans un logiciel de statistique. Le tableau de résultats donne la valeur du test Khi-deux à dll = c -1 et la p-value.

Nous comparerons directement cette p-value à la valeur du risque d’erreur alpha = 0,05. Cette dernière est inférieure à 0,05. Ce qui nous amène à rejeter H0 et à conclure que les variances des groupes sont différentes. Dans ce cas-là, la condition d’homoscédasticité n’est pas vérifiée.

Remarque

Etant donné que nous utilisons les termes de comparaison de variances, il ne faut pas confondre entre l’ANOVA et le test de Bartlett. Ce dernier compare les variances des groupes entre eux pour tester leur homoscédasticité. Alors que l’analyse de variance ANOVA est un test de comparaison de moyennes. En effet, ANOVA compare d’une manière globale les moyennes des groupes en comparant les variances intergroupes et intragroupes.

Tests post hoc (à posteriori) d’analyse de variance

Différents tests post hoc existent. Chacun d’eux a ses propres hypothèses et conditions d’application. Pour choisir le test post hoc approprié, il faut prendre en compte les objectifs spécifiques de l’étude et la structure des données.

Si par exemple, l’étude vise à comparer plusieurs groupes de traitement à un groupe contrôle, il faut choisir le test de Dunnett. Si par contre l’objectif est de contrôler le taux d’erreur global tout en effectuant des comparaisons multiples, il est préférable d’utiliser les tests de Tukey ou le test de Scheffé. Ces dernies ajustent les valeurs p pour tenir compte du nombre de comparaisons effectuées.

Même si le choix du test est la règle pour chaque situation, il est encore préférable de tester plusieurs afin de garder celui qui a l’intervalle de confiance le plus faible.

Ci-dessus les différents tests post hoc décrit selon leurs spécifications et selon les objectifs de l’analyse.

Les différents tests post hoc

Test de Tukey

Le test de Tukey compare toutes les paires de moyennes de groupe et contrôle le taux d’erreur global pour maintenir un niveau de confiance spécifié. C’est l’un des tests post hoc les plus utilisés.

Test de Scheffé

Ce test est souvent utilisé lorsque les groupes à comparer sont déséquilibrés c’est à dire que les tailles d’échantillon sont différentes. Ou bien lorsqu’il n’y a pas d’égalité de variances entre groupes de données. Ce test est également conservateur et contrôle le taux d’erreur global.

Test de Dunnett

C’est un test utile lorsque l’on compare plusieurs traitements à un groupe témoin. Il compare chaque groupe à un groupe de contrôle.

Test de Bonferroni

Le test de Bonferroni est très conservateur car il est moins susceptible de signaler une différence significative, même si elle existe. Le test de Bonferroni ajuste les valeurs p pour chaque comparaison effectuée afin de contrôler le taux global d’erreur de type I. C-à-d le risque de conclure à tort a une différence significative alors qu’elle n’existe pas. Cette méthode rend le test plus prudent. Par exemple, il est préférable de l’utiliser lorsque nous devons minimiser le risque de faux positifs, notamment dans le cas des études médicales où des décisions de traitement peuvent être prises sur la base des résultats.

Test de Games-Howell

Présente le même principe que le test Scheffé, concerne les données déséquilibrées et de variances inégales.

LSD

LSD est connu aussi sous le nom de Fisher ou de test de Newman-Keuls. On utilise cette méthode pour effectuer des comparaisons multiples entre les moyennes de tous les paires de groupes. Mais les tests LSD ne corrigent pas le taux d’erreur dans le cas de comparaisons multiples. Cela signifie que le risque d’erreur de type I alpha augmente à mesure que le nombre de comparaisons augmente. Par conséquent, il est important de prendre en compte ce risque lors de l’interprétation des résultats du test LSD.

Analyse comparative des moyennes a postériori

Nous présentons ci-dessous, le test post hoc d’analyse de contrastes de Scheffé avec un exemple de calcul à la main. Ceci afin de comprendre comment le réalisé et les résultats fournis par le logiciel statistique. Pour simplifier les explications, l’ANOVA exposée dans cet exemple est à un facteur (one-way ANOVA). Cela signifie que la comparaison de la variable dépendante entre les groupes ne prend en compte qu’un seul facteur, celui qui divise les groupes.

Analyse des contrastes par le Test post hoc de SCHEFFE

En statistique, un contraste « C » est la somme pondérée de moyennes. Un contraste permet de comparer des moyennes a priori (analyses non planifiées ou exploratoires). C’est-à-dire que nous n’avons pas spécifiés les comparaisons avant la collecte des données. L’analyse de contraste permet de comparer les moyennes deux à deux, une moyenne à une autre moyenne, un ensemble de moyennes à un autre ensemble de moyennes ou à une seule moyenne. Bien évidement nous sommes dans le cas d’un test F global de Fisher-Snedecor significatif (p-value ≤ 0,05).

Contraste C ou la somme pondérée des moyennes

C = c₁ m₁ + c2 m2 + ……+ c_km_k avec c₁ + c₂+… +c_k = 0. Et ∑_ik |c| = 2.

La somme des coefficients du contraste doit être égale à 0. c₁ + c₂+… +c_k = 0 ou ∑c_ik = 0

k représente le nombre de groupes à comparer. Si nous avons 3 groupes k=3.

Par exemple, les résultats de l’ANOVA de comparaison de 3 moyennes sont significatifs. Nous avons rejeté H₀, les trois moyennes sont bien différentes, mais nous ne savons pas les quelles. Nous utiliserons l’analyse de contraste pour comparer toutes les moyennes entre elles deux à deux de la manière suivante :

Pour comparer m₁ versus m₂, nous posons c₁ =1, c₂ = -1, c₃ = 0. Ensuite, nous testons avec le test de Scheffé si le contraste C = m₁-m₂ est significativement différent de 0.

De la même manière m₁ versus m₃ et on pose c₁ =1, c₂ =0, c₃ = -1. Le test de Scheffé permettra de savoir si le contraste C = m₁-m₃ est significativement différent de 0.

m₂ versus m₃ avec c₁ =0, c₂ =1, c₃ = -1. On test si le contraste C = m₂-m₃ est significativement différent de 0.

Pour tester le contraste de chaque comparaison, nous devons appliquer le test de Scheffe et calculer la valeur |C| pour chacune d’elle.

Valeur du test de Scheffe

Ensuite nous devons comparer chaque valeur du contraste calculé pour chaque comparaison à sa valeur correspondante du test de Scheffé.

Si c_k < |C_k|, cela signifie qu’il n’y a pas de différence significative entre les deux groupe.

Si par contre c_k > |C_k|, il y a une différence significative entre les deux groupes.

Pour une meilleure compréhension des différentes étapes de ce test, nous appliquerons tous les calculs avec un exemple très simple d’un échantillon de données très réduit.

Etude de cas:

Nous voulons comparer l’éfficacité de trois traitements dans 1, 2 et 3 dans la réduction de l’IMC. Trois groupes de sujets indépendants et pris au hasard ont reçu chacun un traitement différent. L’analyse globale ANOVA des données des trois groupes a donné la valeur F0 = 15 et une p-value < 0,001. Les détails des étapes de calcul du test de Fisher-Snedecor sont dans cet article Analyse de Variance ANOVA à un facteur.

Avec ces résultats (tableau ci-dessous) nous rejetons l’hypothèse H0 d’égalité des moyennes. Les trois traitments n’ont pas la même efficacité. Il y a donc au moins un groupe (traitement) différent des autres. Pour savoir quel groupe est significativement différent des autres, nous devons comparer les moyennes deux à deux. Nous réaliserons donc cette comparaison par une analyse de contrastes avec le test de Scheffé.

Tableau des données

Etapes de calculs

Premièrement, nous rangeons les (k = 3) groupes par ordre croissant de leurs moyennes. Groupe3 avec m3= 3, groupe1 avec m1 =5 et groupe2 avec m2=7. Le nombre de sujets dans chaque groupe = 5.

Deuxièmement on pose:

C = c1 . m1 + c2 . m2 + c3 . m3 avec ∑c_ik = 0 et ∑_ik |c| = 2
G3 versus G2 ou m1 versus m2 avec c1 = m1 – m2 = (5-7) x (c1 =1, c2= -1, c3=0) = -2
G1 vs G3 ou m1 versus m3 donc c2 = m1 – m3 = (5-3) x (c1=1 , c2=0, c3 = -1) = 2
G2 vs G3 ou m2 versus m3 donc c3 = m2 – m3 = (7-3) x (c1=0 , c2=1, c3 = -1) = 4

Avec Fs =3,89 et S²r= 1,33. Tous les résultats des calculs sont

G3 vs G1 c1 = -2 et |c1| < 2,03. Il n’y a pas de différence entre les groupes 1 et 3.
G3 vs G2 c2 = -4 et |c2| > 2,03. Les groupes 2 et 3 sont significativement différents.
G1 vs G2 c3 = -2 et |c3| < 2,03. Il n’y a pas de différence entre les groupes 1 et 2.

En conclusion, les traitements 1 et 3 sont statistiquement plus efficace que le traitement 2 dans la réduction de l’IMC.

Tests comparatives Post hoc ou à postérior d’ANOVA