Analyse de variance ANOVA à deux facteurs

L’analyse de variance à deux facteurs ANOVA est une méthode statistique puissante utilisée pour analyser l’effet simultané de deux variables indépendantes sur une variable dépendante. En biologie et en sciences médicales, il est souvent important d’étudier une caractérise ou une pathologie en fonction de plusieurs facteurs réunis. Par exemple étudier l’effet d’un traitement sur les mesures de la pression artérielle (variable dépendante) en fonction de l’activité physique (intense et au repos). L’analyse de la variance à deux facteurs (Traitement et activité physique) permet de vérifier plusieurs hypothèses en une seule analyse. C’est-à-dire, d’évaluer l’effet principal du traitement et l’effet principal du niveau d’activité physique séparément sur la pression artérielle. Mais aussi de savoir s’il y existe une interaction significative entre ces deux effets. Ce dernier point permet de démontrer que l’effet du traitement sur la pression artérielle varie en fonction du niveau d’activité physique des participants.

Principe de l’ANOVA à deux facteurs

L’ANOVA à deux facteurs est une technique statistique qui permet d’étudier comment deux variables indépendantes, également appelées facteurs, influencent une variable dépendante de type continue. Contrairement à l’ANOVA à un facteur qui analyse l’effet d’une seule variable indépendante, l’ANOVA à deux facteurs permet d’explorer les interactions complexes entre les deux variables indépendantes.

Cette technique est essentielle pour comprendre les relations multifactorielles dans les données. Par exemple pour étudier certaines maladies qui font intervenir des facteurs génétiques et des facteurs d’environnement. Elle permet de déterminer si les moyennes de la variable dépendante diffèrent significativement selon les niveaux des facteurs (Traitement et activité physique), mais aussi si ces différences sont dues à la variation entre les groupes ou à la variation à l’intérieur des groupes.

Variables dépendante et indépendantes

La variable dépendante est la variable quantitative que nous mesurons pour voir comment elle est influencée par les facteurs. Les deux facteurs ou variables indépendantes de l’ANOVA peuvent avoir chacun deux ou plusieurs niveaux. Pour reprendre l’exemple de l’étude de l’effet des deux traitements (A et B) sur la PA en fonction de l’activité physique, les mesures de la PA est la variable quantitative. Les deux niveaux de traitements (A et B) représentent le facteur1 et l’activité physique (Intense et au repos) est le facteur2.

Effet de la variabilité des individus

Cette technique permet aussi de répondre à la question de la variabilité intra individuelle. En effet, l’ANOVA à deux facteurs décompose la variance totale des données en plusieurs composantes : la variance due aux effets des deux facteurs (A et B), leur interaction (AB), et la variance résiduelle ou erreur. Cette dernière représente la part de la variabilité qui ne peut pas être expliquée par les facteurs et leurs interactions, et est donc attribuée aux différences individuelles non contrôlées entre les observations. En comparant la variance résiduelle à celle due aux facteurs, l’ANOVA évalue la signification des effets des facteurs par rapport à la variabilité individuelle. C’est -à-dire que cette variation est due uniquement à l’effet du sujet (l’individu). Comme il est courant de constater que dans beaucoup de cas, la guérison d’une maladie est spontanée chez les patients et elle n’est pas due à l’effet du traitement.

Exemple d’étude avec une ANOVA à deux facteurs

Etude de la PAS en fonction de deux facteurs

Nous voulons étudier les effets de deux facteurs ‘Régime Alimentaire’ RA et ‘Activité Physique’ AP sur les mesures de la Pression Artérielle Systolique PAS. Pour cela, des groupes de 20 sujets ont été formés pour tester deux régimes alimentaires (pauvre et riche en sel). Chacun de ces groupes (10 sujets) a suivis des activités physiques différentes (intense et sans activité). Les mesures de la Pression Artérielles Systoliques de chacun de ces quatre groupes sont représentées dans le tableau ci-dessous.

Pour cette étude nous pouvons tester plusieurs hypothèses en utilisant une analyse de variance ANOVA à deux facteurs. Nous pouvons donc connaitre l’effet de chaque facteur séparément, mais aussi l’effet de leurs interactions ou de leur effet combiné sur les mesures de la PAS.

La PAS est la variable quantitative dépendante dont les mesures vont être comparer.

Exemple données d'ANOVA à deux facteurs

Etude de l’effet principal de chacun des deux facteurs

Premièrement, l’ANOVA à deux facteurs teste séparément l’effet principal global de chaque facteur sur la variable dépendante, indépendamment de l’autre facteur. Dans notre exemple, ANOVA compare les moyennes des deux types de régime alimentaires sans faire intervenir l’exercice physique. Ensuite elle compare les moyennes des mesures de la PAS en fonctions des deux classes de l’exercice physique sans l’effet du Régime Alimentaire.

Etude de l’effet de l’interaction des deux facteurs

Deuxièmement, l’ANOVA à 2 facteurs examine l’effet de l’interaction entre les facteurs. Cette interaction indique si l’effet d’un facteur sur la variable dépendante dépend du niveau de l’autre facteur. En d’autres termes, est ce que les mesures de PAS sont différentes entre les deux régimes alimentaires lors que l’activité physique est différente.

Hypothèses de l’étude de la PAS

Hypothèses de l’effet principal de chaque facteur :

Hypothèse nulle H0 de l’ANOVA à deux facteurs stipule qu’il n’y a pas de différence significative entre les moyennes des groupes pour aucun des facteurs séparément.

L’hypothèse alternative H1 (Bilatérale) affirme qu’il y a au moins une différence significative entre les moyennes des groupes pour au moins l’un des facteurs étudiés. Par exemple, il y a une différence significative de moyennes des mesures de la PAS entre les groupes de RA d’une part ou entre les groupes d’AP d’autre part.

Hypothèses de l’effet de l’interaction des facteurs combinés:

H0 stipule qu’il n’existe aucun effet d’interaction entre les facteurs (combinés). Il n’y a pas d’effet combiné du RA et de l’AP sur les mesures de PAS.
Versus H1 (bilatérale) affirme qu’il y a une interaction significative entre les facteurs. Il existe un effet combiné du RA et de l’AP pour expliquer la différence des mesures de la PAS.

Test statistique et interprétation :

Pour tester toutes ces hypothèses, l’ANOVA à deux facteurs utilise la statistique F de Fisher Snedecor (voir ANOVA analyse de variance ). Si le test de F est significatif, cela indique qu’au moins un des facteurs ou une interaction entre les facteurs a un effet significatif sur la variable dépendante. Ensuite, des tests post-hoc peuvent être effectués pour déterminer quelles différences entre les groupes sont significatives.

Etapes de calcul de l’ANOVA à deux facteurs

Pour évaluer l’effet des deux facteurs (Régime Alimentaire et Exercice Physique) et leur interaction sur la pression artérielle systolique, nous détaillerons ci-dessous les différentes étapes de calcul.

Formulation des Hypothèses pour les effets principaux et l’interaction :

  1. Hypothèses de l’effet du Régime Alimentaire (A vs. B) :
    • 𝐻0: Il n’y a pas de différence significative de la pression artérielle entre les différents régimes alimentaires.
    • 𝐻1 : Il y a une différence significative de la pression artérielle entre les différents régimes alimentaires.
  2. Effet de l’Exercice Physique (1 vs. 2) :
    • 𝐻0 : Il n’y a pas de différence significative de la pression artérielle entre les niveaux d’exercice physique.
    • 𝐻1 : Il y a une différence significative de la pression artérielle entre les niveaux d’exercice physique.
  3. Interaction entre Régime Alimentaire et Exercice Physique :
    • 𝐻0​ : Il n’y a pas d’interaction significative entre le régime alimentaire et l’exercice physique sur la pression artérielle.
    • 𝐻1 : Il y a une interaction significative entre le régime alimentaire et l’exercice physique sur la pression artérielle.

Calcul des composantes de l’ANOVA à deux facteurs

1. Sommes des carrés (SS) :

En premier lieu, nous devons calculer les sommes des carrées suivantes ou Sum of Square en anglais d’où le SS. Ces paramètres peuvent être calculés sur Excel si vous êtes à l’aise avec cette application (voir le détail des calculs ci-dessous). Sinon toutes ces sommes seront calculées par un logiciel de statistique.
Somme des carrés totale (SST) : Somme des carrés totale (SST)
Sum of Square entre les niveaux de Régime Alimentaire (SSA) :Somme des carrés entre les niveaux de Régime Alimentaire (SSA)
SS entre les niveaux d’Exercice Physique (SSB) :Somme des carrés entre les niveaux d'Exercice Physique (SSB) :
Sum of Square de l’Interaction (SSAB) :Somme des carrés de l'interaction (SSAB)
Somme des carrés de l’erreur (SSE) :

2. Degrés de liberté ddf

Le degré de liberté ou ddf est aussi le dénominateur des carrés moyens ou « Mean Square » en anglais MS de chaque variance qui sera évaluée séparément et détaillée ci-dessous :

  • Le dénominateur ou degrés de liberté de la somme des carrés SST Total ou ddl Total = N – 1
  • Pour les facteurs Régime Alimentaire (SSA) : ddlA = nA – 1 et l’Activité Physique (SSB), ddlB = nB – 1
  • ddl de l’interaction des deux facteurs SSAB : ddAB = (nA – 1) (nB – 1)
  • Le degré de liberté de l’erreur SSE, ddlE = N – nA nB.

Avec N = est la taille d’échantillon ou effectif total des sujets de l’étude
nA = nombre de sujet ayant testé le facteur A (RA).
nB = nombre de sujet ayant testé le facteur B (AP).

3. Calcul des carrés moyens ou MS pour Means Squares

Le carré moyen MS ou variance inter-groupe de chacun des composantes de l’ANOVA est le rapport de la somme des carrés sur le degré de liberté dll.

  • Carré moyen pour le facteur Régime Alimentaire :
  • CM pour le facteur Exercice Physique :
  • Carré moyen de l’erreur :

4. Calcul de la statistique F ou test de Fisher-Snedecor :

Petit rappel: l’analyse de variance ANOVA compare globalement les différentes séries de données en calculant le rapport du Carré Moyen MS (variance inter-groupe) sur le Carré Moyen des erreurs MSE (variance intra-groupes ou résiduelle). C’est la valeur du test de Fisher-Snedecor. Ensuite ANOVA compare ce rapport avec la valeur F du seuil α à 5% dans la table de Fisher-Snedecor. Dans le cas de l’ANOVA à deux facteurs, cette valeur F doit être calculée et comparée pour chacun des facteurs évalués et pour leur interaction.

  • Valeur de F pour le Régime Alimentaire : FA​ =​ MSA​/MSE​
  • Valeur de F pour l’Exercice Physique : FB​ = ​MSB/MSE​​
  • Valeur F pour l’interaction : FAB ​= ​MSAB/MSE

Comparaison de la valeur F dans la table de Fisher-Snedecor

La dernière étape est de comparer la valeur calculée F à la valeur théorique F(α ; c -1; N – c) dans la table de la loi de Fisher-Snedecor. Nous pouvons aussi tout simplement rechercher la p-value directement dans cette table. Dans tous les cas, deux résultats sont possibles :
Soit F < F(5%, c-1, N-c) ou p-value > 0,05, on accepte H0. Les moyennes sont égales ou ne différents pas significativement.
Soit F ≥ F(5% ; c -1; N-c) ou p-value ≤ 0,05, nous rejetons H0. Nous pouvons donc affirmer qu’au moins une des moyennes est significativement différente des autres.

Application analyse de la PAS

LL’analyse ANOVA à deux facteurs se réalise principalement sur un logiciel statistique. Mais dans le but de bien comprendre le principe de cette technique et les résultats fournit par le logiciel, nous présentons ici les différentes étapes de calcul avec les données de la PAS.
Tout d’abord et pour chacun des facteurs étudiés, nous devons calculer les paramètres suivants :

1. Moyennes des niveaux des facteurs

Nous calculons les moyennes de chaque niveau pour chaque facteur :

  • RA (Régime Alimentaire): moyenne niveau1 ma = 111.75
  • RA moyenne niveau2 mb = 135.2
  • AP (Activité Physique) moyenne niveau1 m1= 127.75
  • AP Moyenne niveau2 m2= 119.2

Et moyennes de chaque combinaison de niveaux (groupe) du facteur :

  • Moyenne du niveau1 RA combiné au niveau1 de PA : ma1​=116.5 et na1= 10
  • Niveau1 RA combiné au niveau2 de PA: ma2=107.0 et na2=10
  • Moy. niveau2 RA combiné au niveau1 de PA: mb1=139.0 et nb1 =10
  • Niveau2 RA combiné au niveau2 de PA: mb2=131.4 et nb2 = 1
  • Nous calculons de la même manière ces moyennes pour le facteur AP, voir le tableau de résultats ci-dessous.

Moyenne générale:Moyenne générale ANOVA à deux facteurs

La moyenne générale est égale à la somme de toutes les valeurs de la variable sur le nombre total de sujets.
m générale = 123,475

2. Calcul des Somme des Carrés SC:

  • SC du facteurA RA : SSA = 20 x [(111.75-123.475)²+(135.2-123.475)² ]= 5499.025
  • facteurB Activité Physique : SSB = 20 x [(127.75-123.475)² + (119.2-123.475)²] = 731.025
  • Interaction : SSAB​ = 10 x ((116.5−111.75−127.75+123.475)²+(107.0−111.75−119.2+123.475)²+(139.0−135.2−127.75+123.475)²+(131.4−135.2−119.2+123.475)²) = 9.025
  • Somme des carrés des erreurs ou SSE = 150,9 (voir calcul dans le tableau de résultats).

Pour chaque observation , nous calculons la différence de chaque valeur avec la valeur prédite au carré. Ensuite la somme de toutes ces valeurs multipliée par le nombre de sujets n
Par exemple, pour le premier groupe de Régime Alimentaire niveaua et AP niveau1, nous avons les observations suivantes

  • Observations: 120,115,118,117,119,116,118,114,113,115
  • la valeur prédite pour ce groupe est de 116.5
  • Nous calculons les erreurs au carré pour ce groupe :

SSE = (120−116.5) + (118 -116.5)² + …..+ (115-116.5)² = 150,9 (voir aussi calcul dans le tableau de résultats).

SSE est la somme des carrés des erreurs pour tous les groupes. C’est la partie de la variation totale des données qui n’est pas expliquée par les effets principaux et leurs interactions. Vous pouvez appliquer ces étapes pour chaque groupe et les additionner pour obtenir la SSE finale.

3. Degrés de liberté

ddlbetween= 2 − 1 =1
ddlwithin​= 40 − 4 = 36

4. Carrés moyens MC

MC pour régime alimentaire MSA = SSA/ddlbetween = 5499.025 / 1 = 5499.025
Activité Physique MSB = SSB/ddlbetween = 731.025 / 1 = 731.025
Effet de de l’interaction MSAB = SSAB/ddlwithin = 9.025/ 1 = 9.025
Carré moyen des erreurs MSE = 150,9/36 = 4.19

5. Valeur F et significativité des effets des facteurs

F(RA) = 5499.025/ 4.19 = 1311,89 ; p-value < 0.001 , il y a un effet
F(AP)= 731.025/ 4.19 = 174.39
F(Interaction)= 9.025/ 4.19 = 2.153
Résultats ANOVA à deux facteurs sur Excel

Interprétation :

Pour déterminer si cette statistique F est significative, nous devons comparer cette valeur à la valeur critique de F(5%, c-1, N-c) pour le niveau de signification α=0.05 et les degrés de liberté associés :

  • Degrés de liberté entre les groupes (ici nous avons deux niveaux pour chaque facteur) (ddl between) = 2-1 = 1
  • Degrés de liberté des erreurs (ddl within) = 40 – 4 = 36

En consultant une table de distribution F ou en utilisant un logiciel statistique, nous pouvons trouver la valeur critique de F pour ces degrés de liberté et α=0.05. Alternativement, nous pouvons calculer la p-valeur associée à cette statistique F.

  • Si la statistique F calculée est supérieure à la valeur critique de F, ou si la p-valeur est inférieure à 0.05, nous rejetons l’hypothèse nulle H0​.
  • Dans le cas de cette étude, la valeur de F RA(1311,89) est très grande, ce qui suggère une p-valeur extrêmement petite. Cela indique que nous rejetons H0​ et concluons qu’il y a une différence significative de la pression artérielle entre les régimes alimentaires A et B. C’est pareil pour le facteur Activité physique.

La méthode de comparaison de F0 à la valeur seuil dans la table de Fisher-Snedecor et la détermination de la significativité du test et p-value sont détaillées dans notre article ANOVA Analyse de variance.

Résultats de l’analyse par le logiciel SAS

Resultats de l'ANOVA à deux facteurs de la PAS
Tableau2 des résultats SAS de l'ANOVA à deux facteurs de la PAS
Les calculs sur Excel donnent exactement les mêmes résultats que ceux du logiciel SAS. Il y a des effets du Régime alimentaire et de l’Activité Physique très significatifs p-value < 0,0001. Par contre, il n’y a pas d’effet de l’interaction des facteurs sur les mesures de la PAS.

  • Pour le Régime Alimentaire, Il y a bien une différence significative de la pression artérielle entre les régimes A et B p < 0,0001.
  • De même pour l’Exercice Physique, il y a une différence significative de la pression artérielle entre les niveaux d’exercice 1 et 2 avec p < 0,0001.
  • Par contre pour l’interaction Régime-Exercice, il n’y a pas d’interaction significative entre le régime alimentaire et l’exercice physique sur la pression artérielle et p-value = 0.1510 bien supérieure à 0.05.

Pour conclure sur cette étude, les résultats suggèrent que les deux facteurs (régime alimentaire et exercice physique) influencent indépendamment la pression artérielle systolique, mais leur interaction n’a aucun effet significatif. ​

Conclusion

ANOVA à deux facteurs est bien une méthode statistique essentielle pour analyser les relations complexes entre deux variables indépendantes et une variable dépendante. Son application est répandue dans de nombreux domaines, y compris la médecine, la psychologie, la biologie et bien d’autres.
Cependant, des conditions d’applications doivent être vérifiées pour l’application de cette technique. Comme pour l’ANOVA à un facteur, les conditions de normalité (des résidus) et d’homoscédasticités doivent être remplies.
Enfin nous pouvons appliquer cette technique pour analyser des interactions de plus de deux facteurs (trois ou plus). Seulement plus les facteurs se multiplient, plus les calculs et les interprétations se complexifient. Il est donc essentiel d’utiliser des logiciels de statistiques performants.

Bonjour

Inscrivez-vous à notre newsletter et recevez nos nouveaux articles dans votre boîte de réception.

Nous ne spammons pas ! Consultez notre politique de confidentialité pour plus d’informations.

Bonjour

Inscrivez-vous à notre newsletter et recevez nos nouveaux articles dans votre boîte de réception.

Nous ne spammons pas ! Consultez notre politique de confidentialité pour plus d’informations.

Si cet article vous a été utile, Merci de le partager