jeudi 12 novembre 2009

Caractéristiques de quelques tests a posteriori de comparaisons par paires (post hoc tests)

Tous les tests a posteriori que nous allons évoquer ci-dessous sont basés sur le même principe dit de « l’écart studentisé » ou « studentized range ». Celui-ci consiste à calculer le rapport de l’écart entre les 2 moyennes à comparer avec une valeur issue de la variance résiduelle (carré moyen résiduel) de l’Anova réalisée au préalable.

Q = |M1 - M2 | / (MCR / n)¹/²

La valeur obtenue (Q) sera comparée à une valeur théorique, spécifique du test considéré et dont l’intérêt réside dans l’équilibre entre puissance du test et contrôle du risque d’erreur de l’ensemble pEE (i.e. maintenir un risque d’erreur de 1ère espèce à 5% en dépit de la répétition des comparaisons 2 à 2).

  • Test LSD de Fisher : Least Significant Difference (PPDS ou Plus Petite Différence Significative).
L’approche de ce test consiste à calculer quel est le plus faible écart entre 2 moyennes en deçà de laquelle la différence n’est plus significative (au risque de 1ère espèce considéré).

Toutefois, ce test contrôle très mal l’augmentation de pEE avec la multiplication des comparaisons, de fait dès 3 comparaisons. Pour résoudre cette difficulté, on peut corriger la valeur limite de comparaison en réduisant le risque de 1ère espèce pour chacune des comparaisons 2 à 2. Autrement dit, on n’effectue plus chaque comparaison 2 à 2 avec un risque α = 0.05, mais en utilisant une valeur α’ inférieure.

Deux types de corrections ont été proposés :
- Bonferroni remplace α par α / (c-1)
- Sidak remplace α par 1 - (1- α)c
avec c = nombre de comparaisons

Au final, pEE est toujours maintenu à une valeur inférieure à 5%. Le revers de la médaille est que ce test devient très conservateur, c'est-à-dire qu’il finit pas ne plus rejeter l’hypothèse H0 d’égalité des moyennes lorsque l’écart entre celles-ci est faible.

  • Test SNK, de Student, Newman & Keuls : PPAS (Plus Petite Amplitude Significative)
Ce test a pour objectif de contrôler l’augmentation du pEE en limitant le nombre de comparaisons 2 à 2. Pour ce faire, il compare les moyennes dans un ordre bien précis :
- soient les moyennes de 5 groupes classées par ordre croissant (m1 < m2 < m3 < m4 < m5),
- la première comparaison s’effectue entre m1 et m5, supposons que la valeur du p permette de rejeter H0,
- la comparaison suivante concerne m1 et m4 mais cette fois la valeur du p ne permet pas le rejet de H0, dans ce cas, la procédure de comparaison ne poursuivra pas en étudiant les moyennes m1 vs m3 ou m1 vs m2 puisque leurs écarts sont moins importants qu’entre m1 et m4,
- la procédure de comparaison se poursuit entre m2 et m5, etc…

Caractéristique : la valeur limite utilisée dans ce calcul est fonction du nombre de groupes inclus dans le sous-groupe considéré (ex : entre m1 et m5 le nombre de groupes est 5, entre m2 et m5 le nombre de groupes est 4…).

Ce test est plus puissant que le test LSD, en revanche le contrôle de l’augmentation du pEE est assez peu efficace et, au final on peut arriver à des risques d’erreur de l’ensemble nettement supérieurs au risque d’erreur par comparaison.

  • Test HSD de Tuckey : Honestly Significant Difference
Même s’il procède à la totalité des comparaisons possibles, le test HSD est similaire au test SNK à la différence près qu’il compare chaque paire de moyennes (d’un sous-groupe de moyennes) en utilisant la valeur limite correspondante au nombre total de groupes à comparer.

De ce fait, le test HSD de Tuckey contrôle mieux que le test SNK le risque d’erreur de l’ensemble, lequel ne dépassera jamais le risque d’erreur par comparaison. La contrepartie est qu’il est du coup moins puissant (ou plus conservateur) que le test SNK, ce qui peut se manifester par le non rejet d’hypothèses H0 fausses.

  • Test de Ryan :
Le test de Ryan constitue le meilleur compromis entre la puissance du test SNK et le contrôle du pEE assuré par le test de Tuckey. Pour ce faire, la procédure de Ryan consiste à modifier le seuil de rejet de H0 en fonction du nombre de groupes inclus dans le sous-groupe considéré.

On passe ainsi de α à c.α/k adapté pour chaque comparaison, avec :
- c = nombre de groupes dans le sous-groupe considéré,
- k = nombre total de groupes à comparer.

  • Test de Dunnett :
Ce test est spécifique à la situation où l’on souhaite comparer les différents groupes à un seul et unique groupe témoin (ou de référence). On n’est donc plus à proprement parler dans une comparaison a posteriori puisque le nombre et les détails des comparaisons multiples sont fixés a priori : sur k groupes différents à comparer, on va effectuer k-1 comparaisons.

Comme les tests précédents, le test de Dunnett est basé sur le principe dit de « l’écart studentisé », en utilisant toutefois la valeur limite tirée d’une table spécifique, calculée de telle façon que le pEE est contrôlé : la table de Dunnett.


La version 2.4 de StatEL (novembre 2009) propose ces fonctionnalités dans les procédures de tests a posteriori, accessibles lors des processus d'Anova et d'Ancova. Vous avez ainsi la garantie du contrôle de l'erreur de l'ensemble lors de vos comparaisons multiples. En ce qui concerne le test SNK qui maîtrise moins bien l'augmentation de ce risque, StatEL vous alerte lorsque celui-ci dépasse les valeurs autorisées.

vendredi 6 novembre 2009

Comparaisons a priori versus comparaisons a posteriori

Une comparaison est l’exécution de la procédure destinée à répondre à une hypothèse de l’expérimentateur, on en définit 2 sortes :
  • la comparaison a priori répond à une hypothèse établie avant la réalisation de l’analyse statistique, lors de l’établissement du protocole ;
  • la comparaison a posteriori n’est pratiquée qu’après recueil et examen préliminaire des données (en particulier des moyennes et des écart-types des groupes à comparer).
Pour bien saisir la différence entre les deux, prenons l’exemple d’une situation où l’on est amené à étudier l’influence d’un paramètre à 5 modalités sur la mesure d’une variable quantitative. Le protocole nous conduit à étudier 5 groupes différents d’où sont calculées 5 valeurs moyennes. Dans l’analyse la plus exhaustive, on serait amené à effectuer C25 comparaisons, soient (5*4)/2=10 comparaisons, ce qui entraîne inévitablement une augmentation du risque d’erreur de l’ensemble (rejet à tort de H0).

1er cas : le choix de 2 moyennes à comparer est planifié à l’avance. Dans ce cas, on ne cours qu’une seule fois le risque de commettre une erreur de 1ère espèce (rejet à tort de H0 avec un risque d’erreur à 5%).

2ème cas : on examine au préalable les statistiques descriptives des différents groupes avant de décider lesquels doivent être comparés. Dans ce cas, par processus mental, on exécute déjà un certain nombre de comparaisons 2 à 2, en excluant de l’analyse postérieure les groupes dont l’écart entre les moyennes est le plus réduit. Cette situation équivaut à effectuer la totalité des comparaisons des groupes par paires et donc à augmenter le risque d’erreur de l’ensemble.

On mesure bien avec cet exemple que, si le choix du (ou des) groupe(s) à comparer est effectué a priori, le risque de commettre une erreur de première espèce est bien moindre que si on effectue des comparaisons a posteriori.

Faut-il, du coup, s’interdire de pratiquer des tests a posteriori ? bien évidemment non. Toutefois, il est crucial de bien maîtriser les spécificités de ceux-ci afin de connaître leurs limites et identifier lesquels contrôlent suffisamment l’augmentation du risque d’erreur de l’ensemble.

Remarque : le test de Dunnett (comparaisons de groupes par rapport à un groupe témoin, ou de référence) est toujours considéré comme un test a posteriori (StatEL ne fait pas exception). Toutefois, stricto sensu, celui-ci est typiquement un test défini a priori puisqu’on sait, dès la définition du protocole, quels groupes seront comparés 2 à 2.