jeudi 12 novembre 2009

Caractéristiques de quelques tests a posteriori de comparaisons par paires (post hoc tests)

Tous les tests a posteriori que nous allons évoquer ci-dessous sont basés sur le même principe dit de « l’écart studentisé » ou « studentized range ». Celui-ci consiste à calculer le rapport de l’écart entre les 2 moyennes à comparer avec une valeur issue de la variance résiduelle (carré moyen résiduel) de l’Anova réalisée au préalable.

Q = |M1 - M2 | / (MCR / n)¹/²

La valeur obtenue (Q) sera comparée à une valeur théorique, spécifique du test considéré et dont l’intérêt réside dans l’équilibre entre puissance du test et contrôle du risque d’erreur de l’ensemble pEE (i.e. maintenir un risque d’erreur de 1ère espèce à 5% en dépit de la répétition des comparaisons 2 à 2).

  • Test LSD de Fisher : Least Significant Difference (PPDS ou Plus Petite Différence Significative).
L’approche de ce test consiste à calculer quel est le plus faible écart entre 2 moyennes en deçà de laquelle la différence n’est plus significative (au risque de 1ère espèce considéré).

Toutefois, ce test contrôle très mal l’augmentation de pEE avec la multiplication des comparaisons, de fait dès 3 comparaisons. Pour résoudre cette difficulté, on peut corriger la valeur limite de comparaison en réduisant le risque de 1ère espèce pour chacune des comparaisons 2 à 2. Autrement dit, on n’effectue plus chaque comparaison 2 à 2 avec un risque α = 0.05, mais en utilisant une valeur α’ inférieure.

Deux types de corrections ont été proposés :
- Bonferroni remplace α par α / (c-1)
- Sidak remplace α par 1 - (1- α)c
avec c = nombre de comparaisons

Au final, pEE est toujours maintenu à une valeur inférieure à 5%. Le revers de la médaille est que ce test devient très conservateur, c'est-à-dire qu’il finit pas ne plus rejeter l’hypothèse H0 d’égalité des moyennes lorsque l’écart entre celles-ci est faible.

  • Test SNK, de Student, Newman & Keuls : PPAS (Plus Petite Amplitude Significative)
Ce test a pour objectif de contrôler l’augmentation du pEE en limitant le nombre de comparaisons 2 à 2. Pour ce faire, il compare les moyennes dans un ordre bien précis :
- soient les moyennes de 5 groupes classées par ordre croissant (m1 < m2 < m3 < m4 < m5),
- la première comparaison s’effectue entre m1 et m5, supposons que la valeur du p permette de rejeter H0,
- la comparaison suivante concerne m1 et m4 mais cette fois la valeur du p ne permet pas le rejet de H0, dans ce cas, la procédure de comparaison ne poursuivra pas en étudiant les moyennes m1 vs m3 ou m1 vs m2 puisque leurs écarts sont moins importants qu’entre m1 et m4,
- la procédure de comparaison se poursuit entre m2 et m5, etc…

Caractéristique : la valeur limite utilisée dans ce calcul est fonction du nombre de groupes inclus dans le sous-groupe considéré (ex : entre m1 et m5 le nombre de groupes est 5, entre m2 et m5 le nombre de groupes est 4…).

Ce test est plus puissant que le test LSD, en revanche le contrôle de l’augmentation du pEE est assez peu efficace et, au final on peut arriver à des risques d’erreur de l’ensemble nettement supérieurs au risque d’erreur par comparaison.

  • Test HSD de Tuckey : Honestly Significant Difference
Même s’il procède à la totalité des comparaisons possibles, le test HSD est similaire au test SNK à la différence près qu’il compare chaque paire de moyennes (d’un sous-groupe de moyennes) en utilisant la valeur limite correspondante au nombre total de groupes à comparer.

De ce fait, le test HSD de Tuckey contrôle mieux que le test SNK le risque d’erreur de l’ensemble, lequel ne dépassera jamais le risque d’erreur par comparaison. La contrepartie est qu’il est du coup moins puissant (ou plus conservateur) que le test SNK, ce qui peut se manifester par le non rejet d’hypothèses H0 fausses.

  • Test de Ryan :
Le test de Ryan constitue le meilleur compromis entre la puissance du test SNK et le contrôle du pEE assuré par le test de Tuckey. Pour ce faire, la procédure de Ryan consiste à modifier le seuil de rejet de H0 en fonction du nombre de groupes inclus dans le sous-groupe considéré.

On passe ainsi de α à c.α/k adapté pour chaque comparaison, avec :
- c = nombre de groupes dans le sous-groupe considéré,
- k = nombre total de groupes à comparer.

  • Test de Dunnett :
Ce test est spécifique à la situation où l’on souhaite comparer les différents groupes à un seul et unique groupe témoin (ou de référence). On n’est donc plus à proprement parler dans une comparaison a posteriori puisque le nombre et les détails des comparaisons multiples sont fixés a priori : sur k groupes différents à comparer, on va effectuer k-1 comparaisons.

Comme les tests précédents, le test de Dunnett est basé sur le principe dit de « l’écart studentisé », en utilisant toutefois la valeur limite tirée d’une table spécifique, calculée de telle façon que le pEE est contrôlé : la table de Dunnett.


La version 2.4 de StatEL (novembre 2009) propose ces fonctionnalités dans les procédures de tests a posteriori, accessibles lors des processus d'Anova et d'Ancova. Vous avez ainsi la garantie du contrôle de l'erreur de l'ensemble lors de vos comparaisons multiples. En ce qui concerne le test SNK qui maîtrise moins bien l'augmentation de ce risque, StatEL vous alerte lorsque celui-ci dépasse les valeurs autorisées.

Aucun commentaire:

Publier un commentaire