Blog de la Société ad Science

jeudi 12 novembre 2009

Caractéristiques de quelques tests a posteriori de comparaisons par paires (post hoc tests)

Tous les tests a posteriori que nous allons évoquer ci-dessous sont basés sur le même principe dit de « l’écart studentisé » ou « studentized range ». Celui-ci consiste à calculer le rapport de l’écart entre les 2 moyennes à comparer avec une valeur issue de la variance résiduelle (carré moyen résiduel) de l’Anova réalisée au préalable.

Q = |M1 - M2 | / (MCR / n)¹/²

La valeur obtenue (Q) sera comparée à une valeur théorique, spécifique du test considéré et dont l’intérêt réside dans l’équilibre entre puissance du test et contrôle du risque d’erreur de l’ensemble pEE (i.e. maintenir un risque d’erreur de 1ère espèce à 5% en dépit de la répétition des comparaisons 2 à 2).

Test LSD de Fisher : Least Significant Difference (PPDS ou Plus Petite Différence Significative).

L’approche de ce test consiste à calculer quel est le plus faible écart entre 2 moyennes en deçà de laquelle la différence n’est plus significative (au risque de 1ère espèce considéré).

Toutefois, ce test contrôle très mal l’augmentation de pEE avec la multiplication des comparaisons, de fait dès 3 comparaisons. Pour résoudre cette difficulté, on peut corriger la valeur limite de comparaison en réduisant le risque de 1ère espèce pour chacune des comparaisons 2 à 2. Autrement dit, on n’effectue plus chaque comparaison 2 à 2 avec un risque α = 0.05, mais en utilisant une valeur α’ inférieure.

Deux types de corrections ont été proposés :
- Bonferroni remplace α par α / (c-1)
- Sidak remplace α par 1 - (1- α)c
avec c = nombre de comparaisons

Au final, pEE est toujours maintenu à une valeur inférieure à 5%. Le revers de la médaille est que ce test devient très conservateur, c'est-à-dire qu’il finit pas ne plus rejeter l’hypothèse H0 d’égalité des moyennes lorsque l’écart entre celles-ci est faible.

Test SNK, de Student, Newman & Keuls : PPAS (Plus Petite Amplitude Significative)

Ce test a pour objectif de contrôler l’augmentation du pEE en limitant le nombre de comparaisons 2 à 2. Pour ce faire, il compare les moyennes dans un ordre bien précis :
- soient les moyennes de 5 groupes classées par ordre croissant (m1 < m2 < m3 < m4 < m5),
- la première comparaison s’effectue entre m1 et m5, supposons que la valeur du p permette de rejeter H0,
- la comparaison suivante concerne m1 et m4 mais cette fois la valeur du p ne permet pas le rejet de H0, dans ce cas, la procédure de comparaison ne poursuivra pas en étudiant les moyennes m1 vs m3 ou m1 vs m2 puisque leurs écarts sont moins importants qu’entre m1 et m4,
- la procédure de comparaison se poursuit entre m2 et m5, etc…

Caractéristique : la valeur limite utilisée dans ce calcul est fonction du nombre de groupes inclus dans le sous-groupe considéré (ex : entre m1 et m5 le nombre de groupes est 5, entre m2 et m5 le nombre de groupes est 4…).

Ce test est plus puissant que le test LSD, en revanche le contrôle de l’augmentation du pEE est assez peu efficace et, au final on peut arriver à des risques d’erreur de l’ensemble nettement supérieurs au risque d’erreur par comparaison.

Test HSD de Tuckey : Honestly Significant Difference

Même s’il procède à la totalité des comparaisons possibles, le test HSD est similaire au test SNK à la différence près qu’il compare chaque paire de moyennes (d’un sous-groupe de moyennes) en utilisant la valeur limite correspondante au nombre total de groupes à comparer.

De ce fait, le test HSD de Tuckey contrôle mieux que le test SNK le risque d’erreur de l’ensemble, lequel ne dépassera jamais le risque d’erreur par comparaison. La contrepartie est qu’il est du coup moins puissant (ou plus conservateur) que le test SNK, ce qui peut se manifester par le non rejet d’hypothèses H0 fausses.

Test de Ryan :

Le test de Ryan constitue le meilleur compromis entre la puissance du test SNK et le contrôle du pEE assuré par le test de Tuckey. Pour ce faire, la procédure de Ryan consiste à modifier le seuil de rejet de H0 en fonction du nombre de groupes inclus dans le sous-groupe considéré.

On passe ainsi de α à c.α/k adapté pour chaque comparaison, avec :
- c = nombre de groupes dans le sous-groupe considéré,
- k = nombre total de groupes à comparer.

Test de Dunnett :

Ce test est spécifique à la situation où l’on souhaite comparer les différents groupes à un seul et unique groupe témoin (ou de référence). On n’est donc plus à proprement parler dans une comparaison a posteriori puisque le nombre et les détails des comparaisons multiples sont fixés a priori : sur k groupes différents à comparer, on va effectuer k-1 comparaisons.

Comme les tests précédents, le test de Dunnett est basé sur le principe dit de « l’écart studentisé », en utilisant toutefois la valeur limite tirée d’une table spécifique, calculée de telle façon que le pEE est contrôlé : la table de Dunnett.

La version 2.4 de StatEL (novembre 2009) propose ces fonctionnalités dans les procédures de tests a posteriori, accessibles lors des processus d'Anova et d'Ancova. Vous avez ainsi la garantie du contrôle de l'erreur de l'ensemble lors de vos comparaisons multiples. En ce qui concerne le test SNK qui maîtrise moins bien l'augmentation de ce risque, StatEL vous alerte lorsque celui-ci dépasse les valeurs autorisées.

vendredi 6 novembre 2009

Comparaisons a priori versus comparaisons a posteriori

Une comparaison est l’exécution de la procédure destinée à répondre à une hypothèse de l’expérimentateur, on en définit 2 sortes :

la comparaison a priori répond à une hypothèse établie avant la réalisation de l’analyse statistique, lors de l’établissement du protocole ;
la comparaison a posteriori n’est pratiquée qu’après recueil et examen préliminaire des données (en particulier des moyennes et des écart-types des groupes à comparer).

Pour bien saisir la différence entre les deux, prenons l’exemple d’une situation où l’on est amené à étudier l’influence d’un paramètre à 5 modalités sur la mesure d’une variable quantitative. Le protocole nous conduit à étudier 5 groupes différents d’où sont calculées 5 valeurs moyennes. Dans l’analyse la plus exhaustive, on serait amené à effectuer C²₅ comparaisons, soient (5*4)/2=10 comparaisons, ce qui entraîne inévitablement une augmentation du risque d’erreur de l’ensemble (rejet à tort de H0).

1^er cas : le choix de 2 moyennes à comparer est planifié à l’avance. Dans ce cas, on ne cours qu’une seule fois le risque de commettre une erreur de 1^ère espèce (rejet à tort de H0 avec un risque d’erreur à 5%).

2^ème cas : on examine au préalable les statistiques descriptives des différents groupes avant de décider lesquels doivent être comparés. Dans ce cas, par processus mental, on exécute déjà un certain nombre de comparaisons 2 à 2, en excluant de l’analyse postérieure les groupes dont l’écart entre les moyennes est le plus réduit. Cette situation équivaut à effectuer la totalité des comparaisons des groupes par paires et donc à augmenter le risque d’erreur de l’ensemble.

On mesure bien avec cet exemple que, si le choix du (ou des) groupe(s) à comparer est effectué a priori, le risque de commettre une erreur de première espèce est bien moindre que si on effectue des comparaisons a posteriori.

Faut-il, du coup, s’interdire de pratiquer des tests a posteriori ? bien évidemment non. Toutefois, il est crucial de bien maîtriser les spécificités de ceux-ci afin de connaître leurs limites et identifier lesquels contrôlent suffisamment l’augmentation du risque d’erreur de l’ensemble.

Remarque : le test de Dunnett (comparaisons de groupes par rapport à un groupe témoin, ou de référence) est toujours considéré comme un test a posteriori (StatEL ne fait pas exception). Toutefois, stricto sensu, celui-ci est typiquement un test défini a priori puisqu’on sait, dès la définition du protocole, quels groupes seront comparés 2 à 2.

dimanche 1 mars 2009

FormEL : le Data Management intégré à Excel

Complément idéal du logiciel StatEL, l'utilitaire FormEL est destiné à vous permettre de constituer une base de données de façon totalement encadrée, et bien sur intuitive.
A ce titre, FormEL intervient dans une phase située plus en amont que StatEL dans la procédure d'analyse des données.

Bien sur, les logiciels de bases de données sont déjà nombreux et fort répandus... Malheureusement, ils sont inutilisables sans avoir suivi une formation plus ou moins longue, complexe, voire coûteuse selon le logiciel considéré. Et le plus souvent, vous constatez que l'outil utilisé est surdimensionné pour l'utilité que vous en avez.

Une fois encore, la société ad Science a pris le parti de la simplicité et développé le logiciel FormEL pour la gestion de bases de données sur Excel. En effet, à l'instar de StatEL, conçu pour les utilisateurs non-professionnels de la statistique, FormEL est destiné aux utilisateurs non-professionnels des bases de données.

Les fonctionnalités de FormEL :

fabriquer un masque de saisie adapté au format de votre base de données (ne nécessite aucune compétence en programmation),

ajouter, insérer, supprimer, modifier les enregistrements de votre base de données,
vérifier automatiquement le contenu de vos enregistrements (nombre, date, liste, N° tél, email...), ainsi que les limites que vous leur aurez imposés (le cas échéant),
débrayer ces vérifications lorsque cela est nécessaire afin de ne pas être bloqué,
protéger votre base de données afin d'éviter toute modification accidentelle ou malintentionnée,
modifier a posteriori la structure d'une base de données en ajoutant, insérant ou supprimant des champs,

comparer et corriger le contenu de 2 exemplaires d'une même base de données afin de vous assurer de l'exactitude de leur contenu,

vérifier la qualité du contenu d'une base de données sur Excel qui n'a pas été conçue avec FormEL,
visualiser l'historique de votre base de données grâce aux fonction de traçabilité de FormEL,
restaurer une base de données (conçue avec FormEL) qui aurait été modifiée ou supprimée par erreur, ou encore détruite suite à un formatage du disque dur,
préparer la liste des destinataires d'un emailing (si un des champ de votre base représente une adresse email).

Outre les fonctionnalités de gestion de bases de données de FormEL, vous apprécierez ses capacités d'analyse statistique :

tri à plat (statistiques descriptives),
tri croisé (étude de liaison entre 2 variables - Chi², corrélation de Pearson, corrélation de Spearman, régression linéaire simple),
comparaison de la distribution de variables qualitatives (Chi², Fisher),
comparaison de moyennes de variables quantitatives pour séries indépendantes ou dépendantes, par les tests paramétriques et non-paramétriques,
vérifications des conditions d'utilisation des tests,
possibilité de regroupement selon les catégories de variables qualitatives,
construction automatique des graphiques (boîtes à moustaches...),
recherche automatique des valeurs atypiques et extrêmes.

Vous pouvez accéder ici à des pages plus détaillées et illustrées sur FormEL.

Vous pouvez aussi nous contacter pour bénéficier de la version de démonstration du logiciel FormEL.

jeudi 29 janvier 2009

Les risques d'erreur lors des comparaisons multiples

Une question récurrente d'utilisateurs de StatEL (et au demeurant tout à fait légitime) m'incite à publier ce message. Puisqu'on est capable de comparer les moyennes entre 2 groupes de sujets (t de Student, ou autre), pourquoi ne pas multiplier les comparaisons 2 à 2 lorsqu'on a plus que 2 goupes à comparer ?

Avant d'aller plus loin sur ce thème, je précise tout de suite que la bonne démarche dans un tel cas de figure est d'entreprendre une Anova, bien plus adaptée que le test t de Student. Ce dernier teste l'hypothèse H0 suivante : les 2 échantillons étudiés proviennent d'une même population de sujets ; ce qui se manifeste par 2 distributions présentant les caractéristiques de celle de la population (sous condition d'une distribution selon la loi de Gauss).

Ainsi, prélevons K échantillons de sujets à partir d'une seule et même poplation, on s'attend à ce que la distribution de chacun des K échantillons se rapproche de celle de la population, de même que leurs moyennes. Pourtant, par le biais des fluctuations de l'échantillonnage aléatoire, rien n'exclut la possibilité de prélever un échantillon dont la distribution et la moyenne s'écartent fortement de celles de la population. Il est facile de mesurer que ce risque s'accroît avec le nombre d'échantillons ; et donc avec le nombre de comparaisons 2 à 2 (pour coller avec le sujet de ce message).

En multipliant les comparaisons de moyennes 2 à 2, on augmente donc le risque de rejeter à tort l'hypothèse H0 d'égalité des moyennes (risque alpha de première espèce). L'intérêt de l'Anova, dont le calcul porte sur les composantes de la variance des échantillons, est de s'affranchir de ce problème. [En revanche, elle ne permet pas à elle seule d'affiner les conclusions quant aux comparaisons inter-groupes ; il faut nécessairement passer par les tests a posteriori (post hoc tests en anglais).]

Exemple : supposons qu'une Anova réalisée sur 5 groupes de sujets (H0 : les moyennes des différents groupes ne sont pas significativement différentes / H1 : il existe au moins 1 groupe dont la moyenne diffère significativement des autres) ne permette pas le rejet de H0. Si on décide, à la place de faire les comparaisons 2 à 2, on est amené à effectuer (5x4)/2 = 10 comparaisons successives, au cours desquelles le risque de rejeter H0 à tort augmente de façon multiplicative (et non pas additive).

Il convient donc de distinguer :

le risque d'Erreur par Comparaison (EC / "Comparison Error Rate" en anglais) correspondant au risque alpha de première espèce (concernant le risque de rejeter H0 à tort sur une seule comparaison entre 2 moyennes),
le risque d'Erreur de l'Ensemble (EE / "Family Wise Error Rate" en anglais) correspondant au risque cumulé de rejeter à tort H0 au cours des comparaisons multiples ; ce risque s'accroît avec le nombre de comparaisons.

Le calcul de ce risque EE (a') s'effectue à partir du risque EC (a) de plusieurs façons selon les auteurs ("c" est le nombre de comparaisons 2 à 2) :

selon Bonferroni : a' = a . c
selon Sidak : a' = 1 - (1 - a)^c

Ainsi, pour reprendre notre exemple où on disposait de 5 groupes à comparer entre eux (donc 10 comparaisons possibles) :

selon Bonferroni : a' = 0.05 x 10 = 0.5 (50 % de risque de commettre une erreur de première espèce parmi les 10 comparaisons)
selon Sidak : a' = 1 - (1 - 0.05)¹⁰ = 0.4 (40 % de risque de commettre une erreur de première espèce parmi les 10 comparaisons)

Afin de ne pas voir ce risque EE "trop" augmenter au cours des comparaisons multiples, il convient de réduire le risque EC (risque alpha de première espèce) pour chaque comparaison entre 2 moyennes. Le calcul de ce nouveau risque alpha se fait également selon des formules différentes selon les auteurs ("c" reste le nombre de comparaisons 2 à 2) :

selon Bonferroni : a = a' / c
selon Sidak : a = 1 - (1 - a')^1/c

Reprenons une dernière fois notre exemple et calculons le risque alpha à ne pas dépasser pour chaque comparaison 2 à 2 afin de limiter EE à 0.05 au terme des 10 comparaisons :

selon Bonferroni : a = 0.05 / 10 = 0.005
selon Sidak : a = 1 - (1 - 0.05)^1/10 = 0.005

mardi 27 janvier 2009

StatEL pour les utilisateurs de Mac OS X : qu'en est-il d'Excel 2008 ?

Pour la sortie de son dernier Pack Office pour Mac OS X en 2008, Microsoft a préféré le délester du module VBA (Visual Basic for Applications). Pour celles et ceux qui ne sont pas familiers avec ce nom, il s'agit ni plus ni moins du langage de programmation qu'utilisaient jusque là tous les utilisateurs de Word, Excel, Powerpoint... pour mettre au point leurs propres macros destinées à simplifier certaines tâches répétitives, ou pour effectuer des manoeuvres spécifiques.

Sans VBA, plus de programmation possible. Du même coup, pas de StatEL non plus sur la version Excel:Mac 2008. Les utilisateurs de Mac OS X qui veulent utiliser StatEL doivent disposer d'une version Excel X (version 10) ou Excel 2004 (version 11). Il est toutefois possible d'installer Excel 2008 en plus d'Excel 2004 sur son Mac, StatEL ne fonctionnera que sur la version 2004.

Est-ce du coup la fin de l'existence de StatEL sur la plate-forme Mac ? Que nenni!
Devant la levée de boucliers et les clameurs de protestations qui se sont multipliées face au retrait du langage de programmation sur leurs logiciels de bureautique, et donc l'impossibilité pour tous les Macophiles d'utiliser leurs anciennes macros, il semble bien que Microsoft soit décidé à faire machine arrière.

L'information n'était pas aisée à avoir, mais voici le message que j'ai reçu d'une chargée de communication chez Microsoft France :

En ce qui concerne le support de macros VBA sur Office Mac, ce langage sera à nouveau supporté sur la prochaine version d’Office Mac, actuellement en cours de développement et qui sera disponible d’ici 2-3 ans. Il n’y a pour le moment aucun projet de développement rapide d’une mise à jour permettant le retour de VBA sur la version actuelle.

Q. Will you include VBA support in future Office 2008 for Mac releases?
A. The Mac BU understands that VBA support is critical for some users and we will be delivering support in the next version of Office for Mac.

Q. Are you recommending that customers who need VBA support stick with Office for Mac 2004 and wait for the next version?
A. Office 2008 for Mac allows Mac users to work smarter and more efficiently with tools that are simple, intuitive and easily discovered and includes many functionality advancements over Office 2004. These advancements include native OpenXML file format compatibility with Office 2007 for Windows, and Office 2008 is a Universal application which supports the processing improvements of the Intel platform. New features include the Elements Gallery, Document Elements, Publishing Layout View, My Day, OfficeArt, SmartArt Graphics, Ledger Sheets, Building Charts and a revamped Toolbox. To take advantage of these advances while still maintaining the ability to run VBA macros, users can run Office 2004 and Office 2008 for Mac side-by-side.
Many users access VBA macros only in one application of the suite, for example, Excel for Mac; in these instances, only that application would be run concurrently. Users can open documents containing VBA macros in both products.

Q. What about users who do not require cross-platform functionality?
A. Users can use AppleScript to migrate VBA macros that they wish to continue using and adapt to their workflow. While AppleScript is not a cross-platform solution, it is the Apple standard scripting language on Mac OS/X and may be appropriate for some automation tasks. Microsoft has provided resources to help developers with this task on www.microsoft.com/mac.

Q. What is happens when a user tries to open a file with VBA?
A. While VBA macros within files will not be accessible and cannot be viewed or modified, the files themselves can be edited without affecting or changing the macros.

Q. Why can’t you just update Office 2008 for Mac to include VBA support?
A. Transporting VBA to the Intel platform is a time intensive process and it makes more sense to build it in to the next version of Office for Mac. This will allow the Mac BU to meet its development cycle for the next product.

Q. I’ve heard that Windows Office team is moving away from VBA?
A. While I can’t comment for the Windows team, I can tell you that the Mac BU wants to provide the best compatibility experience and VBA is part of that for a select set of users so we are bringing back VBA support in the next version of Office for Mac.

Q. What version of VBA bring back – is it the same version as in 2004?
A. The Mac BU is still determining the exact version, but I can tell you that users will have the compatibility level that was provided in 2004 and probably will see an increased level.

Q. Will you be continuing and expanding your support for other Macintosh automation technologies, for example Apple Script and Automator, in the next version of Office for Mac?
A. Yes, we will continue to expand the support for these important Apple technologies in the next version of Office for Macintosh.

Q. Will the removal of VBA in Office 2008 for Mac cause problems for cross-platform compatibility?
A. No. We are committed always to delivering seamless cross-platform compatibility and will continue to do so. In developing Office 2008 for Mac, we worked to ensure that files were compatible across platforms, including the Microsoft Office System 2007. Although VB macros within files will not be accessible and cannot be viewed or modified, the files themselves can be edited without affecting or changing the macros.

Q. Did you remove VBA due to security concerns?
A. No. Transporting VBA over to the Intel platform would take more than two years of development time. The impact of this intensive transition would have ultimately lead to a delay in the release of Office 2008 for Mac. Since there are viable alternatives available to the developer community, we decided to remove VBA script support. However, we have plans to deliver support in the next version of Office for Mac.

Vérification des conditions d'utilisation d'un test

Après le choix du test statistique, c'est le second 'gros' problème dans la réalisation d'un test . C'est aussi la cause de nombreuses conlusions erronées ; on ne voit bien souvent que ce que l'on veut voir (ex : p < 0.05).

Bien sur, quand on compare les moyennes d'une variable numérique entre 2 groupes de sujets, souvent on 'a envie' que la différence soit significative, parce que cela va dans le sens de notre objectif. Malheureusement, la fiabilité du 'p < 0.05' repose sur des hypothèses qui doivent impérativement être vérifiées (dans le cas des tests paramétriques, c'est à dire les plus courants), sous peine d'arriver à une conclusion totalement fausse. Le chercheur un peu trop pressé met ainsi en jeu sa crédibilité, sa réputation et celles de la structure dans laquelle il évolue.

Je viens maintenant à la défense de cette grande part des utilisateurs de la statistique car, à leur décharge, les logiciels statistiques du marché sont (probablement) tous d'excellents calculateurs mathématiques, mais réservés aux professionnels de la statistique. Ces logiciels partent du postulat que l'utilisateur doit connaître les spécificités du test pratiqué. Malheureusement, en France, la statistique est le parent pauvre des formations scientifiques, médicales et d'ingénierie (et il y a peu de chances que cela s'arrange au vu des discussions que je peux avoir avec des enseignants en statistique). Au final, une majorité d'utilisateurs 'se débrouillent' avec ce qu'ils ont à leur disposition, car peu ont le temps de se plonger dans les ouvrages de référence sur l'analyse statistique des données. Du coup, le risque d'erreur dans l'interprétation des résultats est criant.

A l'inverse des autres logiciels de statistique du marché, StatEL ne participe pas à la course à l'exhaustivité des tests proposés. StatEL propose les tests les plus courants (généralistes ou un peu plus spécialisés), mais en vous assurant que les conlusions présentées répondent aux exigences inhérentes à chaque test utilisé.

Ainsi, lorsque cela est requis, StatEL vérifie toujours les conditions d'utilisation du test statistique que vous avez choisi d'exécuter, vous signale par un message d'alerte si une condition n'est pas respectée et, le cas échéant, vous indique le nom d'un test de substitution que vous pouvez pratiquer.

Vous êtes donc pris en charge par StatEL pour, au final, arriver à une conclusion qui tiendra compte de tous les paramètres inhérents au test pratiqué, que vous ne connaissez pas forcément.

Visualisez cette vidéo pour vous convaincre de l'intérêt de StatEL dans la vérification des conditions d'utilisation d'un test :

Comment StatEL vous aide-t-il à choisir un test ?

Une des grandes difficultés pour les utilisateurs non-professionnels de la statistique est d'identifier le test le plus adapté au problème posé. Il est vrai que le choix est vaste et que certains tests présentent des particularités tellement précises qu'il est parfois difficile de ne pas se tromper.

StatEL vous aide dans le choix de ce test au moyen d'un utilitaire spécialement développé à cet effet. Un simple jeu de questions/réponses (1 seule question à chaque étape / 1 seule réponse possible) vous permet de définir précisément votre problématique et d'identifier ainsi le test ad hoc, que vous pourrez lancer directement au terme de cette procédure.

Regardez cette video pour apprécier la façon dont StatEL vous aide à sélectionner le test le plus adapté à votre cas de figure.