jeudi 29 janvier 2009

Les risques d'erreur lors des comparaisons multiples

Une question récurrente d'utilisateurs de StatEL (et au demeurant tout à fait légitime) m'incite à publier ce message. Puisqu'on est capable de comparer les moyennes entre 2 groupes de sujets (t de Student, ou autre), pourquoi ne pas multiplier les comparaisons 2 à 2 lorsqu'on a plus que 2 goupes à comparer ?

Avant d'aller plus loin sur ce thème, je précise tout de suite que la bonne démarche dans un tel cas de figure est d'entreprendre une Anova, bien plus adaptée que le test t de Student. Ce dernier teste l'hypothèse H0 suivante : les 2 échantillons étudiés proviennent d'une même population de sujets ; ce qui se manifeste par 2 distributions présentant les caractéristiques de celle de la population (sous condition d'une distribution selon la loi de Gauss).

Ainsi, prélevons K échantillons de sujets à partir d'une seule et même poplation, on s'attend à ce que la distribution de chacun des K échantillons se rapproche de celle de la population, de même que leurs moyennes. Pourtant, par le biais des fluctuations de l'échantillonnage aléatoire, rien n'exclut la possibilité de prélever un échantillon dont la distribution et la moyenne s'écartent fortement de celles de la population. Il est facile de mesurer que ce risque s'accroît avec le nombre d'échantillons ; et donc avec le nombre de comparaisons 2 à 2 (pour coller avec le sujet de ce message).

En multipliant les comparaisons de moyennes 2 à 2, on augmente donc le risque de rejeter à tort l'hypothèse H0 d'égalité des moyennes (risque alpha de première espèce). L'intérêt de l'Anova, dont le calcul porte sur les composantes de la variance des échantillons, est de s'affranchir de ce problème. [En revanche, elle ne permet pas à elle seule d'affiner les conclusions quant aux comparaisons inter-groupes ; il faut nécessairement passer par les tests a posteriori (post hoc tests en anglais).]

Exemple : supposons qu'une Anova réalisée sur 5 groupes de sujets (H0 : les moyennes des différents groupes ne sont pas significativement différentes / H1 : il existe au moins 1 groupe dont la moyenne diffère significativement des autres) ne permette pas le rejet de H0. Si on décide, à la place de faire les comparaisons 2 à 2, on est amené à effectuer (5x4)/2 = 10 comparaisons successives, au cours desquelles le risque de rejeter H0 à tort augmente de façon multiplicative (et non pas additive).

Il convient donc de distinguer :
  • le risque d'Erreur par Comparaison (EC / "Comparison Error Rate" en anglais) correspondant au risque alpha de première espèce (concernant le risque de rejeter H0 à tort sur une seule comparaison entre 2 moyennes),
  • le risque d'Erreur de l'Ensemble (EE / "Family Wise Error Rate" en anglais) correspondant au risque cumulé de rejeter à tort H0 au cours des comparaisons multiples ; ce risque s'accroît avec le nombre de comparaisons.
Le calcul de ce risque EE (a') s'effectue à partir du risque EC (a) de plusieurs façons selon les auteurs ("c" est le nombre de comparaisons 2 à 2) :
  • selon Bonferroni : a' = a . c
  • selon Sidak : a' = 1 - (1 - a)c
Ainsi, pour reprendre notre exemple où on disposait de 5 groupes à comparer entre eux (donc 10 comparaisons possibles) :
  • selon Bonferroni : a' = 0.05 x 10 = 0.5 (50 % de risque de commettre une erreur de première espèce parmi les 10 comparaisons)
  • selon Sidak : a' = 1 - (1 - 0.05)10 = 0.4 (40 % de risque de commettre une erreur de première espèce parmi les 10 comparaisons)

Afin de ne pas voir ce risque EE "trop" augmenter au cours des comparaisons multiples, il convient de réduire le risque EC (risque alpha de première espèce) pour chaque comparaison entre 2 moyennes. Le calcul de ce nouveau risque alpha se fait également selon des formules différentes selon les auteurs ("c" reste le nombre de comparaisons 2 à 2) :
  • selon Bonferroni : a = a' / c
  • selon Sidak : a = 1 - (1 - a')1/c
Reprenons une dernière fois notre exemple et calculons le risque alpha à ne pas dépasser pour chaque comparaison 2 à 2 afin de limiter EE à 0.05 au terme des 10 comparaisons :
  • selon Bonferroni : a = 0.05 / 10 = 0.005
  • selon Sidak : a = 1 - (1 - 0.05)1/10 = 0.005

mardi 27 janvier 2009

StatEL pour les utilisateurs de Mac OS X : qu'en est-il d'Excel 2008 ?

Pour la sortie de son dernier Pack Office pour Mac OS X en 2008, Microsoft a préféré le délester du module VBA (Visual Basic for Applications). Pour celles et ceux qui ne sont pas familiers avec ce nom, il s'agit ni plus ni moins du langage de programmation qu'utilisaient jusque là tous les utilisateurs de Word, Excel, Powerpoint... pour mettre au point leurs propres macros destinées à simplifier certaines tâches répétitives, ou pour effectuer des manoeuvres spécifiques.

Sans VBA, plus de programmation possible. Du même coup, pas de StatEL non plus sur la version Excel:Mac 2008. Les utilisateurs de Mac OS X qui veulent utiliser StatEL doivent disposer d'une version Excel X (version 10) ou Excel 2004 (version 11). Il est toutefois possible d'installer Excel 2008 en plus d'Excel 2004 sur son Mac, StatEL ne fonctionnera que sur la version 2004.

Est-ce du coup la fin de l'existence de StatEL sur la plate-forme Mac ? Que nenni!
Devant la levée de boucliers et les clameurs de protestations qui se sont multipliées face au retrait du langage de programmation sur leurs logiciels de bureautique, et donc l'impossibilité pour tous les Macophiles d'utiliser leurs anciennes macros, il semble bien que Microsoft soit décidé à faire machine arrière.

L'information n'était pas aisée à avoir, mais voici le message que j'ai reçu d'une chargée de communication chez Microsoft France :

En ce qui concerne le support de macros VBA sur Office Mac, ce langage sera à nouveau supporté sur la prochaine version d’Office Mac, actuellement en cours de développement et qui sera disponible d’ici 2-3 ans. Il n’y a pour le moment aucun projet de développement rapide d’une mise à jour permettant le retour de VBA sur la version actuelle.

Q. Will you include VBA support in future Office 2008 for Mac releases?
A. The Mac BU understands that VBA support is critical for some users and we will be delivering support in the next version of Office for Mac.

Q. Are you recommending that customers who need VBA support stick with Office for Mac 2004 and wait for the next version?
A. Office 2008 for Mac allows Mac users to work smarter and more efficiently with tools that are simple, intuitive and easily discovered and includes many functionality advancements over Office 2004. These advancements include native OpenXML file format compatibility with Office 2007 for Windows, and Office 2008 is a Universal application which supports the processing improvements of the Intel platform. New features include the Elements Gallery, Document Elements, Publishing Layout View, My Day, OfficeArt, SmartArt Graphics, Ledger Sheets, Building Charts and a revamped Toolbox. To take advantage of these advances while still maintaining the ability to run VBA macros, users can run Office 2004 and Office 2008 for Mac side-by-side.
Many users access VBA macros only in one application of the suite, for example, Excel for Mac; in these instances, only that application would be run concurrently. Users can open documents containing VBA macros in both products.

Q. What about users who do not require cross-platform functionality?
A. Users can use AppleScript to migrate VBA macros that they wish to continue using and adapt to their workflow. While AppleScript is not a cross-platform solution, it is the Apple standard scripting language on Mac OS/X and may be appropriate for some automation tasks. Microsoft has provided resources to help developers with this task on www.microsoft.com/mac.

Q. What is happens when a user tries to open a file with VBA?
A. While VBA macros within files will not be accessible and cannot be viewed or modified, the files themselves can be edited without affecting or changing the macros.

Q. Why can’t you just update Office 2008 for Mac to include VBA support?
A. Transporting VBA to the Intel platform is a time intensive process and it makes more sense to build it in to the next version of Office for Mac. This will allow the Mac BU to meet its development cycle for the next product.

Q. I’ve heard that Windows Office team is moving away from VBA?
A. While I can’t comment for the Windows team, I can tell you that the Mac BU wants to provide the best compatibility experience and VBA is part of that for a select set of users so we are bringing back VBA support in the next version of Office for Mac.

Q. What version of VBA bring back – is it the same version as in 2004?
A. The Mac BU is still determining the exact version, but I can tell you that users will have the compatibility level that was provided in 2004 and probably will see an increased level.

Q. Will you be continuing and expanding your support for other Macintosh automation technologies, for example Apple Script and Automator, in the next version of Office for Mac?
A. Yes, we will continue to expand the support for these important Apple technologies in the next version of Office for Macintosh.

Q. Will the removal of VBA in Office 2008 for Mac cause problems for cross-platform compatibility?
A. No. We are committed always to delivering seamless cross-platform compatibility and will continue to do so. In developing Office 2008 for Mac, we worked to ensure that files were compatible across platforms, including the Microsoft Office System 2007. Although VB macros within files will not be accessible and cannot be viewed or modified, the files themselves can be edited without affecting or changing the macros.

Q. Did you remove VBA due to security concerns?
A. No. Transporting VBA over to the Intel platform would take more than two years of development time. The impact of this intensive transition would have ultimately lead to a delay in the release of Office 2008 for Mac. Since there are viable alternatives available to the developer community, we decided to remove VBA script support. However, we have plans to deliver support in the next version of Office for Mac.

Vérification des conditions d'utilisation d'un test

Après le choix du test statistique, c'est le second 'gros' problème dans la réalisation d'un test . C'est aussi la cause de nombreuses conlusions erronées ; on ne voit bien souvent que ce que l'on veut voir (ex : p < 0.05).

Bien sur, quand on compare les moyennes d'une variable numérique entre 2 groupes de sujets, souvent on 'a envie' que la différence soit significative, parce que cela va dans le sens de notre objectif. Malheureusement, la fiabilité du 'p < 0.05' repose sur des hypothèses qui doivent impérativement être vérifiées (dans le cas des tests paramétriques, c'est à dire les plus courants), sous peine d'arriver à une conclusion totalement fausse. Le chercheur un peu trop pressé met ainsi en jeu sa crédibilité, sa réputation et celles de la structure dans laquelle il évolue.

Je viens maintenant à la défense de cette grande part des utilisateurs de la statistique car, à leur décharge, les logiciels statistiques du marché sont (probablement) tous d'excellents calculateurs mathématiques, mais réservés aux professionnels de la statistique. Ces logiciels partent du postulat que l'utilisateur doit connaître les spécificités du test pratiqué. Malheureusement, en France, la statistique est le parent pauvre des formations scientifiques, médicales et d'ingénierie (et il y a peu de chances que cela s'arrange au vu des discussions que je peux avoir avec des enseignants en statistique). Au final, une majorité d'utilisateurs 'se débrouillent' avec ce qu'ils ont à leur disposition, car peu ont le temps de se plonger dans les ouvrages de référence sur l'analyse statistique des données. Du coup, le risque d'erreur dans l'interprétation des résultats est criant.

A l'inverse des autres logiciels de statistique du marché, StatEL ne participe pas à la course à l'exhaustivité des tests proposés. StatEL propose les tests les plus courants (généralistes ou un peu plus spécialisés), mais en vous assurant que les conlusions présentées répondent aux exigences inhérentes à chaque test utilisé.

Ainsi, lorsque cela est requis, StatEL vérifie toujours les conditions d'utilisation du test statistique que vous avez choisi d'exécuter, vous signale par un message d'alerte si une condition n'est pas respectée et, le cas échéant, vous indique le nom d'un test de substitution que vous pouvez pratiquer.

Vous êtes donc pris en charge par StatEL pour, au final, arriver à une conclusion qui tiendra compte de tous les paramètres inhérents au test pratiqué, que vous ne connaissez pas forcément.

Visualisez cette vidéo pour vous convaincre de l'intérêt de StatEL dans la vérification des conditions d'utilisation d'un test :

Comment StatEL vous aide-t-il à choisir un test ?

Une des grandes difficultés pour les utilisateurs non-professionnels de la statistique est d'identifier le test le plus adapté au problème posé. Il est vrai que le choix est vaste et que certains tests présentent des particularités tellement précises qu'il est parfois difficile de ne pas se tromper.

StatEL vous aide dans le choix de ce test au moyen d'un utilitaire spécialement développé à cet effet. Un simple jeu de questions/réponses (1 seule question à chaque étape / 1 seule réponse possible) vous permet de définir précisément votre problématique et d'identifier ainsi le test ad hoc, que vous pourrez lancer directement au terme de cette procédure.

Regardez cette video pour apprécier la façon dont StatEL vous aide à sélectionner le test le plus adapté à votre cas de figure.


lundi 26 janvier 2009

Utilisation type de StatEL

StatEL est une nouvelle gamme de logiciels de statistiques, fonctionnant directement sur le tableur Excel, en version française / anglaise, et spécialement développés dans un esprit didactique pour tous les utilisateurs de la statistique, quel que soit leur niveau de compétences (en particulier les débutants et ceux pour qui la statistique est une épreuve).

Puisque StatEL est accessible à tous, nombre de ses utilisateurs se plaisent à le décrire comme "un logiciel de statistique pour les nuls, comme nous".

Pour ceux qui douteraient encore de la simplicité d'utilisation de StatEL et de sa capacité d'encadrement de l'utilisateur, regardez simplement cette vidéo.

Naissance du blog ad Science

Le blog de la société ad Science est enfin né. StatEL, logiciel de statistique intégré à Excel en est le produit phare.
Que vous soyez déjà utilisateur de StatEL, ou simplement curieux des fonctionnalités de cet outil, sentez vous libre de participer à ce blog en y exprimant :
Un des objectifs de ce blog est de vous donner des informations régulières sur les logiciels de la société ad Science, mais également de vous faire parler et partager sur vos expériences de chercheurs, scientifiques, médecins, enseignants, professionnels, ingénieurs, étudiants... quant à l'utilisation de l'outil statistique dans votre activité.

A vos claviers...