Sciences et Statistiques : devons-nous aller au-delà de la P-Value ?
Illustration Pixabay
Voilà bien longtemps que je n'avais pas écrit ici, dans un regain de motivation et par envie d'apprendre et de partager, je vous propose un premier article sur les pratiques communes en sciences expérimentales, les principales erreurs et bonnes pratiques. Sur ce, bonne lecture et à bientôt !
La P-Value en Sciences expérimentales
En Sciences expérimentales, il est d’usage d’avoir recours à des tests statistiques permettant dans la plupart des cas de tester les différences entre au moins deux échantillons.
Prenons l’exemple d’un protocole expérimental des plus simples : je pense que ma nouvelle molécule A est susceptible de réduire la vascularisation d’une métastase. Je peux alors dresser deux groupes avec (i) mon groupe témoin prenant un traitement classique, et (ii) mon groupe prenant un traitement à base de ma molécule A, le tout pendant X semaines.
Connaissant l’état initial des métastases de mes patients et récupérant l’état des métastases après X semaines vient l’heure de tester mes hypothèses selon la logique du null hypothesis significance testing (NHST) proposé par Fisher au milieu des années 1920. Je pose l’hypothèse nulle (H0) que mon nouveau traitement n’est pas plus efficace que le traitement classique, et (H1) l’hypothèse que mon traitement est plus efficace que celui du groupe témoin.
En supposant que mes variables suivent une distribution normale et une homoscédasticité, je peux réaliser une Anova à une voie dont un des principaux résultats sera la p-value. Il fait habitude de dire que si cette p-value est inférieure à .05, un effet est significatif et qu’il est alors possible de rejeter H0 et d’accepter H1.
Grandement utilisée, cette méthodologie semblerait poser certains problèmes, à tel point que certains journaux comme Basic and Applied Social Psychology l’ont interdite dès 2015 [1].
P-Value : erreurs et abus
p-hacking (n.). Tune your data analysis in a way that you achieve a significant p-value in situations where it would have been non-significant.
Questionable research practices (QRPs) (n.). Practices of data collection and data analysis that are not outright fraud, but also not really kosher. [2]
Que ces pratiques soient volontaires ou non, fruits d’un biais de publication ou non, elles indiquent que la p-value peut être utilisée pour dresser de mauvaises inférences sur des données bruitées. De plus, même quand les méthodologies utilisées sont correctes, la p-value peut être largement surestimée [3].
Autre problème, la p-value ne peut qu’invalider H0 et ne peut l’accepter comme vraie, parce qu’un résultat non significatif ne veut pas dire qu’il n’y a pas de différence entre les groupes ni une inefficacité du traitement [4].
Même s’il y a absence de consensus, le cadre Bayésien semble être une manière de dépasser ces problèmes et de dépasser cette dichotomisation du monde, entre le statistiquement significatif ou non. Un effet rapporté à .051 est-il dans la réellement non significative au regard d’un effet à .049 ? D’autant plus que l’effet à .051 verra ses chances d’être moins discuté, passé sous silence ou même de subir ledit biais de publication s’accroître.
Rééduquer ou Bifurquer ?
« The concept of statistical significance is analogous to ‘beyond reasonable doubt’ in the justice system — it reflects the uncertainty in data that people are prepared to accept. In my view, banning the use of statistical significance would be impractical. » – [5]
L’utilisation de la p-value, et notamment l’utilisation d’un seuil (p<.05, <.01, etc…) est intuitive et aide à la prise de décision, surtout dans les milieux critiques comme la médecine.
Éduquer les chercheurs sur les alternatives à la p-value est viable, mais il est important de spécifier sous quelles circonstances la bonne utilisation de la p-value répond à une question réellement pertinente dans un travail de recherche [6]. Pour Zhang (2019), il convient de rééduquer les chercheurs à la p-value : le concept de significativité statistique est pratique, simple et relativement efficace. Cependant, il est important de rappeler qu’il ne s’agit pas d’une mesure absolue.
Pour The American Statistician [7], il ne faut pas :
- Baser ses conclusions seulement si une association ou un effet est dit « statistiquement significatif »,
- Croire qu’un effet ou une association existe juste parce qu’il est statistiquement significatif,
- Croire qu’un effet ou une association n’existe pas juste parce qu’il n’est pas statistiquement significatif,
- Croire que la p-value donne la probabilité que la chance seule ait produit l’association ou l’effet observé ou la probabilité de l’hypothèse testée (H0),
- Conclure quelque chose de scientifique en se basant sur la significativité ou non statistique.
A contrario de la méthode fréquentiste, l’approche Bayésienne détermine la probabilité d’un effet, sachant les observations fournies par les données recueillies. De nombreuses analyses bayésiennes existent, comme le Bayes Factor (BF), la Region of Practical Equivalence (ROPE), ou la Probabilité de Direction (PD). Ces différentes méthodes sont comparées dans un rapport de Makowski et al., 2019.
Grâce aux avantages qu’il semble procurer, le cadre théorique Bayésien gagne en popularité parmi les sciences expérimentales telles que les neurosciences ou la psychologie. Il permettrait entre autre d’accroître la reproductibilité, la précision face aux données bruitées, une meilleure précision avec de petits échantillons et une diminution des erreurs de type I (faux positifs) [3].
Pour Lakens (2019), combiner la p-value - quand elle répond au besoin d’un test d’hypothèse - avec une approche Bayésienne semble être l’approche la plus prometteuse, tout simplement parce qu’il n’existe pas d’alternative consensuelle surpassant la p-value quand il est question d’une prise de décision. Dans la plupart des cas, les résultats entre les deux approches seront hautement similaires.
Quoiqu’il en soit, « Let’s be clear about what must stop: we should never conclude there is ‘no difference’ or ‘no association’ just because a P value is larger than a threshold such as 0.05 or, equivalently, because a confidence interval includes zero. Neither should we conclude that two studies conflict because one had a statistically significant result and the other did not. These errors waste research efforts and misinform policy decisions. » – [4]
Pour reprendre les propos de Lakens (2019), il est plus attractif de développer de nouveaux tests statistiques alternatifs à la p-value, mais ce n’est une forme d’échappatoire à la tâche plus complexe qu’est d’enseigner aux chercheurs à se poser les bonnes questions. Effectivement, l’approche Bayesienne offre de nouveaux points de vue, novateurs et moins sensibles à une mauvaise interprétation, mais le cœur de la question reste « que voulons-nous vraiment savoir ? ». Nos résultats ne devraient en aucun cas être dichotomisés, trichotomisés ou n-chotomisés, encore moins via un seuil de significativité statistique basé sur la p-value.
« 'Accept uncertainty. Be thoughtful, open, and modest.' Remember ‘ATOM’ » [7].
Pour aller plus loin
- Comparaison des différentes méthodes bayésiennes candidates pour le remplacement de la p-value : D. Makowski, M. S. Ben-Shachar, S. A. Chen, and D. Lüdecke, “Indices of Effect Existence and Significance in the Bayesian Framework,” PsyArXiv, preprint, Sep. 2019.
- R. L. Wasserstein, A. L. Schirm, and N. A. Lazar, “Moving to a World Beyond ‘p < 0.05,’” Am. Stat., vol. 73, no. sup1, pp. 1–19, Mar. 2019.
Références
[1] « Psychology journal bans P values, » Nature, vol. 519, p. 9, 05— Mar-2015.
[2] F. Shönbrodt, “Learn to p-hack like the pros!,” Ludwig-Maximilians-Universität München.
[3] D. Makowski, M. S. Ben-Shachar, S. A. Chen, and D. Lüdecke, “Indices of Effect Existence and Significance in the Bayesian Framework,” PsyArXiv, preprint, Sep. 2019.
[4] V. Amrhein, S. Greenland, and B. McShane, “Retire statistical significance,” p. 3.
[5] H. Zhang, “Stats: Educate p-value abusers,” Nature, vol. 569, p. 336, 16-May-2019.
[6] D. Lakens, “The practical alternative to the p-value is the correctly used p-value,” PsyArXiv, preprint, Apr. 2019.
[7] R. L. Wasserstein, A. L. Schirm, and N. A. Lazar, “Moving to a World Beyond ‘p < 0.05,’” Am. Stat., vol. 73, no. sup1, pp. 1–19, Mar. 2019.
Bannière par @nitesh9 et @rocking-dave
Merci aux communautés #SteemSTEM et #FrancoSTEM pour leur aide et leur soutien ! <3
Je suis content que tu aies mentionne le Bayes factor. Pour moi, c'est quelque chose qu'il faudrait toujours calculer pour verifier la solidite d'un signal. Il y a un super article la-dessus, qui discute notamment la decouverte des ondes gravitationelles et le fameux exces a 750 GeV du LHC.
Je suis complètement d'accord, le problème c'est qu'encore aujourd'hui à l'université (du moins celle où je suis), on n'enseigne que les bases fréquentistes - parfois même sans réellement expliquer la théorie derrière la p-value - en omettant complètement les autres approches qui sont pourtant complémentaires... Merci beaucoup pour le papier, je vais regarder ça !
Dans beaucoup de cas (en tous cas pour les physiciens), les stats sont apprises dans le cadre de la formation doctorale (donc en dehors du cursus standard). Le volume horaire n'est souvent pas la (meme si il existe des exceptions au travers d'ecoles dediees telles que SOS en France).