Lorsque l’on compare deux traitements, toutes différences de résultats peuvent être simplement dues à l’effet du hasard. Par exemple, prenons le cas d’une comparaison entre un nouveau traitement et un traitement standard au cours de laquelle 4 personnes ont connu des améliorations avec le nouveau traitement et 6 avec le traitement standard. Il est clair que l’on aurait tort de conclure avec assurance que le nouveau traitement est moins performant que le traitement standard: ces résultats pourraient simplement refléter l’effet du hasard. Si cette comparaison était répétée, le nombres de patients qui connaîtraient une amélioration pourrait être inversé (6 contre 4), ou le résultat pourrait être le même dans les deux cas (5 contre 5), ou il pourrait s’agir d’un autre ratio encore.
Toutefois, si 40 personnes voyaient leur état s’améliorer avec le nouveau traitement et 60 avec le traitement standard, il est moins probable que l’effet du hasard puisse être à l’origine de cette différence. Et si 400 personnes connaissaient une amélioration avec le nouveau traitement contre 600 avec le traitement standard, il serait alors clairement probable que le nouveau traitement est moins bon que le traitement standard. Ainsi, le moyen de réduire les probabilités d’être induit en erreur par l’effet du hasard dans les comparaisons de traitements consiste à veiller à ce que les essais contrôlés comprennent un nombre suffisant de personnes qui enregistrent les résultats sur lesquels on espère avoir une influence, à savoir une amélioration ou une détérioration.
Dans certains cas, un très grand nombre de personnes – des milliers voire parfois des dizaines de milliers – doivent participer à des essais contrôlés pour obtenir des estimations fiables des effets des traitements. Il faut un grand nombre de participants, par exemple, si les résultats du traitement présentant un intérêt sont rares –par exemple, les crises cardiaques et les attaques cérébrales chez des femmes d’âge moyen apparemment en bonne santé qui utilisent le traitement hormonal substitutif (THS). Il faut aussi un grand nombre de participants pour pouvoir détecter sur une base fiable des effets modérés mais importants des traitements –par exemple, une réduction de 20 % du risque de décès prématuré chez les personnes ayant des crises cardiaques.
Afin d’évaluer l’effet du hasard sur les résultats des essais contrôlés, les chercheurs font appel à des ‘essais statistiquement significatifs’. Lorsque les statisticiens et d’autres font références à des ‘différences significatives’ entre les traitements, ils font généralement référence à des différences statistiquement significatives. Des différences statistiquement significatives entre des traitements ne revêtent pas nécessairement une importance pratique. Toutefois, des essais statistiquement significatifs sont importants car ils nous aident à éviter de conclure de façon erronée qu’il existe des différences réelles entre les traitements alors que ce n’est pas le cas – ce qu’on appelle parfois des erreurs de Type I.
Il est également important de tenir compte d’un nombre suffisamment important de résultats du traitement pour éviter un danger beaucoup plus répandu – le fait de conclure qu’il n’existe pas de différences entre les traitements alors qu’en fait il y en a. Ces erreurs sont parfois appelées erreurs du Type II. Thomas Graham Balfour était conscient de ce risque lorsqu’il a interprété les résultats de son essai sur les allégations selon lesquelles la belladone pouvait empêcher les orphelins dont il s’occupait de développer la scarlatine(Balfour 1854). Deux des 76 garçons à qui de la belladone avait été administré ont développé la scarlatine contre 2 sur 75 parmi ceux qui n’avaient pas reçu ce médicament. Balfour a noté que “ces chiffres sont trop limités pour servir de base à des déductions sur les pouvoirs prophylactiques de la belladone”. Si davantage de garçons avaient développé la scarlatine, Balfour aurait pu tirer des conclusions plus sûres sur les effets possibles de la belladone. En l’occurrence, il a simplement noté que 4 cas de scarlatine sur 151 garçons était un chiffre trop bas pour pouvoir en tirer une conclusion solide.
Une méthode qui réduit les probabilités que nous soyons induits en erreur par l’effet du hasard consiste à estimer une fourchette de différences de traitements parmi lesquelles il est probable que se situent les différences réelles (Gavarret 1840 ; Huth 2006). Les estimations à l’intérieur de cette fourchette sont appelées des intervalles de confiance. Comme illustré dans le paragraphe d’introduction de cet essai, il est probable que le fait de reproduire une comparaison de traitement donne des estimations variables des effets différentiels des traitements sur les résultats, en particulier si les estimations reposent sur un petit nombre de résultats. Les intervalles de confiance tiennent compte de cette variation. Les intervalles de confiance sont plus révélateurs que de simples tests de signification statistique, et ils contribuent donc davantage à réduire la probabilité que l’effet du hasard nous induise en erreur.
Les essais statistiques et les intervalles de confiance – qu’il s’agisse d’analyser des études individuelles ou de méta-analyses d’un certain nombre d’études séparées mais similaires – nous aident à tenir compte de l’effet du hasard et à éviter de conclure que les traitements ont des effets ou présentent des différences lorsque ce n’est pas le cas, ou l’inverse.