Comparaison de différents traitements administrés à des groupes de personnes
Pour effectuer des comparaisons entre les traitements, il est normalement nécessaire de comparer les expériences de groupes de personnes qui ont reçu des traitements différents. Pour que ces comparaisons soient fiables, la composition des groupes doit être similaire – afin de comparer des choses effectivement comparables. Si ceux qui ont reçu un traitement ont de plus grandes probabilités de se porter mieux (ou plus mal) dans tous les cas que ceux qui reçoivent un traitement différent, ce biais dans la répartition fait qu’il est impossible d’être assuré que les résultats reflètent les effets différenciés des traitements et non les effets de la nature ou du temps qui passe.
Le chirurgien du 18e siècle, William Cheselden, était conscient du problème des ‘groupes dissemblables’ lorsque des chirurgiens comparait leurs taux de mortalité respectifs après des opérations pour retirer des calculs vésicaux. Cheselden soulignait qu’il état important de tenir compte de l’âge des personnes traitées par les différents chirurgiens. Il attirait l’attention sur le fait que les taux de mortalité variaient en fonction de l’âge des patients (Cheselden 1740) – les patients plus âgés avaient plus de probabilités de décéder que les patients plus jeunes. Cela signifiait que, si l’on souhaitait comparer la fréquence des décès dans des groupes de patients qui avaient subi différents types d’opérations, il fallait tenir compte des différences d’âge des patients dans les groupes de comparaison.
La comparaison des expériences et résultats de patients qui ont suivi des traitements différents par le passé est encore utilisée aujourd’hui afin d’évaluer les effets des traitements. La difficulté consiste à savoir si les groupes de comparaison étaient suffisamment similaires avant de recevoir le traitement, comme en témoigne les efforts en vue d’évaluer les effets du traitement hormonal substitutif (THS), en comparant les maladies des femmes qui ont eu recours au THS avec celles d’autres femmes qui ne l’ont pas utilisé. Comme des analyses ultérieures d’essais contrôlés du THS l’ont montré, essayer d’évaluer les effets des traitements rétrospectivement de cette façon peut parfois induire en erreur, ce qui est dangereux (McPherson 2004).
Il est rarement possible d’être totalement assuré que les groupes de comparaison sélectionnés parmi les personnes qui ont suivi un traitement par le passé sont comparables à tous égards importants avec les personnes auxquelles on a administré plus récemment un autre traitement. C’est le cas même si des informations sur les patients qui ont reçu différents traitements sont disponibles (telles que leurs âges ou leurs antécédents médicaux). Il se peut que d’autres informations qui pourraient être de la plus haute importance (comme les probabilités de guérison spontanée) ne soient tout simplement pas disponibles.
Une meilleure stratégie consiste à prévoir les comparaisons de traitements avant de démarrer le traitement. Par exemple, avant de commencer sa comparaison des six traitements contre le scorbut à bord du navireHMS Salisburyen 1747, James Lind a pris soin de sélectionner des patients qui en étaient à un stade similaire de cette maladie souvent mortelle. Il s’est aussi assuré qu’ils avaient la même alimentation de base et qu’ils étaient logés dans des conditions similaires. C’étaient les facteurs, en dehors du traitement, qui auraient pu influencer les probabilités de guérison (Lind 1753). Des efforts comparables doivent être déployés pour s’efforcer de s’assurer que les groupes de comparaison de traitements sont composés de personnes similaires.
Constitution non biaisée de groupes de comparaison de traitements au moyen de procédés d’alternance ou aléatoires
Bien que Lind ait veillé à s’assurer que les marins dans ses six groupes de comparaison étaient semblables, il n’a pas décrit comment il avait décidé quels marins allaient recevoir lequel des six traitements. Il n’y a qu’une façon de s’assurer que les groupes de comparaison de traitements sont établis de façon à être similaires à tous les égards significatifs, connus ou inconnus. Il s’agit de procéder selon un mode aléatoire pour constituer les groupes de comparaison de traitements, afin d’éviter une sélection biaisée pour différents traitements avant de démarrer le traitement.
Cent ans après Lind, un médecin militaire, Graham Balfour, a illustré comment cela pouvait être appliqué dans le cadre d’un test pour déterminer si la belladone évitait la scarlatine chez les enfants. Dans l’orphelinat militaire dont il était responsable, il a suivi un processus d’alternance – “afin d’éviter l’imputation de la sélection” – pour décider lesquels parmi les garçons recevraient et ne recevraient pas de belladone (Balfour 1854). L’alternance est l’une des diverses méthodes non biaisées pour la constitution de groupes de comparaison de traitements similaires avant d’administrer les traitements faisant l’objet de la comparaison. Au cours de la première moitié du 20e siècle, il existe de nombreux exemples de groupes de comparaison de traitements constitués selon la méthode de l’alternance ou de la rotation (par exemple Hamilton 1816 ; MRC 1944), ou par tirage au sort (Colebrook 1929) – par exemple, à l’aide de dés (Doull et al. 1931), de perles de couleur (Theobald 1937), ou par des numéros aléatoires (Bell 1941 ; MRC 1948 ; MRC 1950 ; MRC 1951). Cette ‘répartition aléatoire’ est l’unique caractéristique, mais d’une importance cruciale, de la catégorie des essais contrôlés appelés ‘randomisés’. Une répartition aléatoire (à ne pas confondre avec une distribution désordonnée) signifie que les probabilités qu’il se passe quelque chose sont connues, mais qu’il n’est pas possible d’anticiper les résultats pour une occasion particulière. Ainsi, par exemple, si une pièce est utilisée pour randomiser, la probabilité de tomber sur face est de 50 %, mais il est impossible de connaître le résultat à l’avance lorsque l’on tire à pile ou face.
Comme cela est illustré dans l’essai que l’on peut consulter en cliquant ici , procéder par tirage au sort est une technique ancestrale de prise de décisions justes. Ces méthodes contribuent à s’assurer que les groupes de comparaison ne sont pas composés de différents types de personnes. Des facteurs importants connus et mesurés, tels que l’âge, peuvent être vérifiés. Toutefois, on peut supposer que des facteurs non mesurés qui peuvent avoir une influence sur la guérison, comme le régime alimentaire, l’occupation et l’anxiété, vont s’équilibrer dans l’ensemble. Si vous voulez voir comment une répartition aléatoire génère des groupes de personnes similaires (cliquez ici pour une démonstration).
À mesure que le recours à la répartition par alternance ou randomisée pour la constitution de groupes de patients non biaisés s’est répandue pour la comparaison de différents traitements, il est apparu clairement qu’il était nécessaire de respecter strictement les modes de répartition pour éviter de créer des groupes de comparaison de traitements biaisés (MRC 1934). Le risque de répartition biaisée peut être aboli si les méthodes de répartition des traitements sont cachées à ceux qui prendront la décision de participer aux comparaison de traitements – en bref, pour éviter qu’ils ne trichent, biaisant ainsi les comparaisons (MRC 1944 ; MRC 1948 ; MRC 1950 ; MRC 1951).
Éviter des pertes biaisées dans les groupes de comparaison de traitements
Après avoir pris la peine de s’assurer que les groupes de comparaison de traitements sont constitués de façon à assurer que les comparaisons seront réalisées entre des éléments comparables, il est important d’éviter d’introduire un biais à la suite du retrait sélectif de patients des groupes de comparaison. Dans la mesure du possible, les similarités entre les groupes devraient être préservées en assurant un suivi de toutes les personnes affectées aux groupes de comparaison de traitements et en veillant à ce qu’elles soient toutes incluses dans l’analyse principale des résultats des essais – ce qu’il est convenu d’appeler le ‘principe de vouloir traiter’ (Bell 1941).
Faute de quoi, les essais sur les traitements pourraient ne pas être fiables. Prenons, par exemple, deux façons très différentes de traiter des personnes qui ont des étourdissements du fait que les vaisseaux sanguins qui irriguent leur cerveau sont partiellement bloqués. Le traitement pour cette condition peut être important car ces personnes qui sont sujettes à des étourdissements pour cette raison courent un risque accrû d’attaque cérébrale, qui pourrait les laisser paralysées, ou même les tuer. L’un des traitements pour ces étourdissements consiste à prendre de l’aspirine pour éviter que le blocage des vaisseaux n’empire ; l’autre exige une opération chirurgicale pour essayer de supprimer le blocage dans le vaisseau sanguin.
Une comparaison fiable de ces deux méthodes de traitement des étourdissements exigerait de créer deux groupes de personnes au moyen d’une méthode de répartition non biaisée (telle que la randomisation). La comparaison commencerait donc en comparant deux groupes de patients similaires, puis les fréquences respectives d’attaques ultérieures chez ces patients. Mais si la fréquence des attaques dans le groupe traité par chirurgie n’était répertoriée que parmi les patients qui avaient survécu aux suites immédiates de l’opération, le fait important que l’opération elle-même peut occasionner une attaque et le décès du patient ne serait pas pris en compte. Cela aboutirait à une comparaison non fiable des deux traitements, ce qui se traduirait par une vision biaisée et faussement optimiste des effets de l’opération. On ne comparerait pas alors des choses comparables.
La principale comparaison dans des essais randomisés doit reposer, dans toute la mesure du possible, sur toutes les personnes censées recevoir chacun des traitements comparés, sans exceptions, et dans les groupes auxquels elles étaient initialement affectées. Si ce principe n’est pas respecté, les personnes peuvent recevoir des informations biaisées sur les effets globaux des traitements.