考虑机遇因素

当比较两种疗法时,结局的任何差异都可能是由机遇因素造成的。例如,对一种新疗法和一种标准疗法进行比较,其中前者有4人病情出现好转,后者有6人好转。如果颇有信心得出结论,新疗法比标准疗法差,显然就会犯错:这种结果可能只是机遇因素造成的。如果重复进行比较,好转的患者人数可能出现相反情况(6对4),或相同(5对5),或出现其它比率。

不过,如果40名患者在新疗法的治疗下出现好转,而60名患者在标准疗法的治疗下出现好转,那么就不大可能利用机遇因素解释这种差异了。而如果400名接受新疗法治疗的患者出现好转,而600名接受标准疗法治疗的患者出现好转,那么显然新疗法的确比不上标准疗法。因此,在疗法比较中减少机遇因素带来误导可能性的办法,就是确保公平试验要有足够多的人员参与进来,体验人们希望影响到的结果,例如出现好转或恶化。

在某些情况下,要在公平试验中获得关于疗效的可靠估计,需要有大量人员(数以千计,有时数以万计)参与。例如,当我们感兴趣的治疗结果十分罕见时(例如,在健康的中年妇女中采用激素替代疗法(HRT)预防心脏病发作和中风),就有必要涉及大量参与者。如果要可靠找到治疗措施具有的适度但又重要的疗效(例如,将心脏病发作患者早期死亡的风险降低20%),同样需要大量人员。

为了评估机遇因素在公平试验的结果中可能带来的影响作用,研究人员采用了“统计学意义检验”。当统计学家和其他人谈到疗法之间的“显著性差异”时,他们通常是指统计学意义。治疗方法之间在统计学意义上的显著性差异不一定具有任何实际意义。但是统计学意义检验是很重要的,因为这能帮助我们避免得出错误的结论,即当疗法之间不存在真正差异时却认为存在差异(有时称为第一类错误)。

另外同样重要的是考虑足够大数量的治疗结果,以避免更为常见的危险——当疗法之间实际上有差异时却得出没有差异的结论。这类错误有时称为第二类错误。当托马斯·格雷厄姆·鲍尔弗(Thomas Graham Balfour)对颠茄制剂能够使他所诊治的孤儿免患猩红热这种说法的测试结果进行解释时,他认识到了后一种危险( Balfour 1854 )。被分配获得颠茄制剂的76名男孩中有2人患了猩红热,而没有获得该药物的75名男孩中则有2人患猩红热。鲍尔弗指出“人数太少,无法证实患病率降低是由于颠茄制剂的预防力量造成的”。如果更多的男孩患有猩红热,鲍尔弗或许能够得出关于颠茄疗效的一个更有信心的结论。相反,他只是指出151名男孩中仅有4例猩红热病人,人数太少无法得出一个令人信服的结论。

一种降低由于机遇因素带来误导的可能性的办法,涉及到对治疗差异的范围进行估计,真实差异很可能就存在其中( Gavarret 1840 ;Huth 2006)。这些估计范围被称为可信区间。正如本文首段所述,重复一项治疗对照,有可能在结果方面出现治疗措施具有差异效果的不同估计情况,特别是当估计数字只是以少数结果为依据得来时更是这样。可信区间顾及到了这种变化。可信区间能够比单一的统计学意义检验含有更多的信息,因此更有助于降低被机遇因素误导的可能性。

统计学检验和可信区间(无论是为了单项研究的分析,还是在关于若干独立但相似的研究的 Meta分析 中)帮助我们考虑机遇因素,并当疗效和差异实际上不存在时,避免得出存在疗效和差异的结论,或者当它们实际上存在时得出不存在的结论。