Когда сравниваются два курса лечения, любые различия в полученных результатах могут быть обусловлены игрой случая. Например, возьмем сравнение нового курса лечения со стандартным курсом лечения, в ходе которого состояние здоровья улучшилось у 4 человек, которые прошли первый курс лечения, и у 6 человек, которые прошли второй курс лечения. Совершенно очевидно, что было бы неправильно делать достоверный вывод о том, что новый курс лечения хуже, чем стандартный курс: эти результаты могут лишь просто отражать игру случая. Если сравнение повторить, то соотношение числа пациентов, здоровье которых улучшилось, может оказат ься обратным (6 против 4), оказаться одинаковым (5 против 5) или измениться каким либо иным образом.
Однако если в случае нового курса лечения состояние здоровья улучшилось у 40 человек, а в случае стандартного курса лечения у 60 человек, то объяснить эту разницу игрой случая уже вряд ли можно. Если же в случае нового курса лечения состояние здоровья улучшилось у 400 человек, а в результате стандартного лечения у 600, то в этом случае с большой долей вероятности можно утверждать, что новый курс лечения хуже стандартного. Таким образом, для того чтобы ограничить возможность неправильной интерпретации в результате воздействия фактора случайности в ходе сравнения различных курсов лечения, необходимо привлечь к проведению объективных испытаний достаточно большое число людей, обнаруживающих соответствующие последствия для здоровья, которые, как предполагается, должны проявиться в результате лечения, такие как улучшение или ухудшение.
В некоторых обстоятельствах для получения надежных оценок последствий лечения необходимо участие очень большого числа людей – тысяч, а иногда и нескольких десятков тысяч человек. Большое число участников необходимо, например, в том случае, если результаты лечения, представляющие интерес в данном случае, проявляются редко – например, инфаркты и инсульты среди женщин среднего возраста в целом с хорошим состоянием здоровья, которые пользуются гармонозаместительной терапией (ГЗТ). Большое число участников также требуется в том случае, если необходимо достоверно обнаружить умеренные, но важные последствия лечения, – например, сокращение на 20% риска преждевременной смерти людей, переживших инфаркт.
Для того чтобы оценить роль, которую может сыграть случай в результатах объективных тестов, исследователи используют “тесты, имеющие статистическую значимость”. Когда статистики и иные лица говорят о “существенных различиях” между теми или иными методами лечения, они обычно подразумевают статистическую значимость. Статистически значимые различия между теми или иными методами лечения не обязательно имеют какую-либо практическую важность. Вместе с тем, тесты, имеющие статистическую значимость, важны по той причине, что они помогают нам избежать ошибочных заключений по поводу существования реальных различий в лечении, когда на самом деле их нет, что иногда квалифицируется в качестве ошибок типа I.
Важно также учитывать достаточно большое число результатов лечения и для того, чтобы избежать гораздо более распространенной опасности – заключения о том, что между данными методами лечения нет никаких различий, хотя на самом деле они есть. Эти ошибки иногда квалифицируются в качестве ошибок типа II. Томасу Грейму Балфуру эта опасность была известна, когда он интерпретировал результаты проведенного им теста, подтверждающего, что белладонна может предотвратить развитие скарлатины у детей-сирот, которых он лечил (Balfour 1854). Двое из 76 мальчиков, которым была назначена белладонна, заболели скарлатиной, и в то же время ею заболели и двое из 75 мальчиков, которые не принимали этого лекарства. Балфур отметил, что “это число слишком мало и не позволяет сделать заключение о том, что белладонна обладает профилактическим действием”. Если бы скарлатиной заболело большее число мальчиков, то Балфур, возможно, смог бы сделать более достоверное заключение о возможном эффекте белладонны. Вместо этого, он просто отметил, что 4 случая скарлатины среди 151 мальчика – это слишком малое число, которое не позволяет сделать достоверное заключение.
Один из подходов, который ограничивает возможность неправильной интерпретации результатов в результате действия фактора случайности, предполагает проведение оценки диапазона различий данных методов лечения, в пределах которого должны, по идее, находиться реальные различия (Gavarret 1840 ; Huth 2006). Эти оценки диапазона известны под названием “доверительные интервалы”. Как показано в первом пункте этого эссе, повторение сравнения разных видов лечения позволит, скорее всего сделать различные оценки дифференцированного воздействия данных видов лечения на его результаты, особенно в том случае, если эти оценки основаны на небольшом числе результатов. Это различие как раз и учитывается в доверительных интервалах. Доверительные интервалы содержат в себе больше информации, нежели простые тесты на статистическую значимость, и таким образом более эффективны в снижении вероятности того, что мы будем введены в заблуждение по воле случая.
Статистические тесты и доверительные интервалы – независимо от того, используем ли мы их для анализа отдельных исследований или для метаанализа ряда отдельных, но похожих исследований, – помогают нам учитывать фактор случайности и не допустить заключения о том, что определенные последствия и различия между соответствующими курсами лечения существуют, когда на самом деле их нет, и, напротив, не существуют, когда на самом деле они есть.