Considerações sobre o efeito do acaso

Ao comparar dois tratamentos, quaisquer diferenças no desfecho podem ser simplesmente causadas pela obra do acaso. Por exemplo, pegue uma comparação de um novo tratamento com um tratamento padrão no qual 4 pessoas melhoraram com o primeiro e 6 pessoas melhoraram com o último. Seria obviamente errado concluir com segurança que o novo tratamento é pior do que o tratamento padrão: estes resultados podem simplesmente refletir o efeito do acaso. Se a comparação fosse repetida, os números dos pacientes que melhoraram poderiam se inverter (6 contra 4), ou serem iguais (5 contra 5), ou em alguma outra proporção.

Porém, se 40 pessoas melhoraram com o novo tratamento e 60 com o tratamento padrão, o acaso se torna uma explicação menos plausível para a diferença. E se 400 pessoas melhoraram com o novo tratamento e 600 com o tratamento padrão, seria evidente que o novo tratamento é de fato, muito provavelmente, pior do que o padrão. A maneira de reduzir a probabilidade de ser enganado pelo efeito do acaso nas comparações de tratamentos é assegurar-se de que os experimentos controlados incluam um número suficientemente grande de pessoas que experimentam o desfecho que se espera influenciar, melhorando ou piorando.

Em algumas circunstâncias um número muito grande de pessoas, milhares e às vezes dezenas de milhares, precisa participar de experimentos controlados para se obter avaliações confiáveis dos efeitos dos tratamentos. É necessário um grande número de pessoas, por exemplo, se os desfechos de interesse dos tratamentos são raros, por exemplo, ataques cardíacos e derrames entre mulheres de meia idade aparentemente saudáveis usando a terapia de reposição hormonal (TRH). Também é necessário um grande número de pessoas para que os efeitos moderados mas importantes dos tratamentos sejam detectados com segurança, por exemplo, uma redução de 20 por cento no risco de morte prematura entre pessoas que têm ataques cardíacos.

Para avaliar o papel do acaso nos resultados de experimentos controlados, os pesquisadores utilizam os “testes de significância estatística”. Quando os estatísticos e outros recorrem às ‘diferenças significantes’ entre os tratamentos, eles estão geralmente se referindo à significância estatística. As diferenças estatisticamente significantes entre os tratamentos não têm necessariamente uma importância prática. Mas os testes de significância estatística são importantes, todavia, porque eles nos ajudam a evitar conclusões equivocadas de que existam diferenças reais nos tratamentos quando elas não existem, às vezes chamados de erros de Tipo I.

É importante levar em conta um número suficientemente grande de desfechos do tratamento para evitar um perigo muito mais comum, concluir que não existem diferenças entre os tratamentos quando de fato existem. Estes erros são às vezes chamados de erros de Tipo II. Thomas Graham Balfour sabia deste último perigo quando interpretou os resultados do seu teste das afirmações de que a beladona poderia prevenir os órfãos sob os seus cuidados de desenvolver escarlatina (Balfour 1854). Dois dos 76 garotos alocados para receber a beladona desenvolveram escarlatina comparado a 2 dos 75 garotos que não receberam o medicamento. Balfour observou que os “números são muito pequenos para justificar deduções quanto ao poder profilático da beladona”. Se mais garotos tivessem desenvolvido escarlatina, Balfour poderia chegar a uma conclusão mais segura sobre os possíveis efeitos da beladona. Em vez disso, ele só observou que 4 casos de escarlatina entre 151 garotos era um número muito pequeno para se chegar a uma conclusão confiável.

Uma abordagem que reduz a probabilidade sermos enganados pelos efeitos do acaso implica em avaliar uma gama de diferenças do tratamento dentro da qual as diferenças reais podem residir (Gavarret 1840 ; Huth 2006). Estas avaliações são conhecidas como intervalos de confiança. Conforme ilustrado no parágrafo de abertura deste artigo, repetir uma comparação de tratamentos pode gerar diversas avaliações dos efeitos diferenciais dos tratamentos nos desfechos, principalmente se as avaliações forem baseadas em um número pequeno de desfechos. Os intervalos de confiança levam em conta esta variação. Os intervalos de confiança são mais informativos do que simples testes de significância estatística, e deste modo mais úteis na redução da probabilidade de sermos enganados pelo efeito do acaso.

Os testes estatísticos e os intervalos de confiança, seja para análise de estudos individuais ou na meta-análise de um número de estudos isolados, porém semelhantes, nos ajudam a considerar o efeito do acaso e evitar a conclusão de que os efeitos e as diferenças dos tratamentos existem quando não existem, e de que não existem quando existem.