عند إجراء مقارنة بين معالجتَيْن، فإن أية اختلافات في النتائج يمكن أن تكون راجعة ببساطة إلى لعبة الصدفة. فعلى سبيل المثال، نأخذ مقارنة معالجة جديدة مع معالجة تقليدية، تحسن فيها أربعة مرضى مع الأولى وستة مع الثانية. وسيكون من الخطأ تماماً الاستنتاج الواثق أن المعالجة الجديدة كانت أسوأ من المعالجة التقليدية، حيث يمكن أن تكون هذه النتائج، ببساطة، ناجمة عن لعبة الصدفة. وإذا أعيدت المقارنة فقد ينعكس عدد المرضى الذين تحسنوا ليكون (6مقابل4)، أو قد يأتي الرقم متساوياً (5مقابل5)، أو بمعدلات أخرى غير هذه.
وإذا تحسَّن أربعون على المعالجة الجديدة وستون على المعالجة التقليدية، فمن غير المرجح أن يكون للعبة الصدفة دور في هذا الفارق. كذلك، فإذا تحسَّن أربعمئة شخص على المعالجة التقليدية، فيكون من المرجح جداً أن تكون المعالجة الجديدة أسوأ من المعالجة التقليدية، وأن السبيل إلى التقليل من احتمال حدوث التضليل بفعل لعبة الصدفة في المقارنات العلاجية هو ضمان اشتمال الاختبارات المنصفة على أعداد كبيرة من الأشخاص تظهر عليهم النتائج التي يؤمل أن يكون لها التأثير المطلوب مثل تحسن أو تدهور الحالة.
وفي بعض الظروف تحتاج أعداد كبيرة من الناس، الآلاف وأحياناً عشرات الآلاف، إلى المشاركة في اختبارات منصفة للحصول على تقديرات مصدوقة لتأثيرات المعالجة. ومن الضروري مشاركة أعداد كبيرة إذا كانت نتائج المعالجة ذات الاهتمام نادرة مثلاً، كالنوبات القلبية والسكتات بين النسوة في أواسط العمر واللاتي يتمتعن بصحة جيدة ويستخدمن العلاج التعويضي بالهرمونات. كما أن الحاجة قائمة أيضاً إلى اشتراك أعداد كبيرة إذا أردنا الكشف عن وجود تأثيرات معتدلة لكنها مهمة وذلك بشكل يعوّل عليه. وعلى سبيل المثال، مخاطر الإصابة بالموت المبكر بنسبة20% بين الأشخاص الذين يتعرَّضون للإصابة بالنوبات القلبية.
وبُغْيَةَ تقيـيم الدور الذي يمكن أن تلعبه الصدفة في نتائج الاختبارات المنصفة، فإن الباحثين يستخدمون((الاختبارات ذات الأهمية الإحصائية)). وعندما يشير الإحصائيون وغيرهم إلى((فروق مهمة)) بين المعالجات، فإنهم يشيرون عادةً إلى أهمية إحصائية. وليس ضرورياً أن يكون للفروق ذات الأهمية الإحصائية، أهمية عملية من أي نوع. ومع ذلك، فإن الاختبارات المهمة إحصائياً تعد مهمة لأنها تعينـنا على تجنُّب الاستنتاجات الخاطئة بأن الفروق الحقيقية في المعالجة تحدث عندما لا يشار إليها أحياناً بأنها أخطاء من النوع الأول.
ومن المهم كذلك، أن نأخذ في الحسبان وجود عدد كبير من النتائج الخاصة بالمعالجة لتجنُّب حدوث خطر أكثر شيوعاً – الاستنتاج بعدم وجود فروق بين المعالجات، بينما الحقيقة غير ذلك. ويشار إلى هذه الأخطاء بأنها أخطاء من النوع الثاني. ولقد كان توماس غراهام بلفور مدركاً لهذا الخطر الأخير عندما فسَّر نتائج اختباره في ما يتعلَّق بالمزاعم بأن بوسع عقار البلادونا أن يقي الأيتام الذين كانوا تحت رعايتـه من الإصابة بالحمى القرمزيـة (بلفور 1854). وكان اثنان من بين ستة وسبعين فتى ممن عينوا لتلقِّي عقار البلادونا قد أصيبا بالحمى القرمزية مقارنةً باثنين من خمسة وسبعين فتى لم يتلقوا هذا العقار. وقد لاحظ بلفور أن (( الأعداد صغيرة جداً لتبرير الاستدلال في ما يتعلق بالقوة الوقائية لعقار البلادونا )). ولو كان عدد أكبر من هؤلاء الفتيان قد أصيب بالحمى القرمزية، لكان في وسع بلفور التوصُّل إلى استنتاج أكثر ثقة حول التأثيرات الممكنة لعقار البلادونا. وبدلاً من ذلك، فإنه لاحظ ببساطة أن وجود أربع حالات للإصابة بالحمى القرمزية بين 151 فتى هو عدد صغير جداً لا يمكن معه الوصول إلى استنتاج.
ومن بين الأساليب الكفيلة بالتقليل من احتمال تعرضنا للتضليل بفعل لعبة الصدفة، تقدير نطاق للفروق بين المعالجات التي يمكن للفروق الحقيقية أن تقع ضمن إطاره (غفاريت 1840 ، هاث2006). وتعرف التقديرات النطاقية هذه بفواصل الثقة. وكما توضَّح في الفقرة الافتتاحية لهذا المقال، فإن تكرار المقارنة العلاجية يمكن أن يؤدي إلى عمل تقديرات متباينة للتأثيرات التفريقية للمعالجات في ما يتعلق بالنتائج، ولاسيَّما إذا ارتكزت هذه التقريرات على أعداد صغيرة من النتائج. وتأخذ فواصل الثقة هذا التباين في الحسبان، حيث إن فواصل الثقة توفر معلومات أكثر مما توفره الاختبارات المجردة ذات الدلالة أو الأهمية الإحصائية، وتكون بالتالي مفيدة أكثر في تقليص إمكانية تضليلنا بفعل لعبة الصدفة.
إن الاختبارات الإحصائية وفواصل الثقة – سواء أكانت من أجل تحليل الدراس ات الفردية أو للتحليل التجميعي لعدد من الدراسات المنفصلة لكنها متشابهة – تعينـنا على أخذ لعبة الصدفة في الحسبان وتجنُّب الاستنتاج بأن تأثيرات المعالجات والفروق في ما بينها تحدث عندما لا تكون موجودة، ولا تحدث عندما تكون موجودة.