Paradox Simpson (atau Simson s paradox) adalah fenomena statistik di mana tren yang muncul pada beberapa kelompok data terbalik ketika data data tersebut digabungkan menjadi satu grup keseluruhan. Dengan kata lain, hubungan yang tampak positif (atau negatif) pada masing masing sub kelompok dapat berubah menjadi hubungan sebaliknya ketika data digabungkan. Fenomena ini menimbulkan kebingungan, terutama ketika interpretasi hasil statistik digunakan untuk membuat keputusan penting dalam bidang medis, sosial, ekonomi, dan lainnya.
Paradox ini pertama kali diidentifikasi oleh ahli statistik Inggris, Edward H. Simpson, pada tahun 1951 dalam sebuah makalah tentang analisis data kontingensi. Namun, contoh contoh praktisnya sudah ada jauh sebelum itu, contohnya dalam studi tentang perbedaan tingkat kelulusan antara jenis kelamin pada universitas pada awal abad ke-20.
Paradox Simpson muncul karena adanya variabel perancu (confounding variable) yang memengaruhi kedua variabel utama yang sedang dibandingkan. Ketika variabel perancu tidak dikontrol atau tidak dimasukkan dalam analisis, hasil agregat dapat menyesatkan.
Misalkan ada dua rumah sakit, A dan B, yang masing masing menangani pasien kanker. Kita ingin membandingkan tingkat keberhasilan pengobatan.
| Rumah Sakit | Pasien Sembuh | Pasien Tidak Sembuh | Total Pasien | Tingkat Keberhasilan |
|---|---|---|---|---|
| A (Ringan) | 90 | 10 | 100 | 90% |
| A (Berat) | 30 | 70 | 100 | 30% |
| B (Ringan) | 80 | 20 | 100 | 80% |
| B (Berat) | 20 | 80 | 100 | 20% |
Jika dilihat per tingkat keparahan penyakit, rumah sakit A selalu memiliki tingkat keberhasilan yang lebih tinggi daripada B. Namun, ketika semua pasien digabungkan:
| Rumah Sakit | Pasien Sembuh | Pasien Tidak Sembuh | Total Pasien | Tingkat Keberhasilan |
|---|---|---|---|---|
| A | 120 | 80 | 200 | 60% |
| B | 100 | 100 | 200 | 50% |
Di sini tidak terjadi paradox karena tetap A lebih baik. Untuk menciptakan paradox, ubah proporsi pasien ringan berat antara rumah sakit sehingga rumah sakit B menangani lebih banyak kasus ringan. Jika rumah sakit B memiliki 180 pasien ringan (180 % sembuh, 20 % tidak) dan hanya 20 pasien berat, hasil agregatnya bisa menjadi lebih tinggi daripada A, walaupun pada tiap sub kelompok B lebih buruk.
Penelitian pada 1970 an menemukan bahwa tingkat kelulusan pria lebih tinggi dibanding wanita secara keseluruhan. Namun, bila data dipisahkan per jurusan, wanita memiliki tingkat kelulusan yang lebih tinggi di hampir semua jurusan. Penyebabnya: lebih banyak wanita masuk jurusan dengan tingkat kelulusan rendah (misalnya seni), sementara pria mendominasi jurusan dengan tingkat kelulusan tinggi (misalnya teknik).
Uji klinis dua obat A dan B menunjukkan bahwa pada pasien dewasa muda, A lebih efektif, dan pada pasien lanjut usia, A juga lebih efektif. Namun, ketika semua data digabung, B tampak lebih baik karena lebih banyak pasien muda (dimana tingkat keberhasilan secara umum tinggi) yang menerima B. Variabel perancu di sini adalah usia.
Departemen penjualan menunjukkan bahwa karyawan pria menghasilkan penjualan rata rata lebih tinggi daripada wanita. Bila dipisahkan per wilayah, wanita justru memiliki penjualan lebih tinggi di hampir semua wilayah. Perbedaan muncul karena sebagian besar karyawan pria ditempatkan di wilayah dengan potensi penjualan tinggi.
Paradox Simpson mengingatkan kita bahwa statistik tidak hanya tentang menghitung angka, tetapi juga tentang memahami konteks di balik data. Ketika variabel perancu tidak dipertimbangkan, keputusan yang diambil berdasarkan hasil agregat dapat menjadi menyesatkan. Dengan mempraktikkan stratifikasi, analisis multivariat, dan visualisasi yang tepat, kita dapat mengidentifikasi dan mengatasi paradox ini, sehingga hasil analisis menjadi lebih akurat dan dapat diandalkan.