Suatu hari saat makan siang seorang wanita muda sedang makan semangkuk besar es krim, dan seorang anggota fakultas berjalan ke arahnya dan berkata, "Sebaiknya hati-hati, ada yang tinggi statistikkorelasi antara es krim dan tenggelam. " Dia pasti memberinya tatapan bingung, saat dia menjelaskan lebih lanjut. "Berhari-hari dengan penjualan es krim terbanyak juga membuat sebagian besar orang tenggelam."
Ketika dia menghabiskan es krim saya, kedua rekan tersebut mendiskusikan fakta bahwa hanya karena satu variabel secara statistik terkait dengan yang lain, itu tidak berarti bahwa satu adalah penyebab yang lain. Terkadang ada variabel yang bersembunyi di latar belakang. Dalam hal ini, hari dalam setahun bersembunyi di data. Lebih banyak es krim dijual pada hari-hari musim panas daripada hari-hari musim dingin yang bersalju. Lebih banyak orang berenang di musim panas, dan karenanya lebih banyak tenggelam di musim panas daripada di musim dingin.
Waspadai Variabel Mengintai
Anekdot di atas adalah contoh utama dari apa yang dikenal sebagai variabel yang mengintai. Seperti namanya, variabel yang mengintai dapat menjadi sulit dipahami dan sulit dideteksi. Ketika kami menemukan bahwa dua set data numerik berkorelasi kuat, kita harus selalu bertanya, "Mungkinkah ada hal lain yang menyebabkan hubungan ini?"
Berikut ini adalah contoh korelasi kuat yang disebabkan oleh variabel yang mengintai:
- Jumlah rata-rata komputer per orang di suatu negara dan harapan hidup rata-rata negara tersebut.
- Jumlah petugas pemadam kebakaran saat kebakaran dan kerusakan yang disebabkan oleh api.
- Ketinggian siswa sekolah dasar dan tingkat kemampuan membaca.
Dalam semua kasus ini, hubungan antar variabel sangat kuat. Ini biasanya ditunjukkan oleh a koefisien korelasi yang memiliki nilai mendekati 1 atau -1. Tidak masalah seberapa dekat koefisien korelasi ini dengan 1 atau -1, statistik ini tidak dapat menunjukkan bahwa satu variabel adalah penyebab dari variabel lainnya.
Deteksi Variabel Mengintai
Secara alami, variabel pengintai sulit dideteksi. Salah satu strategi, jika tersedia, adalah untuk memeriksa apa yang terjadi pada data dari waktu ke waktu. Ini dapat mengungkapkan tren musiman, seperti contoh es krim, yang dikaburkan ketika data disatukan. Metode lain adalah dengan melihat pencilan dan mencoba menentukan apa yang membuatnya berbeda dari data lainnya. Terkadang ini memberikan petunjuk tentang apa yang terjadi di balik layar. Tindakan terbaik adalah menjadi proaktif; mempertanyakan asumsi dan merancang eksperimen dengan cermat.
Mengapa Itu Penting?
Dalam skenario pembukaan, anggaplah seorang anggota kongres yang bermaksud baik tetapi secara statistik tidak memiliki informasi mengusulkan untuk melarang semua es krim untuk mencegah tenggelam. RUU semacam itu akan merepotkan segmen besar populasi, memaksa beberapa perusahaan mengalami kebangkrutan, dan menghilangkan ribuan pekerjaan saat industri es krim negara ditutup. Terlepas dari niat terbaik, RUU ini tidak akan mengurangi jumlah kematian karena tenggelam.
Jika contoh itu tampaknya terlalu jauh diambil, pertimbangkan yang berikut, yang sebenarnya terjadi. Pada awal 1900-an, dokter memperhatikan bahwa beberapa bayi meninggal secara misterius dalam tidur karena masalah pernapasan. Ini disebut buaian kematian dan sekarang dikenal sebagai SIDS. Satu hal yang menonjol dari otopsi yang dilakukan pada mereka yang meninggal akibat SIDS adalah timus yang membesar, kelenjar yang terletak di dada. Dari korelasi pembesaran timus thymus pada bayi SIDS, dokter menduga bahwa timus besar abnormal menyebabkan pernapasan dan kematian yang tidak tepat.
Solusi yang diusulkan adalah mengecilkan timus dengan radiasi tinggi, atau untuk menghilangkan kelenjar seluruhnya. Prosedur-prosedur ini memiliki tingkat kematian yang tinggi dan bahkan menyebabkan lebih banyak kematian. Yang menyedihkan adalah bahwa operasi ini tidak harus dilakukan. Penelitian selanjutnya menunjukkan bahwa dokter-dokter ini keliru dalam asumsi mereka dan bahwa timus tidak bertanggung jawab atas SIDS.
Korelasi tidak berarti sebab-akibat
Hal di atas seharusnya membuat kita berhenti ketika kita berpikir bahwa bukti statistik digunakan untuk membenarkan hal-hal seperti rejimen medis, undang-undang, dan proposal pendidikan. Adalah penting bahwa pekerjaan yang baik dilakukan dalam menafsirkan data, terutama jika hasil yang melibatkan korelasi akan mempengaruhi kehidupan orang lain.
Ketika ada yang menyatakan, "Studi menunjukkan bahwa A adalah penyebab B dan beberapa statistik mendukungnya," bersiaplah jawab, "korelasi tidak menyiratkan sebab-akibat." Selalu waspada untuk apa yang mengintai di bawah data.