Statistik dan Analisis Regresi Linier

Regresi linier adalah teknik statistik yang digunakan untuk mempelajari lebih lanjut tentang hubungan antara variabel independen (prediktor) dan variabel dependen (kriteria). Ketika Anda memiliki lebih dari satu variabel independen dalam analisis Anda, ini disebut sebagai regresi linier berganda. Secara umum, regresi memungkinkan peneliti untuk mengajukan pertanyaan umum "Apa prediktor terbaik ???"

Sebagai contoh, katakanlah kita sedang mempelajari penyebab kegemukan, diukur dengan indeks massa tubuh (BMI). Secara khusus, kami ingin melihat apakah variabel-variabel berikut adalah prediktor signifikan BMI seseorang: jumlah makanan cepat saji makanan yang dimakan per minggu, jumlah jam menonton televisi per minggu, jumlah menit yang dihabiskan berolahraga per minggu, dan orang tua BMI. Regresi linier akan menjadi metodologi yang baik untuk analisis ini.

Persamaan Regresi

Ketika Anda melakukan analisis regresi dengan satu variabel independen, persamaan regresi adalah Y = a + b * X di mana Y adalah variabel dependen, X adalah variabel independen, a adalah konstanta (atau mencegat), dan b adalah itu

instagram viewer
kemiringan garis regresi. Misalnya, katakanlah IPK paling baik diprediksi oleh persamaan regresi 1 + 0,02 * IQ. Jika seorang siswa memiliki IQ 130, maka, IPKnya adalah 3,6 (1 + 0,02 * 130 = 3,6).

Ketika Anda melakukan analisis regresi di mana Anda memiliki lebih dari satu variabel independen, persamaan regresi adalah Y = a + b1 * X1 + b2 * X2 +... + bp * Xp. Misalnya, jika kami ingin memasukkan lebih banyak variabel ke dalam analisis IPK kami, seperti ukuran motivasi dan disiplin diri, kami akan menggunakan ini persamaan.

R-Square

R-square, juga dikenal sebagai koefisien determinasi, adalah statistik yang umum digunakan untuk mengevaluasi kesesuaian model persamaan regresi. Artinya, seberapa baik semua variabel independen Anda dalam memprediksi variabel dependen Anda? Nilai R-square berkisar dari 0,0 hingga 1,0 dan dapat dikalikan dengan 100 untuk mendapatkan persentase perbedaan dijelaskan. Misalnya, kembali ke persamaan regresi IPK kami dengan hanya satu variabel independen (IQ)... Katakanlah kita R-square untuk persamaan adalah 0,4. Kita bisa mengartikan ini berarti bahwa 40% dari varians dalam IPK dijelaskan oleh IQ. Jika kemudian kita tambahkan dua variabel lainnya (motivasi dan disiplin diri) dan R-square meningkat 0,6, ini berarti bahwa IQ, motivasi, dan disiplin diri bersama-sama menjelaskan 60% dari perbedaan dalam IPK skor.

Analisis regresi biasanya dilakukan dengan menggunakan perangkat lunak statistik, seperti SPSS atau SAS dan R-square dihitung untuk Anda.

Menafsirkan Koefisien Regresi (b)

Koefisien b dari persamaan di atas mewakili kekuatan dan arah hubungan antara variabel independen dan dependen. Jika kita melihat persamaan IPK dan IQ, 1 + 0,02 * 130 = 3,6, 0,02 adalah koefisien regresi untuk variabel IQ. Ini memberitahu kita bahwa arah hubungan itu positif sehingga ketika IQ meningkat, IPK juga meningkat. Jika persamaannya 1 - 0,02 * 130 = Y, maka ini berarti bahwa hubungan antara IQ dan IPK negatif.

Asumsi

Ada beberapa asumsi tentang data yang harus dipenuhi untuk melakukan analisis regresi linier:

  • Linearitas: Diasumsikan bahwa hubungan antara variabel independen dan dependen adalah linier. Meskipun asumsi ini tidak pernah dapat sepenuhnya dikonfirmasi, melihat a sebar variabel Anda dapat membantu membuat penentuan ini. Jika kelengkungan dalam hubungan hadir, Anda dapat mempertimbangkan mengubah variabel atau secara eksplisit memungkinkan untuk komponen nonlinear.
  • Normalitas: Diasumsikan bahwa residu variabel Anda terdistribusi normal. Yaitu, kesalahan dalam prediksi nilai Y (variabel dependen) didistribusikan dengan cara yang mendekati kurva normal. Anda bisa melihatnya histogram atau plot probabilitas normal untuk memeriksa distribusi variabel Anda dan nilai residunya.
  • Kemerdekaan: Diasumsikan bahwa kesalahan dalam prediksi nilai Y semuanya independen satu sama lain (tidak berkorelasi).
  • Homoscedasticity: Diasumsikan bahwa varians di sekitar garis regresi adalah sama untuk semua nilai variabel independen.

Sumber

  • StatSoft: Buku Teks Statistik Elektronik. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.
instagram story viewer