Apa Garis Regresi Kuadrat Terkecil?

Sebar adalah jenis grafik yang digunakan untuk mewakili data berpasangan. Variabel penjelas diplot di sepanjang sumbu horizontal dan variabel respons digambarkan di sepanjang sumbu vertikal. Salah satu alasan untuk menggunakan jenis grafik ini adalah untuk mencari hubungan antar variabel.

Pola paling dasar yang harus dicari dalam satu set data berpasangan adalah pola garis lurus. Melalui dua titik, kita bisa menggambar garis lurus. Jika ada lebih dari dua titik di sebar kami, sebagian besar waktu kami tidak lagi dapat menggambar garis yang melewati setiap titik. Sebagai gantinya, kami akan menggambar garis yang melewati tengah-tengah titik dan menampilkan tren linier keseluruhan data.

Ketika kita melihat titik-titik dalam grafik kita dan ingin menarik garis melalui titik-titik ini, muncul pertanyaan. Garis mana yang harus kita gambar? Ada banyak garis yang dapat ditarik. Dengan menggunakan mata kita sendiri, jelas bahwa setiap orang yang melihat scatterplot dapat menghasilkan garis yang sedikit berbeda. Ambiguitas ini merupakan masalah. Kami ingin memiliki cara yang terdefinisi dengan baik bagi semua orang untuk mendapatkan jalur yang sama. Tujuannya adalah untuk memiliki deskripsi matematis yang tepat dari baris mana yang harus ditarik. Kotak terkecil

instagram viewer
Garis regresi adalah salah satu baris tersebut melalui titik data kami.

Kotak Terkecil

Nama garis kuadrat terkecil menjelaskan apa yang dilakukannya. Kami mulai dengan kumpulan poin dengan koordinat yang diberikan oleh (xsaya, ysaya). Setiap garis lurus akan melewati di antara titik-titik ini dan akan pergi di atas atau di bawah masing-masing. Kami dapat menghitung jarak dari titik-titik ini ke garis dengan memilih nilai x dan kemudian mengurangi yang diamati y mengoordinasikan yang sesuai dengan ini x dari y mengoordinasikan jalur kami.

Garis yang berbeda melalui set poin yang sama akan memberikan set jarak yang berbeda. Kami ingin jarak ini menjadi sekecil yang kami bisa lakukan. Tapi ada masalah. Karena jarak kita bisa positif atau negatif, jumlah total semua jarak ini akan membatalkan satu sama lain. Jumlah jarak akan selalu sama dengan nol.

Solusi untuk masalah ini adalah menghilangkan semua angka negatif dengan mengkuadratkan jarak antara titik dan garis. Ini memberikan koleksi angka non-negatif. Tujuan kami untuk menemukan garis yang paling cocok adalah sama dengan membuat jumlah jarak kuadrat ini sekecil mungkin. Kalkulus datang untuk menyelamatkan di sini. Proses diferensiasi dalam kalkulus memungkinkan untuk meminimalkan jumlah jarak kuadrat dari garis yang diberikan. Ini menjelaskan frasa “kuadrat terkecil” dalam nama kami untuk baris ini.

Line of Best Fit

Karena garis kuadrat terkecil meminimalkan jarak kuadrat antara garis dan titik-titik kami, kami dapat menganggap garis ini sebagai yang paling cocok dengan data kami. Inilah sebabnya mengapa garis kuadrat terkecil juga dikenal sebagai garis paling cocok. Dari semua garis yang mungkin bisa ditarik, garis kuadrat terkecil paling dekat dengan set data secara keseluruhan. Ini mungkin berarti bahwa baris kami akan gagal mengenai salah satu poin dalam set data kami.

Fitur-fitur dari Least Squares Line

Ada beberapa fitur yang dimiliki oleh setiap garis kuadrat terkecil. Penawaran menarik pertama dengan kemiringan garis kami. Kemiringan memiliki koneksi ke koefisien korelasi dari data kami. Bahkan, kemiringan garis sama dengan r (sy/ sx). Sini s x menunjukkan standar deviasi dari x koordinat dan s y standar deviasi dari y koordinat data kami. Tanda koefisien korelasi berhubungan langsung dengan tanda kemiringan garis kuadrat terkecil kami.

Fitur lain dari garis kuadrat terkecil menyangkut titik yang dilaluinya. Selagi y mencegat garis kuadrat terkecil mungkin tidak menarik dari sudut pandang statistik, ada satu titik yaitu. Setiap garis kuadrat terkecil melewati titik tengah data. Titik tengah ini memiliki x mengoordinasikan itu adalah berarti dari x nilai dan a y mengoordinasikan itu adalah rata-rata dari y nilai-nilai.