Aku ingin membaca jalan pikiranmu, mengetahui pandanganmu terhadapku. Tapi lebih dari itu, aku jauh lebih ingin mengetahui bagaimana regresi logistik bekerja.
Linear Regression
Sebelum kita membahas Logistic Regression, mungkin lebih baik (mungkin ya, nggatau juga sih) jika kita sedikit membahas Linear Regression, sedikit aja nggausah banyak-banyak, semua yang berlebihan tidak baik (kata orang tua).
Oiya, tulisan ini dibuat untuk kubaca sendiri di masa depan jika aku mulai lupa, jadi mohon maaf jika kamu membaca dan aku sedikit bodo amat jika ada beberapa dependency yang tidak ter-cover dan tidak dijelaskan sebelumnya untuk memahami materi ini.
Membahas regresi linear, kita akan dihadapkan dengan sebuah dependent variable dan setidaknya sebuah independent variable. Dalam kasus ini, kita memiliki tikus-tikus (lagi). Dimana dependent variable-nya adalah ukuran (size) dan independent variable-nya adalah berat (weight). Berikut adalah plot dari kedua variabel tersebut.
Kemudian kita bisa membuat garis regresi pada scatter plot tersebut, seperti ini.
Dari garis regresi itu, kita dapat menentukan:
- R squared (R²) untuk menentukan seberapa berkorelasi kedua variabel tersebut.
- p-value untuk menentukan seberapa signifikansi R² secara statistik (statistically significant).
- Ini yang paling penting, kita bisa gunakan garis regresi ini untuk memprediksi ukuran tikus berdasarkan berat. Seperti contoh dibawah ini.
Garis regresi linier memiliki bentuk persamaan sebagai berikut :
Y = a + bX
Dengan Y adalah dependent variable, X adalah independent variable atau explanatory variable atau variabel yang akan kita gunakan untuk memprediksi, b adalah slope atau kemiringan garis, dan a adalah intercept (nilai Y ketika X sama dengan 0).
Regresi linier juga bisa memiliki independent variable lebih dari 1, biasanya kita sebut multiple linear regression. Konsepnya sama dengan linear regression diatas, hanya saja ada lebih dari satu nilai X (X1, X2, … ,Xn) dan lebih dari satu nilai b (b1, b2, … , bn).
Logistic Regression
Regresi logistik mirip dengan regresi linier, mereka sama-sama memiliki garis regresi, kecuali : regresi logistik digunakan untuk memprediksi apakah sesuatu bernilai benar atau salah, ketimbang memprediksi suatu nilai yang kontinu seperti prediksi ukuran tikus pada regresi linier sebelumnya.
Kita masih punya tikus-tikus tadi. Dari semua tikus itu, kita bisa kategorikan mana tikus yang obesitas mana yang normal. Kita memiliki data berat tikus, dan kategori apakah dia obesitas atau normal. Jika diplot, grafiknya seperti berikut:
Kita akan buat garis regresi, tapi bukan garis lurus seperti regresi linear, melainkan bentuk S regresi logistik seperti ini :
Tidak asing? kita pernah lihat di kuliah Persamaan Diferensial, persamaan logistik yang menjelaskan kesetimbangan ekosistem. Tentang kamu dan aku. Lebih tepatnya tentang populasi manusia yang ternyata tidak tumbuh secara exponential, melainkan akan menuju suatu nilai asymptote.
Kurva S tersebut bermula dari nilai 0 (dalam kasus ini adalah Not Obese) kemudian menuju nilai 1 (Obese) seperti ini :
Yang artinya, kurva tersebut merepresentasikan peluang seekor tikus memiliki obesitas dengan mengetahui beratnya. Anyway, ini adalah point penting dari konsepnya.
Jika kita punya tikus yang sangat berat, maka peluangnya untuk obesitas tinggi.
Jika kita punya tikus yang beratnya sedang-sedang saja, maka peluangnya untuk obesitas adalah sekitar 50%.
Dan seterusnya.
Regresi logistik memberitahu kita peluang tikus itu obesitas atau tidak melalui beratnya. Meskipun demikian, regresi logistik seringkali dipakai untuk melakukan klasifikasi.
Contohnya, untuk kasus diatas, kita bisa kategorikan seekor tikus obesitas jika nilai y-axis nya lebih dari 0.5, selain itu kita kategorikan sebagai normal.
Nah sekarang kita harusnya sudah paham bagaimana seekor tikus bisa kita kategorikan sebagai obesitas dengan mengetahui beratnya. Untuk kasus yang lebih kompleks, kita bisa menggunakan variabel yang lebih banyak, misalnya:
Obesitas ← Berat + Genotype + Umur
Regresi logistik bisa bekerja dengan data kontinu seperti Umur dan Berat, dan data diskrit seperti Genotype.
Contoh penerapan regresi logistik yang lain :
- Memprediksi apakah konsumen akan membeli produk dengan melihat jumlah like, jumlah ulasan baik, rating penjual, dll.
- Mengklasifikasikan apakah suatu buah itu adalah apel atau jeruk dengan melihat diameter, warna, tingkat keasaman, dll.
- Mengklasifikasikan apakah seorang wanita menyukai kita dengan melihat jumlah chat, sentimen positif, kecepatan membalas chat, dll.
- Dll. Dsb.
Assalamualaikum.
Adapted from YouTube Channel of “StatQuest with Josh Stamer”
Akhirnya Datasans meluncurkan Ebook yang bisa menjadi pegangan kamu dalam belajar Data Science!
Ebook Cheatsheet tentang Data Science berbahasa Indonesia yang disusun oleh Tim Datasans didesain agar mudah dipahami dan langsung bisa diaplikasikan dengan contoh-contoh script Python:
- Cheatsheet Machine Learning Klasifikasi
- Cheatsheet Machine Learning Regresi
- Cheatsheet Machine Learning Clustering
- Cheatsheet Statistika untuk Data Science dengan Python Script
- Cheatsheet Visualisasi data dengan Seaborn
- Cheatsheet EDA (Exploratory Data Analysis) — bahasa inggris
- 500 Pertanyaan dan Jawaban Interview Data Scientist
- Panduan Lengkap Cara Belajar Data Science untuk Fresh Graduate dan Career Switcher