Cheatsheet Statistika untuk Data Science yang Wajib Kamu Tahu!

Datasans
7 min readJun 3, 2023

--

https://www.wallpaperflare.com/statistics-and-figures-data-analytics-concept-analysis-analyzing-wallpaper-aeccz

1. Statistik Deskriptif

Statistik Deskriptif adalah sebuah metode statistik yang berfokus pada pengumpulan, penyajian, dan penjelasan data secara ringkas dan relevan. Data yang telah dikumpulkan kemudian diolah dan disajikan dalam bentuk yang lebih mudah dipahami, seperti dalam tabel, diagram, grafik, atau pun dalam bentuk perhitungan statistik. Tujuannya adalah untuk menyediakan gambaran atau deskripsi yang jelas dari data tersebut.

Konsep-konsep utama dalam statistik deskriptif mencakup ukuran pemusatan data (mean, median, mode), ukuran penyebaran (rentang, varians, simpangan baku), dan bentuk distribusi data.

1.1. Ukuran Pemusatan Data

Mean (Rata-Rata)

Rata-rata adalah nilai yang didapatkan dari penjumlahan seluruh data yang dibagi dengan jumlah data tersebut. Secara matematis bisa dinyatakan sebagai:

Dimana:

  • X̄ adalah mean atau rata-rata,
  • ∑X adalah total dari semua nilai data,
  • n adalah jumlah data.

Median

Median adalah nilai tengah dalam suatu rangkaian data. Jika jumlah datanya ganjil, median adalah nilai data yang tepat di tengah setelah data diurutkan dari yang terkecil sampai terbesar. Jika jumlah datanya genap, median adalah rata-rata dari dua nilai data tengah.

Mode

Mode adalah nilai yang paling sering muncul dalam kumpulan data.

1.2. Ukuran Penyebaran Data

Range (Rentang)

Rentang adalah selisih antara nilai maksimum dan minimum dalam kumpulan data.

Variance (Varians)

Varians adalah rata-rata dari kuadrat selisih setiap nilai data dan mean. Varians memberikan gambaran tentang seberapa jauh setiap nilai dalam kumpulan data dari mean.

Standard Deviation (Simpangan Baku)

Simpangan baku adalah akar kuadrat dari varians. Ini memberikan gambaran tentang penyebaran data.

1.3. Bentuk Distribusi Data

Distribusi data menggambarkan bagaimana nilai-nilai dalam kumpulan data disebar dan bisa dalam bentuk simetris, miring ke kanan (positif), atau miring ke kiri (negatif).

Berikut adalah contoh penggunaan Python untuk melakukan analisis statistik deskriptif.

import pandas as pd
import numpy as np

# Membuat data sintetis
np.random.seed(0)
data = pd.DataFrame({
'A': np.random.normal(0, 1, 100),
'B': np.random.normal(1, 2, 100),
'C': np.random.normal(2, 3, 100)
})

# Menghitung statistik deskriptif
data.describe()

Output:

Dengan melakukan statistik deskriptif, kamu bisa mendapatkan gambaran umum dari data kamu dan membuat keputusan atau hipotesis lebih lanjut berdasarkan hasil analisis tersebut. Meskipun sederhana, statistik deskriptif merupakan fondasi penting dalam dunia data science dan statistika.

2. Statistik Inferensial

Berbeda dengan statistik deskriptif yang lebih fokus pada pengumpulan dan penyajian data, statistik inferensial adalah metode statistik yang memungkinkan kamu untuk membuat kesimpulan atau prediksi dari data. Statistik inferensial biasanya melibatkan pengujian hipotesis dan estimasi parameter. Statistik inferensial ini sering digunakan ketika kita ingin mengambil kesimpulan dari populasi yang lebih besar berdasarkan sampel yang kita miliki.

Ada dua konsep utama dalam statistik inferensial, yaitu uji hipotesis dan interval kepercayaan.

2.1. Uji Hipotesis

Uji hipotesis adalah metode yang memungkinkan kamu untuk memutuskan apakah hipotesis tertentu tentang populasi harus diterima atau ditolak berdasarkan sampel data. Hipotesis ini biasanya berupa pernyataan tentang parameter populasi, seperti mean atau proporsi.

Hipotesis null (H0) adalah hipotesis yang ingin kita uji, biasanya berupa pernyataan status quo atau kondisi saat ini. Sementara itu, hipotesis alternatif (H1 atau Ha) adalah hipotesis yang ingin kita buktikan atau yang kita anggap benar jika hipotesis null tidak dapat diterima.

2.2. Interval Kepercayaan

Interval kepercayaan adalah rentang nilai yang kita percaya mengandung nilai sebenarnya dari parameter populasi dengan tingkat kepercayaan tertentu. Misalnya, jika kita menghitung interval kepercayaan 95% untuk mean populasi, maka kita percaya bahwa interval ini mencakup mean sebenarnya 95 dari 100 kali.

Berikut adalah contoh penggunaan Python untuk melakukan uji hipotesis dan menghitung interval kepercayaan.

from scipy import stats

# Melakukan t-test untuk membandingkan rata-rata grup A dan B
t_stat, p_value = stats.ttest_ind(data['A'], data['B'])
print('t-statistic:', t_stat)
print('p-value:', p_value)

Output:

Melalui statistik inferensial, kamu dapat membuat keputusan atau prediksi berdasarkan data sampel yang kamu miliki. Metode ini sangat penting dalam data science dan statistika, terutama ketika kamu berurusan dengan data yang besar dan ingin mengambil kesimpulan atau membuat prediksi tentang populasi yang lebih besar.

3. Analisis Regresi dan Korelasi

Analisis regresi dan korelasi adalah dua metode statistik yang sangat penting dalam bidang data science. Keduanya digunakan untuk menganalisis hubungan antara dua atau lebih variabel.

3.1. Analisis Korelasi

Analisis korelasi digunakan untuk mengukur sejauh mana dua variabel berhubungan satu sama lain. Korelasi bisa positif (kedua variabel bergerak ke arah yang sama), negatif (kedua variabel bergerak ke arah yang berlawanan), atau nol (tidak ada hubungan antara kedua variabel).

Koefisien korelasi Pearson biasa digunakan untuk mengukur korelasi antara dua variabel dan nilai dari koefisien korelasi Pearson berkisar antara -1 hingga 1. Nilai 1 menunjukkan korelasi positif sempurna, -1 menunjukkan korelasi negatif sempurna, dan 0 menunjukkan tidak ada korelasi.

3.2. Analisis Regresi

Sementara analisis korelasi mengukur sejauh mana dua variabel berhubungan, analisis regresi memungkinkan kita untuk memprediksi nilai dari satu variabel berdasarkan nilai variabel lain. Dalam analisis regresi, variabel yang kita prediksi disebut variabel dependen, dan variabel yang digunakan untuk prediksi disebut variabel independen.

Model regresi yang paling sederhana adalah regresi linier sederhana, yang memodelkan hubungan antara dua variabel sebagai garis lurus. Model ini dapat ditulis sebagai:

Y = a + bX + e

Dimana:

  • Y adalah variabel dependen,
  • X adalah variabel independen,
  • a adalah intercept,
  • b adalah slope, dan
  • e adalah error.

Berikut adalah contoh penggunaan Python untuk melakukan analisis korelasi dan regresi.

import statsmodels.api as sm

# Melakukan analisis regresi dengan B sebagai variabel dependen dan A sebagai variabel independen
X = sm.add_constant(data['A'])
model = sm.OLS(data['B'], X)
results = model.fit()
print(results.summary())Melalui analisis regresi dan korelasi, kamu bisa mendapatkan pemahaman yang lebih baik tentang bagaimana variabel dalam dataset kamu saling berinteraksi dan berhubungan satu sama lain. Ini sangat penting dalam data science, terutama ketika kamu mencoba untuk membuat model prediktif atau ingin memahami faktor-faktor yang mempengaruhi suatu variabel tertentu.

Output:

4. Analisis Seri Waktu

Analisis seri waktu adalah teknik yang digunakan untuk menganalisis data yang dikumpulkan sepanjang waktu untuk memahami pola yang ada dan melakukan prediksi ke depan. Ada banyak pola yang mungkin ada dalam data seri waktu, termasuk tren (pola naik atau turun sepanjang waktu), musiman (pola yang berulang pada interval tetap), dan siklik (pola naik dan turun yang tidak berlangsung pada interval tetap).

Ada berbagai model yang dapat digunakan dalam analisis seri waktu, termasuk model ARIMA (Autoregressive Integrated Moving Average), model eksponensial smoothing, dan model state space seperti model Kalman Filter.

Model ARIMA, salah satu model paling populer, mencakup tiga komponen: bagian autoregressive (AR), bagian moving average (MA), dan bagian differencing (I). Model ini dapat ditulis sebagai:

ARIMA(p, d, q)

Dimana:

  • p adalah orde dari bagian AR,
  • d adalah orde dari differencing, dan
  • q adalah orde dari bagian MA.

Berikut adalah contoh penggunaan Python untuk melakukan analisis seri waktu menggunakan model ARIMA.

from statsmodels.tsa.arima.model import ARIMA

# Membuat data seri waktu sintetis
np.random.seed(0)
time_data = pd.Series(np.random.normal(0, 1, 100))

# Melakukan fitting model ARIMA
model = ARIMA(time_data, order=(1, 0, 0))
model_fit = model.fit()
print(model_fit.summary())

Output:

Analisis seri waktu sangat penting dalam banyak bidang, termasuk ekonomi, keuangan, dan meteorologi. Melalui analisis seri waktu, kamu bisa memahami pola dalam data dan membuat prediksi yang akurat untuk masa depan.

5. Analisis Multivariat

Analisis multivariat adalah teknik statistik yang melibatkan pengamatan dan analisis lebih dari satu variabel statistik pada satu waktu. Teknik ini digunakan untuk mengerti lebih lanjut tentang hubungan kompleks antara variabel dan variabel lainnya.

5.1. Regresi Linier Berganda

Mirip dengan regresi linier sederhana, regresi linier berganda mencoba memprediksi nilai dari satu variabel dependen berdasarkan dua atau lebih variabel independen. Persamaan regresi linier berganda bisa ditulis sebagai:

Y = a + b1X1 + b2X2 + … + bn*Xn + e

Dimana:

  • Y adalah variabel dependen,
  • X1, X2, …, Xn adalah variabel-variabel independen,
  • a adalah intercept,
  • b1, b2, …, bn adalah koefisien dari variabel-variabel independen, dan
  • e adalah error.

5.2. Analisis Komponen Utama (PCA)

Analisis Komponen Utama (PCA) adalah teknik yang digunakan untuk mereduksi dimensi dataset sambil mempertahankan sebanyak mungkin informasi. Teknik ini mencari kombinasi linear dari variabel asli (komponen utama) yang menjelaskan sebagian besar variansi dalam data.

Berikut adalah contoh penggunaan Python untuk melakukan regresi linier berganda dan PCA.

from sklearn.decomposition import PCA

# Melakukan analisis komponen utama (PCA)
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(data)
print('Explained variance ratio:', pca.explained_variance_ratio_)

Output:

Analisis multivariat merupakan teknik yang sangat penting dalam data science, terutama ketika kamu berurusan dengan data berdimensi tinggi atau ingin memahami hubungan yang kompleks antara variabel. Teknik ini membantu kamu memahami struktur dan pola dalam data dan membuat prediksi yang lebih baik dan lebih akurat.

Download PDF (99 Halaman, Bahasa Indonesia) panduan lengkap Cheatsheet Statistika untuk Data Science beserta penjelasan konsep dan contoh python script disini.

Spoiler…

--

--

Datasans
Datasans

Written by Datasans

All things about data science that are discussed “sans ae”, data sains? sans lah…

No responses yet