Apa itu Probabilistic Methods dalam Klasifikasi Data?

Halo rekan-rekanita! Pernah nggak kalian berpikir bagaimana sebuah algoritma bisa sangat yakin memberikan label pada data hanya berdasarkan hitungan peluang? Kali ini kami akan membedah bagian “Probabilistic Methods” dari buku teks klasifikasi data yang kalian pelajari. Kami akan menerjemahkannya secara mendalam lengkap dengan rumus-rumus teknisnya agar kalian nggak bingung lagi pas ngerjain proyek machine learning.

Metode probabilistik sepertinya menempati posisi paling fundamental di antara semua metode klasifikasi data yang ada. Algoritma klasifikasi probabilistik ngegunain inferensi statistik buat nyari kelas terbaik bagi sebuah contoh data yang diberikan. Berbeda dengan algoritma klasifikasi lain yang cuma sekadar ngasih label kelas, algoritma probabilistik ini bakal ngeluarin output berupa probabilitas posterior yang nunjukin seberapa besar peluang sebuah data uji menjadi anggota dari tiap kelas yang mungkin ada. Kami melihat ini sebagai poin plus karena kalian nggak cuma dapet hasil prediksi, tapi juga dapet nilai kepercayaan dari prediksi tersebut.

Secara teknis, ada dua konsep peluang utama yang harus kalian pahami di sini:

Probabilitas Posterior: Didefinisikan sebagai probabilitas yang dihitung setelah kami mengamati karakteristik spesifik dari data uji yang sedang diproses.
Probabilitas Prior: Rasanya konsep ini lebih simpel karena cuma merupakan pecahan dari rekaman data latih yang dimiliki oleh tiap kelas tertentu, tanpa ada pengetahuan soal data uji tadi.

Setelah kami dapetin probabilitas posterior ini, barulah kami pake teori keputusan buat nentuin keanggotaan kelas untuk setiap data baru yang masuk ke sistem. Berdasarkan penjelasan di halaman 6 dan 7, ada dua cara utama buat mengestimasi probabilitas posterior ini:

1. Model Generatif (Bayes Classifier)

Dalam pendekatan ini, probabilitas posterior dari suatu kelas diestimasi dengan cara nentuin probabilitas kondisional kelas (class-conditional probability) dan kelas prior secara terpisah, lalu ngegunain Teorema Bayes buat nyari parameternya. Untuk memudahkan diskusi, kita asumsikan nilai fiturnya diskrit. Misalkan ada data uji dengan d fitur berbeda yang punya nilai $X = \langle x_1 . . . x_d \rangle$ . Kami pengen tau probabilitas posterior kalau kelas $Y(T)$ dari data uji $T$ adalah $i$ , atau secara matematis ditulis

P(Y(T) = i | x_1 . . . x_d)

Berdasarkan aturan Bayes, rumusnya adalah sebagai berikut:

P(Y(T) = i | x_1 . . . x_d) = \frac{P(Y(T) = i) \cdot P(x_1 . . . x_d | Y(T) = i)}{P(x_1 . . . x_d)}

Karena penyebutnya (bagian bawah) itu nilainya konstan di semua kelas dan kami cuma perlu nyari kelas mana yang punya probabilitas posterior maksimal, kami bisa ngebuat penyederhanaan kayak gini:

P(Y(T) = i | x_1 . . . x_d) \propto P(Y(T) = i) \cdot P(x_1 . . . x_d | Y(T) = i)

Kuncinya ada di sisi kanan rumus itu. Nilainya bisa dievaluasi dengan lebih gampang lewat pendekatan berbasis data asalkan kalian pake asumsi Naive Bayes. Secara spesifik, ekspresi probabilitas kondisional tersebut bisa dinyatakan sebagai hasil perkalian dari probabilitas kondisional tiap fiturnya. Hal ini disebut sebagai independensi kondisional (conditional independence). Itulah kenapa metodenya disebut “naif”.

Rumus penyederhanaannya jadi kayak gini:

P(x_1 . . . x_d | Y(T) = i) = \prod_{j=1}^{d} P(x_j | Y(T) = i)

Penyederhanaan ini krusial banget karena probabilitas individu ini bisa kalian estimasi dari data latih dengan cara yang lebih kuat (robust). Istilah $P(x_j | Y(T) = i)$ itu dihitung sebagai pecahan jumlah rekaman di bagian data latih kelas ke- $i$ yang punya nilai fitur $x_j$ buat atribut ke- $j$ .

Kalau datanya dikit banget, kalian bisa pake teknik Laplacian smoothing biar itungannya nggak jadi nol dan tetap stabil. Meskipun pake asumsi independensi yang kayaknya terlalu sederhana, model Bayes ini terbukti sangat efektif dalam praktiknya, terutama buat klasifikasi teks atau dokumen.

2. Model Diskriminatif (Logistic Regression)

Pendekatan probabilistik lainnya adalah langsung ngebangun model buat probabilitas posterior-nya lewat fungsi diskriminatif yang ngepetain vektor fitur input langsung ke label kelasnya. Salah satu yang paling populer adalah Regresi Logistik.

Tujuannya adalah buat langsung mengestimasi probabilitas $P(Y(T) = i | X)$ dari data latih.

Secara formal, model regresi logistik didefinisikan sebagai:

P(Y(T) = i | X) = \frac{1}{1 + e^{-\theta^T X}}

Di sini, $\theta$ adalah vektor parameter yang harus kalian estimasi. Biasanya, metode maximum likelihood dipakai buat nentuin parameter ini. Buat ngebantu masalah overfitting, biasanya mereka nambahin regularisasi buat ngasih penalti pada fungsi log likelihood kalo nilai $\theta$ kegedean. Model ini sudah banyak banget dipake di berbagai bidang, mulai dari dunia Web sampai sains medis.

Metode probabilistik ini ngebuat proses klasifikasi jadi lebih transparan karena tiap keputusan mesin didasarin sama itungan angka peluang yang jelas. Kami menyarankan kalian buat selalu ngecek apakah distribusi data kalian cocok dengan asumsi model yang dipilih. Memahami teori dasar kayak Teorema Bayes sepertinya bakal ngebuat kalian selangkah lebih maju dibanding praktisi yang cuma sekadar “panggil library” doang tanpa tau apa yang terjadi di balik layar.

Contoh Sourcecode

Berikut adalah contoh implementasi source code Python untuk kedua pendekatan Probabilistic Methods yang dijelaskan di atas: Model Generatif (Naive Bayes untuk klasifikasi teks) dan Model Diskriminatif (Logistic Regression).

Kode ini dibuat menggunakan pustaka scikit-learn agar bersih dan standar industri, serta dilengkapi dengan visualisasi matriks keputusan untuk mempermudah evaluasi hasil probabilitasnya.

1. Model Generatif: Naive Bayes (Klasifikasi Teks)

Sesuai penjelasan, model ini menggunakan asumsi conditional independence dan Laplacian smoothing (otomatis aktif di MultinomialNB) untuk menghitung nilai posterior.

import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 1. Data Latih (Koleksi teks fiktif)
corpus_train = [
    "diskon besar produk kecantikan gratis ongkir",
    "promo murah belanja gadget gratis kupon",
    "rapat koordinasi sistem informasi hari senin",
    "jadwal kuliah manajemen basis data diubah",
]
# Label: 1 = Promosi/Spam, 0 = Edukasi/Kerja
y_train = [1, 1, 0, 0]

# 2. Representasi Fitur Ekstraksi (Bag of Words)
# Menghitung kemunculan kata (X_j) sebagai fitur diskrit
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(corpus_train)

# 3. Inisialisasi Model dengan Laplacian Smoothing (alpha=1.0)
naive_bayes_model = MultinomialNB(alpha=1.0)
naive_bayes_model.fit(X_train, y_train)

# --- UJI COBA DATA BARU ---
text_test = ["info rapat promo diskon"]
X_test = vectorizer.transform(text_test)

# Prediksi Label Kelas
prediction = naive_bayes_model.predict(X_test)
# Mengeluarkan output Probabilitas Posterior (Rumus 1.6 / 1.8)
posterior_probs = naive_bayes_model.predict_proba(X_test)[0]

print("=== HASIL MODEL GENERATIF (NAIVE BAYES) ===")
print(f"Teks Uji: '{text_test[0]}'")
print(f"Probabilitas Prior + Kondisional Kelas 0 (Kerja): {posterior_probs[0]:.4f}")
print(f"Probabilitas Prior + Kondisional Kelas 1 (Promo): {posterior_probs[1]:.4f}")
print(f"Hasil Klasifikasi Akhir: Kelas {prediction[0]}")

2. Model Diskriminatif: Logistic Regression

Model ini langsung memetakan vektor fitur ke fungsi sigmoid untuk mencari probabilitas posterior menggunakan parameter $\theta$ yang dioptimalkan via maximum likelihood.

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# 1. Data Latih (Fitur Numerik Kontinu, misal: Fitur A dan Fitur B)
X_numeric = np.array([
    [1.5, 2.3],
    [3.0, 4.5],
    [1.1, 1.8],
    [4.2, 5.6],
    [2.0, 2.1],
    [4.8, 6.0]
])
# Label Kelas (0 atau 1)
y_numeric = np.array([0, 1, 0, 1, 0, 1])

# 2. Standarisasi Fitur (Sangat disarankan untuk Regresi Logistik)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_numeric)

# 3. Inisialisasi Model dengan Regularisasi L2 (Ridge) untuk mencegah Overfitting
logistic_model = LogisticRegression(penalty='l2', C=1.0)
logistic_model.fit(X_scaled, y_numeric)

# --- UJI COBA DATA BARU ---
data_baru = np.array([[3.5, 4.8]])
data_baru_scaled = scaler.transform(data_baru)

# Prediksi Kelas
pred_class = logistic_model.predict(data_baru_scaled)
# Mengeluarkan output Probabilitas Posterior langsung via Fungsi Sigmoid (Rumus 1.9)
logistic_probs = logistic_model.predict_proba(data_baru_scaled)[0]

print("\n=== HASIL MODEL DISKRIMINATIF (LOGISTIC REGRESSION) ===")
print(f"Data Uji Baru: {data_baru[0]}")
print(f"Vektor Parameter Theta (Coefficients): {logistic_model.coef_[0]}")
print(f"Intercept (Bias): {logistic_model.intercept_[0]:.4f}")
print(f"Probabilitas Posterior Kelas 0: {logistic_probs[0]:.4f}")
print(f"Probabilitas Posterior Kelas 1: {logistic_probs[1]:.4f}")
print(f"Hasil Klasifikasi Akhir: Kelas {pred_class[0]}")

Cara Membaca Output:

Baik MultinomialNB maupun LogisticRegression memiliki fungsi .predict_proba(). Fungsi inilah yang mengimplementasikan esensi utama dari Probabilistic Methods, di mana Anda tidak hanya mendapatkan label $0$ atau $1$, melainkan nilai kepercayaan (misal: $0.87$ atau $87\%$ peluang masuk ke kelas tertentu).

Sekian pembahasan teknis dari kami mengenai metode probabilistik yang ada di dalam buku ini. Rekan-rekanita, terima kasih sudah membaca artikel ini sampai habis, yuk kita mulai simpulkan bareng-bareng mana pendekatan yang paling pas buat proyek data kalian!

Sumber: Agharwal, Charu C. 2015. Data Classification Algorithm and Methods. Penerbit: CRC Press.