MENGAPA CONFUSION MATRIX DIBUTUHKAN?

Machine Learning dan Confusion Matrix

Iqram Haris Fahromi
3 min readJan 3, 2023

Machine Learning

Machine learning adalah cabang dari ilmu komputer yang mempelajari cara membuat sistem yang dapat belajar secara otomatis dari data tanpa disuruh secara eksplisit untuk melakukan suatu tugas. Dalam machine learning, biasanya terdapat dua tipe model yaitu model supervised learning dan model unsupervised learning.

Model unsupervised learning adalah model yang hanya membutuhkan data tanpa label kelas. Model ini akan mencari pola dari data tersebut secara otomatis. Contohnya adalah model clustering yang digunakan untuk mengelompokkan data ke dalam beberapa kelompok yang memiliki karakteristik yang sama.

Model supervised learning adalah model yang membutuhkan data latih (training data) yang sudah memiliki label kelas. Model ini akan mempelajari pola dari data latih dan menggunakannya untuk memprediksi kelas dari data baru. Contohnya adalah model klasifikasi yang digunakan untuk memprediksi kelas suatu obyek berdasarkan fiturnya. Untuk mengetahui peforma klasifikasi dari model machine learning, dapat digunakan sebuat konsep tabel yang disebut dengan confusion matrix.

Confusion Matrix

Confusion matrix adalah salah satu cara untuk mengevaluasi hasil dari sebuah model klasifikasi. Confusion matrix menunjukkan jumlah prediksi yang benar dan salah yang dilakukan oleh model terhadap suatu kelas. Confusion matrix biasanya digunakan untuk mengevaluasi model pada data uji.

Dalam confusion matrix, baris menunjukkan kelas sebenarnya (true class) dan kolom menunjukkan kelas yang diprediksi oleh model (predicted class). Ada empat kemungkinan hasil dari suatu prediksi:

  • True Positive (TP): Jumlah prediksi benar yang dilakukan model terhadap kelas positif.
  • True Negative (TN): Jumlah prediksi benar yang dilakukan model terhadap kelas negatif.
  • False Positive (FP): Jumlah prediksi yang salah yang dilakukan model terhadap kelas negatif. Ini disebut juga sebagai “Type I Error”.
  • False Negative (FN): Jumlah prediksi yang salah yang dilakukan model terhadap kelas positif. Ini disebut juga sebagai “Type II Error”.

Tabel confusion matrix untuk model yang memprediksi kelas “Positive” dan “Negative” adalah seperti berikut:

              Predicted
Positive Negative
Actual
Positive TP FN
Negative FP TN

Beberapa metrik yang biasanya dihitung dari confusion matrix antara lain:

  • Accuracy: Menunjukkan seberapa baik model memprediksi kelas dari data uji. Dihitung dengan (TP + TN) / (TP + TN + FP + FN).
  • Precision: Menunjukkan seberapa baik model memprediksi kelas positif. Dihitung dengan TP / (TP + FP).
  • Recall: Menunjukkan seberapa baik model menemukan semua kelas positif yang ada di data uji. Dihitung dengan TP / (TP + FN).
  • F1 Score: Menunjukkan rata-rata harmonis dari precision dan recall. Dihitung dengan (2 * precision * recall) / (precision + recall).

Kita dapat menilai kinerja model dengan menggunakan metrik-metrik tersebut atau dengan membandingkannya dengan model lain yang telah dibuat. Namun, perlu diingat bahwa metrik yang paling penting tergantung pada aplikasi dari model tersebut. Misalnya, jika aplikasinya adalah untuk mendeteksi kejadian yang sangat jarang terjadi, maka recall akan lebih penting daripada precision. Sebaliknya, jika aplikasinya adalah untuk mengeluarkan saran atau rekomendasi, maka precision akan lebih penting daripada recall.

Kesimpulan

Confusion matrix dibutuhkan pada machine learning karena menyediakan informasi yang berguna tentang kinerja model dalam menangani data uji. Tanpa confusion matrix, kita hanya bisa mengetahui apakah model tersebut memberikan prediksi yang benar atau salah, tapi tidak bisa mengetahui lebih lanjut tentang kinerja model tersebut.

Dengan menggunakan confusion matrix, kita dapat mengetahui:

  • Seberapa baik model tersebut memprediksi kelas positif dan kelas negatif.
  • Berapa banyak prediksi yang salah yang dilakukan model terhadap kelas positif dan kelas negatif.
  • Seberapa baik model tersebut memprediksi kelas dari data uji secara keseluruhan.

Informasi ini sangat berguna untuk mengevaluasi model dan menentukan apakah model tersebut cocok untuk digunakan pada data yang akan diprediksi. Misalnya, jika model memprediksi kelas positif dengan sangat baik tapi kelas negatif dengan buruk, maka model tersebut mungkin kurang cocok jika aplikasinya adalah untuk mendeteksi suatu kejadian yang jarang terjadi.

Selain itu, confusion matrix juga dapat digunakan untuk menghitung beberapa metrik seperti accuracy, precision, recall, dan F1 score yang dapat memberikan gambaran lebih lanjut tentang kinerja model. Dengan mengetahui metrik-metrik ini, kita dapat lebih mudah membandingkan kinerja model dengan model lain yang telah dibuat.

Dall•E Confusion Matrix
Confusion Matrix Illustration by DallE

--

--

No responses yet