Sumber : Machine Learning: The Art and Science of Algorithms that Make Sense of Data", Peter Flach
---
Bab 7 membahas tentang model linier, yang merupakan jenis model yang berbeda dengan model logis yang dibahas di bab sebelumnya. Model-model dalam bab ini dan bab berikutnya didefinisikan dalam ruang misalnya dengan menggunakan geometri. Meskipun sebagian besar fitur bernilai real tidak intrinsik bersifat geometris, seperti usia seseorang atau suhu sebuah objek, kita masih bisa membayangkan fitur tersebut dicatat dalam sistem koordinat Kartesius d-dimensi. Kemudian, kita dapat menggunakan konsep geometri seperti garis dan bidang untuk membangun model klasifikasi, atau menggunakan konsep geometri jarak untuk merepresentasikan kesamaan (similarity) antara data. Dalam model-model berbasis jarak, kesamaan antara data direpresentasikan sebagai jarak antara dua titik.
Model geometris ini didasarkan pada konsep bahwa sampel dalam dataset dapat diwakili sebagai titik dalam ruang dengan dimensi yang sama dengan jumlah fitur dalam dataset. Contohnya, jika dataset terdiri dari sampel dengan dua fitur, seperti panjang dan lebar, maka setiap sampel dapat diwakili sebagai titik dalam ruang dua dimensi. Jika dataset terdiri dari sampel dengan tiga fitur, seperti panjang, lebar, dan tinggi, maka setiap sampel dapat diwakili sebagai titik dalam ruang tiga dimensi.
Dalam model geometris, setiap kelas dalam dataset dapat diwakili sebagai himpunan titik-titik yang dikelompokkan bersama dalam ruang. Misalnya, jika dataset terdiri dari sampel dengan dua fitur dan terdiri dari dua kelas, maka masing-masing kelas dapat diwakili sebagai dua himpunan titik-titik dalam ruang dua dimensi.
Untuk melakukan klasifikasi, model geometris mencoba untuk menemukan batas keputusan yang memisahkan himpunan titik-titik yang mewakili kelas yang berbeda. Batas keputusan ini dapat berupa garis, bidang, atau hiperbidang, tergantung pada dimensi ruang yang digunakan. Model geometris bekerja dengan cara menghitung jarak antara setiap sampel dalam dataset dengan batas keputusan, dan kemudian memprediksi kelas yang sesuai berdasarkan posisi sampel terhadap batas keputusan.
jika dataset terdiri dari 5 fitur, maka setiap sampel akan diwakili sebagai titik dalam ruang 5 dimensi. Ini karena setiap fitur akan membentuk satu dimensi di dalam ruang yang diwakili oleh sampel tersebut. Dalam hal ini, setiap sampel akan diwakili oleh sebuah vektor dengan delapan komponen yang merepresentasikan nilai dari setiap fitur dalam dataset.
Sedangkan dalam model-model linear, kita menggunakan konsep garis dan bidang untuk membangun model klasifikasi. Konsep linearitas memainkan peran fundamental dalam matematika dan disiplin terkait. Matematika dari model linear sangat mudah dipahami dan mudah diterapkan dalam machine learning. Karena sederhananya penerapannya, model linear menjadi sangat menarik dalam memecahkan berbagai masalah.
Beberapa algoritma machine learning yang merupakan linear models antara lain:
- Regresi Linier
- Regresi Logistik
- Support Vector Machine (SVM) dengan kernel linier
- Analisis Diskriminan Linier (LDA)
- Ridge Regression
- Lasso Regression
- Elastic Net Regression
- Perceptron dan Multi-Layer Perceptron (MLP)
- Generalized Linear Model (GLM)
No comments :
Post a Comment