Sunday, March 26, 2023

1.2. Model Geometris (Output Machine Learning)

Sumber : Machine Learning: The Art and Science of Algorithms that Make Sense of Data", Peter Flach

--

Model geometris sebagai salah satu model yang digunakan dalam Machine Learning untuk melakukan klasifikasi. Model geometris ini didasarkan pada konsep bahwa sampel dalam dataset dapat diwakili sebagai titik dalam ruang dengan dimensi yang sama dengan jumlah fitur dalam dataset. Contohnya, jika dataset terdiri dari sampel dengan dua fitur, seperti panjang dan lebar, maka setiap sampel dapat diwakili sebagai titik dalam ruang dua dimensi. Jika dataset terdiri dari sampel dengan tiga fitur, seperti panjang, lebar, dan tinggi, maka setiap sampel dapat diwakili sebagai titik dalam ruang tiga dimensi.

Dalam model geometris, setiap kelas dalam dataset dapat diwakili sebagai himpunan titik-titik yang dikelompokkan bersama dalam ruang. Misalnya, jika dataset terdiri dari sampel dengan dua fitur dan terdiri dari dua kelas, maka masing-masing kelas dapat diwakili sebagai dua himpunan titik-titik dalam ruang dua dimensi.

Untuk melakukan klasifikasi, model geometris mencoba untuk menemukan batas keputusan yang memisahkan himpunan titik-titik yang mewakili kelas yang berbeda. Batas keputusan ini dapat berupa garis, bidang, atau hiperbidang, tergantung pada dimensi ruang yang digunakan. Model geometris bekerja dengan cara menghitung jarak antara setiap sampel dalam dataset dengan batas keputusan, dan kemudian memprediksi kelas yang sesuai berdasarkan posisi sampel terhadap batas keputusan.

Meskipun model geometris relatif sederhana dan mudah dipahami, namun model ini memiliki kelemahan dalam menangani dataset yang kompleks dan tidak linear. Oleh karena itu, model geometris seringkali digunakan sebagai model dasar dalam Machine Learning dan diikuti dengan pengembangan model yang lebih canggih seperti model berbasis kernel dan neural network.

--

Salah satu contoh model geometris yang dijelaskan dalam buku tersebut adalah model linear, di mana model ini mencoba untuk memisahkan dua kelas dengan menggunakan sebuah garis atau sebuah hyperplane. Garis atau hyperplane ini dibangun dengan cara mencari pusat massa dari masing-masing kelas, dan membangun garis atau hyperplane yang berada di tengah-tengah antara kedua pusat massa ini. Dalam kasus model linear dengan dua dimensi, garis yang dibangun merupakan garis lurus, sedangkan pada model linear dengan tiga dimensi, hyperplane yang dibangun merupakan bidang datar.

Selain model linear, terdapat pula model non-linear yang bersifat geometris, seperti decision tree, k-nearest neighbors, dan neural networks. Model non-linear ini memanfaatkan representasi geometris data yang lebih kompleks, misalnya dengan membangun struktur pohon keputusan, menentukan kelas berdasarkan jarak terdekat, atau memanfaatkan beberapa lapisan atau hidden layers pada neural network.

Model-model geometris ini memiliki keuntungan karena representasi geometris data yang mudah dipahami dan diinterpretasi. Selain itu, model-model ini juga dapat memperlihatkan secara visual bagaimana suatu model melakukan klasifikasi terhadap data. Namun, model-model geometris ini juga memiliki kelemahan, di antaranya kurang fleksibel dalam mengatasi data yang kompleks dan memiliki noise. Oleh karena itu, diperlukan model-model Machine Learning lainnya yang dapat mengatasi kelemahan-kelemahan tersebut.


Figure 1.1 menunjukkan contoh dari klasifikasi linier dasar yang menggunakan model geometris untuk memprediksi kelas suatu sampel dalam dataset. Gambar tersebut menunjukkan dua kelas yang berbeda dalam ruang dua dimensi. Garis putus-putus pada gambar merupakan garis batas keputusan atau "decision boundary" yang memisahkan kedua kelas tersebut. Garis ini dibentuk oleh model klasifikasi linier dasar yang menggunakan persamaan w·x = t, di mana w adalah vektor bobot dan t adalah ambang batas.

Jika terdapat batas keputusan linear yang memisahkan dua kelas, maka data dikatakan linearly separable. Batas keputusan linier ini didefinisikan oleh persamaan w·x = t, di mana w adalah vektor tegak lurus terhadap batas keputusan, x menunjuk pada titik acak pada batas keputusan, dan t adalah ambang keputusan.

Dalam contoh ini, garis batas keputusan dibangun dengan mengambil setengah jarak antara pusat massa kelas positif (p) dan kelas negatif (n). Kemudian, vektor w dihitung dengan mengurangi vektor n dari vektor p, sehingga w = p - n. Vektor w dapat dianggap sebagai vektor yang mengarah dari "pusat massa" contoh negatif, n, ke pusat massa positif, p. Dalam hal ini, w sebanding atau sama dengan p - n. Pusat massa ini dapat dihitung dengan cara mengambil rata-rata dari contoh positif dan negatif. Dengan menetapkan ambang keputusan yang sesuai, batas keputusan dapat dipotong secara setengah.

Selanjutnya, ambang batas t dihitung dengan menggunakan persamaan t = (||p||2 - ||n||2)/2, di mana ||x|| adalah panjang vektor x. Ambang batas ini memungkinkan untuk menentukan posisi garis batas keputusan pada sumbu y.

Dalam proses klasifikasi, model linier ini menghitung jarak antara setiap sampel dalam dataset dengan garis batas keputusan. Jika sampel berada di atas garis, maka akan diprediksi sebagai kelas positif, dan jika sampel berada di bawah garis, maka akan diprediksi sebagai kelas negatif.
--
Persamaan t = (||p||2 - ||n||2)/2 pada gambar 1.1 adalah persamaan untuk menghitung ambang batas atau "decision threshold" pada model klasifikasi linier dasar.
Pada contoh gambar tersebut, ambang batas t digunakan untuk menentukan posisi garis batas keputusan pada sumbu y. Persamaan tersebut memungkinkan untuk menghitung ambang batas dengan menggunakan pusat massa kelas positif (p) dan kelas negatif (n).

---

jika notasi ||x|| menunjukkan panjang atau norma dari vektor x, maka pada persamaan tersebut, ||p||2 dan ||n||2 adalah kuadrat dari norma dari vektor pusat massa kelas positif dan kelas negatif.

Penjelasan lebih lanjut mengenai persamaan tersebut adalah sebagai berikut:

  • ||p||2 dan ||n||2 adalah kuadrat dari panjang vektor p dan n, masing-masing.
  • Selisih antara ||p||2 dan ||n||2 menunjukkan jarak antara pusat massa kelas positif dan kelas negatif pada sumbu y.
  • Nilai selisih tersebut dibagi dua, karena setengah dari jarak tersebut merupakan jarak antara garis batas keputusan dengan pusat massa kelas positif atau kelas negatif.
  • Oleh karena itu, ambang batas ditentukan dengan mengurangi ||n||2 dari ||p||2, kemudian membagi selisih tersebut dengan dua.

Dalam matematika, norma atau panjang vektor adalah besarnya suatu vektor dalam ruang vektor, yang dapat dihitung dengan rumus ||x|| = sqrt(x1^2 + x2^2 + ... + xn^2), di mana x1, x2, ..., xn adalah koordinat dari vektor tersebut. Dalam konteks persamaan t = (||p||2 - ||n||2)/2, ||p||2 dan ||n||2 mengacu pada panjang atau norma dari vektor pusat massa kelas positif dan kelas negatif.

Namun, model ini dapat berkinerja buruk jika data tidak memenuhi asumsi yang dibutuhkan. Asumsi bahwa data terpisah secara linier tidak selalu terpenuhi di dunia nyata karena adanya noise. Oleh karena itu, linear separability tidak terjadi sangat sering dalam praktik, kecuali jika data sangat sparse, seperti pada klasifikasi teks. Karena data biasanya tidak linearly separable, maka kita memerlukan metode untuk memilih batas keputusan yang terbaik. Salah satu opsi alami adalah memilih klasifikasi dengan margin yang besar, di mana margin dari klasifikasi linier adalah jarak antara batas keputusan dan contoh terdekat, misalnya menggunakan Support Vector Machines (SVM).

No comments :

Post a Comment