Home » Machine Learning » 10 Algoritma Machine Learning Terbaik

10 Algoritma Machine Learning Terbaik

by Wahyu Saputra S.Kom
by Wahyu Saputra S.Kom

Jika kita seorang data scientist atau penggemar machine learning, Kita dapat menggunakan teknik ini untuk membuat proyek Machine Learning yang fungsional.

Ada tiga jenis teknik dari Machine Learning, yaitu :

  • supervised learning,
  • unsupervised learning,
  • reinforcement learning.

Ketiga teknik ini digunakan dalam daftar 10 Algoritma Machine Learning yang pada umumnya sering digunakan.

Algoritma Machine Learning

Berikut algoritma yang digunakan dalam machine learning yaitu :

1. Linear Regression

Untuk memahami fungsi kerja algoritma ini, bayangkan bagaimana Kita akan mengatur log kayu secara acak dengan meningkatkan urutan beratnya. Namun ada anggapan bahwa Kita tidak dapat menimbang setiap log. Kita harus menebak beratnya hanya dengan melihat tinggi dan ketebalan log (analisis visual) dan mengaturnya menggunakan kombinasi parameter yang terlihat saat ini. Seperti inilah regresi linier.

Dalam proses algoritma ini, hubungan terjalin antara variabel independen dan dependen dengan menyesuaikannya terhadap garis. Baris ini dikenal sebagai garis regresi dan diwakili oleh persamaan linear Y= a *X b.

Dalam persamaan ini:

  • Y – Variabel Dependen
  • a – Kemiringan
  • X – Variabel independen
  • b – Intersep

Koefisien b diturunkan dengan meminimalkan jumlah perbedaan kuadrat jarak antara titik data dan garis regresi.

2. Logistic Regression

Logistic Regression digunakan untuk memperkirakan nilai diskrit (biasanya nilai biner seperti 0/1) dari serangkaian variabel independen. Algortima ini membantu memprediksi probabilitas peristiwa dengan memasang data ke fungsi logit. Algoritma ini juga disebut sebagai regresi logit.

Metode-metode algoritma yang tercantum di bawah ini sering digunakan untuk membantu meningkatkan model regresi logistic yaitu :

  • Interaksi termasuk dalam metode algoritma ini
  • mengeliminasi fitur
  • teknik regularisasi
  • menggunakan model non-linear

3. Decision Tree

Algoritma ini adalah salah satu algoritma machine learning paling populer yang digunakan saat ini. Algoritma ini adalah Teknik algoritma supervised learning yang digunakan untuk mengklasifikasikan masalah.

Algoritma ini bekerja dengan baik mengklasifikasikan antara variabel dependen kategorisasi dengan kontinu. Dalam algoritma ini, kita membagi populasi menjadi dua atau lebih set homogen berdasarkan atribut / variabel independen yang paling signifikan.

4. SVM (Support Vector Machine)

SVM adalah metode klasifikasi di mana Kita memplot data mentah sebagai titik dalam ruang n-dimensi (di mana n adalah jumlah fitur yang Kita miliki).

Nilai setiap fitur kemudian diikat ke koordinat tertentu, sehingga mudah untuk mengklasifikasikan data. Garis yang disebut pengklasifikasi dapat digunakan untuk membagi data dan memplotnya pada grafik.

5. Naive Bayes

Pengklasifikasi Naive Bayes mengasumsikan bahwa keberadaan fitur tertentu di kelas tidak terkait dengan keberadaan fitur yang lain.

Bahkan jika fitur-fitur ini terkait satu sama lain, pengklasifikasi Naive Bayes akan mempertimbangkan semua properti ini secara independen ketika menghitung probabilitas hasil tertentu.

Model Naive Bayesian mudah dibangun dan berguna untuk set data besar. Algoritma ini sederhana dan dikenal untuk mengungguli bahkan metode klasifikasi yang sangat canggih.

6. KNN (K- Nearest Neighbors)

Algoritma ini dapat diterapkan pada masalah klasifikasi dan regresi. Rupanya, dalam industri Data Science, hal itu lebih banyak digunakan untuk memecahkan masalah klasifikasi.

Algoritma ini adalah algoritma sederhana yang menyimpan semua kasus yang tersedia dan mengklasifikasikan kasus baru dengan mengambil suara mayoritas dari neighbour k-nya. Kasus ini kemudian ditugaskan ke kelas yang memiliki kesamaan paling banyak. Fungsi jarak melakukan pengukuran ini.

KNN dapat dengan mudah dipahami dengan membandingkannya di kehidupan nyata. Misalnya, jika Kita menginginkan informasi tentang seseorang, maka kita akan berbicara dengan teman dan koleganya.

Hal-hal yang perlu dipertimbangkan sebelum memilih KNN:

  • KNN secara komputasi mahal
  • Variabel harus dinormalisasi, atau variabel rentang yang lebih tinggi dapat terjadi bias algoritma
  • Data masih dibutuhkan sebelum dilakukan pemrosesan

7. K-Means

Algortima ini adalah Teknik algoritma unsupervised learning yang memecahkan masalah dengan pengelompokan. Kumpulan data diklasifikasikan ke dalam sejumlah kluster tertentu (bisa kita sebut nomor K) sedemikian rupa sehingga semua titik data dalam klaster homogen dan heterogen dari data di kluster lain.

Bagaimana algoritma K-Means membentuk kluster :

  • Algoritma K-means memilih jumlah titik, yang disebut sentroid, untuk setiap kluster.
  • Setiap titik data membentuk klaster dengan sentroid terdekat, yaitu kluster K.
  • Sehingga saat ini menciptakan sentroid baru berdasarkan anggota klaster yang ada.
  • Dengan sentroid baru ini, jarak terdekat untuk setiap titik data ditentukan. Proses ini diulang sampai sentroid tidak berubah.

8. Random Forest 

Sebuah kolektif decision tree disebut Random Forest. Untuk mengklasifikasikan objek baru berdasarkan atributnya, setiap tree diklasifikasikan, dan tree “memilih” untuk kelas tersebut. Forest memilih klasifikasi dengan cara siapa yang memiliki suara terbanyak (di atas semua tree di forest).

Bagaimana Random Forest melakukan proses yaitu sebagai berikut :

  • Jika jumlah kasus dalam set training adalah N, maka sampel kasus N diambil secara acak. Sampel ini akan menjadi training yang ditetapkan untuk menumbuhkan tree.
  • Jika ada variabel input M, angka m<<M ditentukan sedemikian rupa sehingga pada setiap node, variabel m dipilih secara acak dari M, dan pemisahan terbaik pada m ini digunakan untuk membagi node. Nilai m dipegang konstan selama proses ini.
  • Setiap tree ditetapkan sejauh mungkin sehingga tidak ada pemangkasan.

9. Dimensionality Reduction Algorithms

Di dunia saat ini, sejumlah besar data disimpan dan dianalisis oleh perusahaan, lembaga pemerintah, dan organisasi penelitian. Sebagai data scientist, Kita tahu bahwa data mentah ini berisi banyak informasi dan tantangannya adalah dalam mengidentifikasi pola dan variabel yang signifikan.

Algoritma dimensionality reduction seperti Decision Tree, Factor Analysis, Missing Value Ratio, dan Random Forest dapat membantu Kita untuk menemukan detail yang relevan.

10. Gradient Boosting & AdaBoost

Algoritma ini meningkatkan algoritma yang digunakan ketika banyak data harus ditangani untuk membuat prediksi dengan akurasi tinggi. Boosting adalah algoritma ensemble learning yang menggabungkan kekuatan prediktif dari beberapa estimator dasar untuk meningkatkan ketahanan.

Singkatnya, algoritma ini menggabungkan beberapa prediktor lemah atau rata-rata untuk membangun prediktor yang kuat. Algoritma ini selalu bekerja dengan baik dalam persaingan data science seperti Kaggle, AV Hackathon, CrowdAnalytix.

Algoritma ini adalah algoritma machine learning yang paling disukai saat ini. Algoritma ini digunakan bersama dengan Python dan R Codes untuk mencapai hasil yang akurat.

You may also like