Home » R » Statistika di R : Pohon Keputusan Pada R Language

Statistika di R : Pohon Keputusan Pada R Language

by Hanifah Nurbaeti
by Hanifah Nurbaeti

Pohon keputusan adalah grafik yang merepresentasikan pilihan dan hasilnya dalam bentuk pohon. Node dalam grafik mewakili peristiwa atau pilihan dan tepi grafik mewakili aturan atau ketentuan keputusan. Ini banyak digunakan dalam aplikasi Machine Learning dan Data Mining menggunakan R.

Contoh penggunaan decision tress adalah untuk memprediksi email sebagai spam atau bukan spam, memprediksi tumor bersifat kanker atau memprediksi pinjaman sebagai risiko kredit baik atau buruk berdasarkan faktor-faktor di masing-masing. Umumnya, model dibuat dengan data observasi yang disebut juga data pelatihan. Kemudian satu set data validasi digunakan untuk memverifikasi dan meningkatkan model. R memiliki paket yang digunakan untuk membuat dan memvisualisasikan pohon keputusan. Untuk kumpulan variabel prediktor baru, kita akan menggunakan model ini untuk mengambil keputusan tentang kategori (ya / Tidak, spam / bukan spam) data.

Party” paket R digunakan untuk membuat pohon keputusan.

Instal Paket R.

Gunakan perintah di bawah ini di konsol R untuk menginstal paket dan juga harus menginstal paket dependen jika ada.

install.packages ("party")

Paket “party” memiliki fungsi ctree() yang digunakan untuk membuat dan menganalisis pohon keputusan.

Syntax

Sintaks dasar untuk membuat pohon keputusan di R adalah :

ctree (formula, data)

Deskripsi :

formula adalah rumus yang mendeskripsikan variabel prediktor dan respon.

data adalah nama kumpulan data yang digunakan.

Masukan data

Kita akan menggunakan set data built-in R bernama readingSkills untuk membuat pohon keputusan. Ini menggambarkan skor readingSkills seseorang jika kita mengetahui variabel “age”, “shoesize”, “score” dan apakah orang tersebut penutur asli atau bukan.

Berikut ini contoh datanya:

# Muat paket party R. Ini akan secara otomatis memuat lainnya
# paket dependen.
library(party)

# Mencetak beberapa catatan dari kumpulan data readingSkills.
print(head(readingSkills))

Output :

nativeSpeaker   age   shoeSize      score
1           yes     5   24.83189   32.29385
2           yes     6   25.95238   36.63105
3            no    11   30.42170   49.60593
4           yes     7   28.66450   40.28456
5           yes    11   31.88207   55.46085
6           yes    10   30.07843   52.83124
Loading required package: methods
Loading required package: grid
...............................
...............................

Contoh
Kita akan menggunakan fungsi ctree() untuk membuat pohon keputusan dan melihat grafiknya:

# Muat paket party R. Ini akan secara otomatis memuat lainnya
# paket dependen.
library(party)

# Buat inputan data frame.
input.dat <- readingSkills[c(1:105),]

# Beri nama chart file.
png(file = "decision_tree.png")

# Buat pohon keputusan.
  output.tree <- ctree(
  nativeSpeaker ~ age + shoeSize + score, 
  data = input.dat)

# Plot the tree.
plot(output.tree)

# Simpan file.
dev.off()

Output :

null device            
          1  
Loading required package: methods 
Loading required package: grid 
Loading required package: mvtnorm 
Loading required package: modeltools 
Loading required package: stats4 
Loading required package: strucchange 
Loading required package: zoo 

Attaching package: ‘zoo’ 

The following objects are masked from ‘package:base’:    
      
                as.Date, as.Date.numeric 

Loading required package: sandwich

Kesimpulan
Dari pohon keputusan yang ditunjukkan di atas, kita dapat menyimpulkan bahwa siapa pun yang skor readingSkills kurang dari 38,3 dan usianya lebih dari 6 bukanlah penutur asli.

You may also like