Professional Documents
Culture Documents
POHON
KEPUTUSAN
ID3
Tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:
1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak
konsiten.
2. Data integration, mengkombinasikan atau mengintegrasikan beberapa sumber
data.
3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis.
4. Data transformation, mentransformasikan data summary ataupun operasi agregasi.
5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk
mengekstrak pola data yang tersembunyi.
6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan
pengetahuan berdasarkan nilai-nilai yang menarik
7. Knowledge presentation, dimana teknik representasi dan visualisasi data
digunakan untuk mempresentasikan pengetahuan yang didadapat kepada user.
POHON KEPUTUSAN
Salah satu metode data mining yang umum digunakan adalahpohon keputusan.
Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon
keputusan yang merepresentasikan rule. Pohon keputusan adalah salah satu
metode klasifikasi yang paling popular karena mudah untuk diinterpretasi oleh
manusia. Konsep dari pohon keputusan adalah mengubah data menjadi pohon
keputusan dan aturan-aturan keputusan.
POHON KEPUTUSAN ID3
Dimana:
S = ruang (data) sample yang digunakan untuk training.
P+ = jumlah yang bersolusi positif (mendukung) pada data
sample untuk kriteria tertentu.
P- = jumlah yang bersolusi negatif (tidak mendukung)
pada data sample untuk kriteria tertentu.
Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
V = suatu nilai yang mungkin untuk atribut A.
Nilai(A) = himpunan yang mungkin untuk atribut A.
|Sv| = jumlah sample untuk nilai V.
|S| = jumlah seluruh sample data.
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V.
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang
akan dijadikan cabang pada pembentukan pohon keputusan. Pilih atribut yang
memiliki nilai information gain terbesar.
2. Bentuk simpul yang berisi atribut tersebut.
3. Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai
semua data telah termasuk dalam kelas yang sama. Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain.
VISUALISASI DAN
IMPLEMENTASI