Torafahrudin’s Weblog

Just another WordPress.com weblog

Data Understanding

Di dalam data mining, langkah awal yang perlu di lakukan adalah data understanding lebih dahulu. Kita coba tengok .. apakah data kita lengkap, bersih, dan apakah ada keterkaitan antar atribut, apakah perlu untuk di diskretisasi ( menjadikan data numerik menjadi data kategorial).

Jika data adalah hasil dari data warehouse, maka cleaning data tidak perlu dilakukan. Yang perlu dilakukan adalah membuat kedalam bentuk artifact (data bukan dalam bentuk transaksi dimana 1 user bisa mempunyai banyak transaksi di situ / 1 user bisa punya banyak baris karena transaksinya lebih dari 1, tetapi data bisa di jadikan menjadi data aggregat sehingga 1 user itu 1 baris dengan seluruh atribut yang melekat ke dia di tempatkan di memanjang sebagai kolom-kolom).  Melihat keterkaitan antar atribut (kalo di clementine bisa pake web graph untuk melihat keterkaitan antar atribut terhadap sebuah kelas tertentu). Langkah selanjutnya diskretisasi / binning. Apakah perlu merubah semua atribut numerik menjadi kategori / di pilih saja atribut mana yang mau di binning.

Jika data bukan dari data warehouse maka di perlukan inspeksi terhadap kualitas dari masing” atribut, apakah ada yang missing value-nya ato enggak. JIka ada, akan kita apakan, apakah di biarkan (berarti melimpahkan handling missing value-nya pada algoritma data mining), jika tidak maka di isi dengan apa?

Banyak sekali effort dari data mining berada pada titik ini dan pada titik preprocessing, Inti dari data understanding adalah memahami dengan benar data kita seperti apa. Aspek aspek pemahaman data di perlukan sekali disini, orang yang sudah lama bergelut dengan data tersebut, biasanya mudah untuk memahami data dan menentukan titik start dimana data itu akan di persiapakan untuk masuk ke data mining tool. Apakah harus di diskret, di aggregat, di turunkan atribut baru, dsb. Dengan effort yang bagus di tahap data understanding ini diharapkan modellingnya akan memberikan hasil yang optimal.

Thanks,

Tora Fahrudin

September 19, 2008 - Posted by | Data Mining |

Belum ada komentar.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: