Data Understanding
Di dalam data mining, langkah awal yang perlu di lakukan adalah data understanding lebih dahulu. Kita coba tengok .. apakah data kita lengkap, bersih, dan apakah ada keterkaitan antar atribut, apakah perlu untuk di diskretisasi ( menjadikan data numerik menjadi data kategorial).
Jika data adalah hasil dari data warehouse, maka cleaning data tidak perlu dilakukan. Yang perlu dilakukan adalah membuat kedalam bentuk artifact (data bukan dalam bentuk transaksi dimana 1 user bisa mempunyai banyak transaksi di situ / 1 user bisa punya banyak baris karena transaksinya lebih dari 1, tetapi data bisa di jadikan menjadi data aggregat sehingga 1 user itu 1 baris dengan seluruh atribut yang melekat ke dia di tempatkan di memanjang sebagai kolom-kolom). Melihat keterkaitan antar atribut (kalo di clementine bisa pake web graph untuk melihat keterkaitan antar atribut terhadap sebuah kelas tertentu). Langkah selanjutnya diskretisasi / binning. Apakah perlu merubah semua atribut numerik menjadi kategori / di pilih saja atribut mana yang mau di binning.
Jika data bukan dari data warehouse maka di perlukan inspeksi terhadap kualitas dari masing” atribut, apakah ada yang missing value-nya ato enggak. JIka ada, akan kita apakan, apakah di biarkan (berarti melimpahkan handling missing value-nya pada algoritma data mining), jika tidak maka di isi dengan apa?
Banyak sekali effort dari data mining berada pada titik ini dan pada titik preprocessing, Inti dari data understanding adalah memahami dengan benar data kita seperti apa. Aspek aspek pemahaman data di perlukan sekali disini, orang yang sudah lama bergelut dengan data tersebut, biasanya mudah untuk memahami data dan menentukan titik start dimana data itu akan di persiapakan untuk masuk ke data mining tool. Apakah harus di diskret, di aggregat, di turunkan atribut baru, dsb. Dengan effort yang bagus di tahap data understanding ini diharapkan modellingnya akan memberikan hasil yang optimal.
Thanks,
Tora Fahrudin
Riset Juli-Agustus 2008
Mumpung ada yang sedang TA .. dikit” bantuin .. semoga bisa membantu dikit”. Ada 3 Bidang yang sedang saya coba tekuni, yaitu data mining, data warehouse dan database. Dari ketiga bidang itu, bidang data warehouse dan data mining adalah yang paling menarik bagi saya. Hal ini mungkin di karenakan saya sekarang cenderung concern pada menganalisis data dan mengembangkan metoda” baru untuk menggali informasi pada level pembuat kebijakan.
Intinya pada level manajerial .. saya sudah tidak berpikir teknis lagi, saya tidak berpikir bagaimana server saya bekerja, bagaimana database saya bekerja, yang lebih menarik bagi manajer adalah analisa dari data yang sudah ada. Apa yang bisa kita gali dari situ, bagaimana data yang saya miliki bisa membantu saya membuat kebijakan, membantu saya menyadari permasalahan yang saya hadapi saat ini, membantu saya mempertahankan customer saya, dsb.
Dari pengalaman saya bekerja maupun wawancara (heheh tapi gagal karena belum tahu ilmunya), ada beberapa celah / sumber data perusahaan yang kemungkinan bisa kita gali informasi dari data tersebut. Adapun sumber” data setahu saya :
1. Data Statistik / penjualan dari Web kita (sy yakin setiap perusahaan punya dan dia pasti pasang promosi produk, penjelasan produk dan bahkan proses transaksi terhadap sebuah produk bisa via web). Data statistik ini akan menggambarkan sejauh mana produk kita di kenal oleh masyarakat via web, kapan saja situs kita di akses, mengapa mereka mengakses web kita jam segitu. Di mana saja web kita di akses sama mereka. Site meter .. ya itu adalah salah satu tool untuk mengcapture statistik kunjungan ke web kita. Untuk rekan rekan yang membutuhkan bisa di akses di www.sitemeter.com
2. Data transaksi di luar web, yang mungkin di capture berbeda” caranya antara 1 perusahaan dengan perusahaan lainnya. Contohnya adalah jika perusahaan kita adalah perusahaan retail, maka capture transaksi di lakukan via mesin kasir di supermarket tersebut, jika perusahaan kita adalah telco, transaksi di capture dari Network Elemen yang tersebar di seluruh wilayah indonesia. Jika perusahaan kita adalah perbankan, transaksi di capture via input manual di bank by teller ato dari mesin” ATM dan Debet dari toko mitra bank tersebut.
3. Data Customer / Data demografis. Data ini biasanya di isikan ketika kita membuka sebuah layanan kepada perusahaan tertentu seperti pas kita daftar PSTN / telpon rumah, ketika kita buka rekening, dsb. Data ini adalah data cruitial .. sama seperti data di atas, tetapi data demografis ini bakalan lebih bahaya jika jatuh ke tangan kompetitor. Oleh karena itu adik” ku jika kalian magang dan berinteraksi dengan data customernya sebuah perusahaan .. hati” amanahnya besar
4. Data Pelengkap, bisa jadi data laporan keuangan dari perusahaan lain yang di share di internet … seperti laporan keuangan bank” biasanya di publish di web mereka. Bisa juga data pelengkap tersebut kita ambil dari survey terhadap customer kita / customer kompetitor. Biasanya untuk melihat brand produk kita di mata konsumen independen bila di bandingkan dengan produk kompetitor.
Mungkin ada data” lain .. yang saya kurang familiar ato saya lupa sebutkan yang bisa jadi bahan kita untuk melakukan analisis data guna membuat kebijakan yang lebih baik. Mungkin sampai itu dulu tar di lanjut lagi ngobrolnya .. mungkin nanti akan di bahas beberapa kemungkinan metoda yang bisa kita gunakan untuk analisis data.
Thanks,
Tora Fahrudin
-
Arsip
- Oktober 2009 (2)
- Agustus 2009 (1)
- Juli 2009 (1)
- Maret 2009 (2)
- Januari 2009 (4)
- Oktober 2008 (1)
- September 2008 (12)
- Agustus 2008 (3)
-
Kategori
-
RSS
RSS Entri
Komentar RSS
