Jika kita melihat cara kerja machine learning, mungkin terlihat simple. Sediakan data feature, input ke model, beritahu model nilai yang diharapkan. Done!
Pada kenyataannya, kita akan menghabiskan cukup banyak waktu untuk membuat model dan menentukan feature yang tepat untuk model machine learning.
Feature Engineering adalah bagaimana kita menggunakan pengetahuan kita dalam memilih features atau membuat features baru agar model machine learning dapat bekerja lebih akurat dalam memecahkan masalah.
Feature engineering akan memakan sebagian besar waktu kita saat membuat model machine learning. Jika kita melakukannya dengan baik, model yang dihasilkan akan mampu memprediksi atau memecahkan masalah lebih akurat.
Agar model dapat memprediksi dengan baik, maka kita harus input feature yang berkolerasi kuat dengan output yang diharapkan.
Feature juga diharapkan sesederhana mungkin agar mudah dimodelkan.
Memasukan feature yang tidak berkolerasi dengan output, akan mengacaukan model dalam menghasilkan prediksi. Contoh ekstrim, pada model prediksi harga rumah, kita memasukan jumlah tanaman disebuah rumah sebagai feature. Jumlah tanaman tidak akan mempengaruhi nilai akhir rumah, jika ini dimasukan dalam data training. Model akan menganggap ini penting dan akan mengacaukan prediksi nilai akhir.
Strategi Feature Engineering
Menambah atau membuang feature, pilih feature yang signifikan mempengaruhi nilai akhir.Menggabungkan beberapa fitur menjadi 1 fitur, agar model lebih simple. Contoh, ukuran panjang dan lebar tanah, maka cukup digabungkan menjadi 1 fitur saja, yaitu luas tanah yang merupakan perhitungan dari panjang x lebar yang digunakan.
Binning, mengganti angka numerical menjadi kategori yang lebih luas, agar model lebih simple. Contoh, data ukuran kolam renang, diubah menjadi boolean, True jika ada kolam renang, dan False jika tidak ada.
One-hot encoding, cara mempresentasikan data tipe kategori sebagai numeric dimana dapat dipahami model machine learning.
Contoh, data lingkungan, misalnya lingkungan perumahan atau pusat kota.
Teks dengan kata perumahan, tidak dipahami oleh model, kita dapat menggantinya dengan angka. Misalnya 1 untuk perumahan, 2 untuk pusat kota. Namun ini juga kurang tepat, karena dapat membuat model menganggap ada satu urutan tertentu.
Pendekatan yang tepat adalah seperti gambar dibawah
Feature Engineering
Reviewed by noname needed
on
May 24, 2018
Rating:
No comments: