MNIST Data Set - Pemahaman Data - Part 1

MNIST data set sering digunakan untuk proses pembelajaran machine learning.

Memahami data adalah salah satu tahap penting dalam machine learning. Karena dengan memahami data, kita dapat menggunakan sebagai input untuk model yang kita buat.

Data set ini mudah diakses, tensorflow bahkan menyediakannya method untuk download dari internet. Pada tutorial ini telah disediakan, jadi tinggal di download langsung.

MNIST data set terbagi menjadi

55.000 training images
10.000 test images
5.000 validation images

Jadi data sudah dipisahkan, untuk training, test dan validation.

MNIST adalah data tulisan tangan angka dari 0 - 9.

Setiap single digit gambar dapat dipresentasikan sebagai array.

Jika kita perhatikan lebih mendalam, dapat kita presentasikan sebagai array 2D dengan shape 28 x 28. Dengan angka 0 adalah putih, 1 adalah hitam dan angka diantara 0 dan 1 adalah gradasi abu.

Array diatas dapat kita datarkan menjadi 1 D dengan 784 (28 x 28) angka. Shape dapat 784,1 atau 1,784. Jadi kita akan memiliki data array 784 x 55000 dimana 55000 adalah jumlah data training.

Proses flatten diatas membuat kita kehilangan informasi relasi antar pixel, untuk saat ini kita kesampingkan masalah ini. Akan kita bahas lebih mendalam di catatan lainnya.

Untuk data label, akan digunakan one-hot encoding. Jadi label bukan berupa string 'one', 'two' etc.... Namun kita menggunakan satu single array untuk setiap image yang dipresentasikan berdasar index dari label dengan menggunakan angka 1. Jika melihat contoh akan lebih jelas.

Contoh
label 4 akan dipresentasikan dengan array [0,0,0,0,1,0,0,0,0,0]
label 6 akan dipresentasikan dengan array [0,0,0,0,0,0,1,0,0,0]

Maka kita akan memiliki label untuk training data adalah array 2 D 10 x 5500, 10 adalah array 1 dimensi diatas dan 5500 adalah jumlah data training.

Data Science

MNIST Data Set - Pemahaman Data - Part 1

No comments:

Free Tutorial @ skillplus.web.id

Follow Us

Popular Posts

Categories

Random Posts

Tags

Recent Posts