Pengenalan Pandas



Pandas adalah library python memberikan kemudahan dalam mengerjakan data tabular. Pandas sering digunakan para data scientist.

Untuk lebih jelasnya, kita gunakan REPL atau jupiter notebook (bila sudah install).

Untuk file data percobaan silakan download PastHires.csv (link ke google drive)

Pastikan saat menjalankan REPL, command prompt berada di direktori yang sama dengan file csv diatas, bila tidak, gunakan file path saat menjalankan perintah read_csv.

Untuk membaca file csv, gunakan perintah read_csv("nama_file.csv")

Perintah .head() menampilkan 5 data teratas, dapat menggunakan parameter untuk menentukan jumlah row yang ingin diretrieve. Pada contoh mydata.head(10).

Perintah .tail() untuk menampilkan 5 data terbawah, dapat menggunakan parameter untuk menentukan jumlah row yang ingin diretrieve. Contoh mydata.tail(10)

>>> import pandas
>>> import numpy
>>> mydata = pandas.read_csv("PastHires.csv")
>>> mydata.head()
   Years Experience Employed?  ...   Interned Hired
0                10         Y  ...          N     Y
1                 0         N  ...          Y     Y
2                 7         N  ...          N     N
3                 2         Y  ...          N     Y
4                20         N  ...          N     N

[5 rows x 7 columns]
>>>
>>> mydata.head(10)
   Years Experience Employed?  ...   Interned Hired
0                10         Y  ...          N     Y
1                 0         N  ...          Y     Y
2                 7         N  ...          N     N
3                 2         Y  ...          N     Y
4                20         N  ...          N     N
5                 0         N  ...          Y     Y
6                 5         Y  ...          Y     Y
7                 3         N  ...          Y     Y
8                15         Y  ...          N     Y
9                 0         N  ...          N     N

[10 rows x 7 columns]
>>>
>>> mydata.tail()
    Years Experience Employed?  ...   Interned Hired
8                 15         Y  ...          N     Y
9                  0         N  ...          N     N
10                 1         N  ...          N     N
11                 4         Y  ...          Y     Y
12                 0         N  ...          N     Y

[5 rows x 7 columns]
>>>
>>> mydata.tail(10)
    Years Experience Employed?  ...   Interned Hired
3                  2         Y  ...          N     Y
4                 20         N  ...          N     N
5                  0         N  ...          Y     Y
6                  5         Y  ...          Y     Y
7                  3         N  ...          Y     Y
8                 15         Y  ...          N     Y
9                  0         N  ...          N     N
10                 1         N  ...          N     N
11                 4         Y  ...          Y     Y
12                 0         N  ...          N     Y

[10 rows x 7 columns]

shape untuk melihat bentuk dari data frame.Akan mengembalikan row x column.
size untuk melihat total ukuran dari data frame. Mengembalikan nilai perkalian dari row dan column.
len untuk melihat jumlah row dari data frame.
columns untuk melihat nama kolom dari data frame.


>>> mydata.shape
(13, 7)
>>> mydata.size
91
>>> len(mydata)
13
>>> df.columns
Index(['Years Experience', 'Employed?', 'Previous employers',
       'Level of Education', 'Top-tier school', 'Interned', 'Hired'],
      dtype='object')


Kita juga bisa hanya mengambil data 1 kolom saja dengan argumen 'nama_row'
Operasi slicing juga dapat digunakan, contoh ingin menampilkan data years experience 5 teratas.
Bila ingin menampilkan 2 kolom atau lebih, maka kita kirim parameter nama row dalam list.

>>> mydata['Years Experience']
0     10
1      0
2      7
3      2
4     20
5      0
6      5
7      3
8     15
9      0
10     1
11     4
12     0
Name: Years Experience, dtype: int64
>>>
>>> mydata['Years Experience'][:5]
0    10
1     0
2     7
3     2
4    20
Name: Years Experience, dtype: int64
>>>
>>> mydata[['Years Experience', 'Hired']]
    Years Experience Hired
0                 10     Y
1                  0     Y
2                  7     N
3                  2     Y
4                 20     N
5                  0     Y
6                  5     Y
7                  3     Y
8                 15     Y
9                  0     N
10                 1     N
11                 4     Y
12                 0     Y


Perintah sort_values() digunakan untuk mengurutkan data frame. Gunakan nama columns untuk melakukan sorting.
Bila kita ingin menghitung jumlah berdasar grouping(kategori) dapat dilakukan dengan perintah value_counts(). Pada contoh dilakukan group count berdasar kategori Level of Education.

>>> mydata.sort_values(['Years Experience'])
    Years Experience Employed?  ...   Interned Hired
1                  0         N  ...          Y     Y
5                  0         N  ...          Y     Y
9                  0         N  ...          N     N
12                 0         N  ...          N     Y
10                 1         N  ...          N     N
3                  2         Y  ...          N     Y
7                  3         N  ...          Y     Y
11                 4         Y  ...          Y     Y
6                  5         Y  ...          Y     Y
2                  7         N  ...          N     N
0                 10         Y  ...          N     Y
8                 15         Y  ...          N     Y
4                 20         N  ...          N     N

[13 rows x 7 columns]
>>>
>>> gelar = mydata['Level of Education'].value_counts()
>>> print(gelar)
BS     7
PhD    4
MS     2
Name: Level of Education, dtype: int64

Nah, silakan bereksperimen... untuk dokumentasi detail dapat dilihat secara online di http://pandas.pydata.org/pandas-docs/stable
Pengenalan Pandas Pengenalan Pandas Reviewed by noname needed on May 29, 2018 Rating: 5

No comments:

Powered by Blogger.