Cara menggunakan DESCRIBE. pada Python

Indonesian (Bahasa Indonesia) translation by Yosef Andreas (you can also view the original English article)

Dalam tutorial ini saya akan memberikan pengenalan mendasar tentang pandas. Oh, yang saya maksudkan bukan hewan panda, namun sebuah librari Python!

Seperti yang disebutkan dalam website pandas:

pandas adalah sebuah librari berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan dan berkinerja tinggi untuk bahasa pemrograman Python.

Dengan demikian, pandas adalah librari analisis data yang memiliki struktur data yang kita perlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang cocok untuk analisis (yaitu tabel). Penting untuk dicatat di sini bahwa karena pandas melakukan tugas penting seperti menyelaraskan data untuk perbandingan dan penggabungan set data, penanganan data yang hilang, dll, itu telah menjadi sebuah librari de facto untuk pemrosesan data tingkat tinggi dalam Python (yaitu statistik). Nah, pandas mulanya didesain untuk menangani data finansial, dikarenakan altenatif umum adalah menggunakan spreadsheet (misalnya Microsoft Excel).

Struktur data dasar pandas dinamakan DataFrame, yaitu sebuah koleksi kolom berurutan dengan nama dan jenis, dengan demikian merupakan sebuah tabel yang tampak seperti database dimana sebuah baris tunggal mewakili sebuah contoh tunggal dan kolom mewakili atribut tertentu. Harus dicatat di sini bahwa elemen dalam berbagai kolom mungkin berapa jenis yang berbeda.

Jadi, garis bawahnya adalah bahwa librari pandas menyediakan kita dengan struktur data function yang diperlukan untuk analisis data.

Menginstal Pandas

Mari lihat bagaimana kita dapat menginstal pandas pada mesin kita dan menggunakannya untuk analisis data Cara termudah untuk menginstal pandas dan menghindari permasalahan dependency adalah dengan menggunakan Anaconda dimana pandas merupakan bagiannya. Seperti yang disebutkan dalam halaman download Anaconda:

Anaconda merupakan distribusi Python yang benar-benar gratis (termasuk untuk penggunaan komersial dan redistribusi). Itu berisi lebih dari 400 paket Python paling populer untuk sains, matematika, tehnik, dan analisis data

Distribusi Anaconda merupakan cross-platform, yang berarti bahwa itu dapat diinstal pada mesin OS X, Windows, dan Linux. Saya akan menggunakan installer OS X karena saya berkerja menggunakan mesin OS X El Capitan, namun tentu saja kamu dapat memilih installer yang cocok dengan sistem operasimu. Saya akan melanjutkan dengan installer grafikal (hati-hati, ukurannya 339 MB).

Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Installer Grafikal Anaconda Untuk Mac OS X

Setelah mendownload installer, cukup ikuti tahap instalasi dan kamu sudah siap!

Semua yang perlu kita lakukan sekarang untuk menggunakan pandas adalah mengimpor paket sebagai berikut:

import pandas as pd

Struktur Data Pandas

Saya telah menyebutkan salah satu struktur data pandas di atas, DataFrame. Saya akan menjelaskan struktur data ini di dalam section ini sebagai tambahan untuk struktur data pandas lainnya, Series. Ada struktur data lainnya bernama Panel, namun saya tidak akan menjelaskan itu di dalam tutorial ini karena itu tidak sering digunakan, seperti yang disebutkan di dalam dokumentasi. DataFrame adalah struktur data 2D, Series adalah struktur data 1D, dan Panel adalah struktur data 3D dan lebih tinggi.

DataFrame

DataFrame adalah struktur data tabular yang disusun pada kolom dan baris berurut. Untuk membuatnya lebih jelas, mari lihat contoh pembuatan sebuah DataFrame (tabel) dari kamus sebuah daftar. Contoh berikut menunjukkan sebuah kamus berisi dua kunci, Name dan Age, dan daftar nilainya.

import pandas as pd
import numpy as np

name_age = {'Name' : ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'],
'Age' : [32, 55, 20, 43, 30]}
data_frame = pd.DataFrame(name_age)
print data_frame

Jika kamu menjalankan script di atas, kamu harusnya mendapatkan sebuah input mirip dengan di bawah ini:

Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python

Perhatikan bahwa constructor DataFrame mengurutkan kolom secara alfabetis. Jika kamu ingin mengubah urutan kolom, kamu dapat mengetikkan hal berikut di bawah data_frame di atas:

data_frame_2 = pd.DataFrame(name_age, columns = ['Name', 'Age'])

Untuk melihat hasilnya, cukup ketik: print data_frame_2.

Katakan kamu tidak ingin menggunakan label default 0,1,2..., dan ingin menggunakan a, b, c,... sebagai gantinya. Dalam kasus itu, kamu dapat menggunakan index di dalam script di atas sebagai berikut:

data_frame_2 = pd.DataFrame(name_age, columns = ['Name', 'Age'], index = ['a', 'b', 'c', 'd', 'e'])

Itu sangat bagus, bukan? Dengan menggunakan DataFrame, kita dapat melihat data kita tertata dalam sebuah bentuk tabular.

Series

Series adalah struktur data pandas kedua yang akan saya bicarakan. Series adalah object satu dimensi (1D) yang serupa dengan kolom di dalam tabel. Jika kita ingin membuat sebuah Series untuk daftar nama, kita dapat melakukan di bawah ini:

series = pd.Series(['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'],
index = [1, 2, 3, 4, 5])
print series

Output script ini akan berupa sebagai berikut:

Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python

Perhatikan bahwa kita menggunakan index untuk melabeli data. Jika tidak, label default akan mulai dari 0,1,2...

Function Pandas

Dalam section ini, saya akan menunjukkan contoh beberapa function yang dapat kita gunakan dengan DataFrame dan Series.

Head dan Tail

Function head() dan tail() mengijinkan kita untuk melihat sebuah sampel data, khususnya ketika kita memiliki jumlah entri yang besar. Jumlah default dari elemen yang ditampilkan adalah 5, namun kamu dapat mengkustomasi angkanya sesukamu.

Mari katakan kita memiliki sebuah Series yang disusun dari 20,000 item (angka) secara acak:

import pandas as pd
import numpy as np
series = pd.Series(np.random.randn(20000))

Dengan menggunakan method head() dan tail() untuk mengamati lima item pertama dan lima item terakhir, kita dapat melakukan di bawah ini:

print series.head()
print series.tail()

Output script ini harusnya serupa dengan di bawah (perhatikan bahwa kamu mungkin memiliki nilai yang berbeda karena kita membentuk nilai acak):

Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python

Add

Mari ambil contoh function add(), dimana kita akan berusaha untuk menambahkan dua data frames sebagai berikut:

import pandas as pd

dictionary_1 = {'A' : [5, 8, 10, 3, 9],
'B' : [6, 1, 4, 8, 7]}
dictionary_2 = {'A' : [4, 3, 7, 6, 1],
'B' : [9, 10, 10, 1, 2]}
data_frame_1 = pd.DataFrame(dictionary_1)
data_frame_2 = pd.DataFrame(dictionary_2)
data_frame_3 = data_frame_1.add(data_frame_2)
print data_frame_1
print data_frame_2
print data_frame_3

Output dari script di atas adalah:

Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python

Kamu dapat juga melakukan proses penambahan ini dengan cukup menggunakan operator +: data_frame_3 = data_frame_1 + data_frame_2.

Describe

Sebuah function pandas yang sangat bagus adalah describe(), yang membuat berbagai ringkasan statistik data kita. Sebagai contoh dalam section terakhir, mari lakukan berikut ini:

print data_frame_3.describe()

Output dari operasi ini akan berupa:

Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python
Cara menggunakan DESCRIBE. pada Python

Sumber Lebih Lanjut

Ini hanyalah sebuah goresan pada permukaan pandas dalam Python. Untuk lebih detail, kamu dapat memeriksa dokumentasi pandas, dan kamu juga dapat memeriksa beberapa buku seperti Mempelajari Pandas dan Menguasai Pandas.

Kesimpulan

Ilmuwan terkadang perlu melakukan beberapa operasi statistik dan menampilkan beberapa grafik rapi yang menuntut mereka untuk menggunakan sebuah bahasa pemrograman. Namun, pada saat yang sama, mereka tidak ingin menghabiskan terlalu banyak waktu atau dihadapkan dengan kurva pembelajaran yang serius dalam melakukan tugas semacam itu.

Seperti yang kita lihat dalam tutorial ini, pandas mengijinkan kita untuk menyajikan ulang data dalam bentuk tabular dan melakukan beberapa operasi pada tabel tersebut dalam cara yang sangat sederhana. Dengan mengkombinasikan pandas dengan librari Python lainnya, ilmuwan bahkan dapat melakukan lebih banyak tugas lanjutan seperti menggambar grafik khusus untuk data mereka.

Dengan demikian, pandas merupakan sebuah librari dan titik awal yang berguna untuk ilmuwan, ahli ekonomi, ahli statistik, dan siapapun yang ingin melakukan beberapa tugas analisis data.

Apa itu ILOC pada Python?

Iloc merupakan kependekan dari index location. Sama seperti loc, digunakan untuk menyeleksi data pada lokasi tertentu saja.

Apa kegunaan Panda's?

Salah satu tools yang mungkin paling sering digunakan oleh data scientist adalah Pandas. Dalam bahasa pemrograman Python, Pandas adalah alat yang sangat berguna sebagai library yang mengatur tata letak data sehingga mudah dicari secara intuitif.

Apa itu DataFrame pada Pandas?

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Astype untuk apa?

astype() digunakan untuk mengubah tipe data dari sebuah kolom di dataframe. Misalnya disini kita mengubah tipe data kolom 'Jumlah Mahasiswa' dari yang tadinya 'float' menjadi 'int'.