Cara menggunakan download url python

Kali ini gua akan menshare tentang cara bagaimana kita mendownload file secara otomatis dari website tertentu dan script itu bisa kita jalankan berdasarkan scheduler. Disini ada 2 tools yang gua gunakan :

1. Python

Untuk python gua akan menggunakan Spyder sebagai text editor, sebenernya bebas lo bisa menggunakan editor manapun. Ibaratnya di script python ini gua akan crawling ke website tertentu dan mendownload file sesuai link download yang di berikan

2. Window Task Scheduller

Ketika Script python nya sudah jadi dan berhasil, langkah berikutnya gua akan menjalankan script tersebut menggunakan task scheduller sehingga tanpa perlu gua execute baik itu mau tiap jam atau tiap hari gua gak perlu lagi melakukan nya secara manual

Kedua langkah langkah diatas bisa di lihat di video yang telah gua buat, langsung aja di check ya, selamat menikmati

Nah kalau lo bertanya bagaimana dengan script nya, lo bisa langsung aja coba menggunakan script di bawah ini

This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters

Show hidden characters

# -*- coding: utf-8 -*-"""Created on Sat Oct 24 16:04:03 2020@author: user"""# I will litlle bit explain about the code# You need to import the library firstfrom selenium import webdriverimport os# Use fake user agent in case you would like to use fake browserfrom fake_useragent import UserAgentua = UserAgent()header = {'User-Agent':str(ua.chrome)}# In here I will ignore the errorimport warningswarnings.filterwarnings("ignore")#cwd = os.getcwd()# This is some Setting that you need to be doneoptions = webdriver.ChromeOptions()options.add_argument("–start-maximized")#In here I would like change the download directory, or what ever directory you likeprefs = {"profile.default_content_settings.popups": 0,"download.default_directory": r"E:\SQL\CSV\test\\","directory_upgrade": True}options.add_experimental_option("prefs", prefs)#next you must download chromedriver exe and must pay attention what version that you have, i will show you

Analisis data umumnya menggunakan data dari sumber lain dengan beragam format, sehingga data tersebut perlu kita import terlebih dahulu agar dapat diproses.

Tools atau software yang paling umum digunakan untuk analisis data menggunakan Python adalah Jupyter Notebook. Disini saya akan membahas cara import dan export data dengan Python di Jupyter Notebook.

Import data

Import data adalah proses memuat dan membaca data ke notebook. Hal yang harus diperhatikan dalam import data adalah format data dan lokasi penyimpanan file dataset.

Format data yang dapat di-import ke notebook bervariasi seperti .csv, .xlsx, .json, dan sebagainya. Untuk lokasi penyimpanan, ada dua opsi yaitu dari komputer lokal atau dari internet yang berupa link.

Pada contoh kali ini, saya akan menggunakan dataset automobiles yang bisa didapatkan dari repositori UCI pada link berikut  https://archive.ics.uci.edu/ml/datasets/Automobile

Kita bisa mendownload terlebih dahulu dataset tersebut dan menyimpannya di komputer kita, ataupun bisa langsung menggunakan url-nya.

Berikut ini merupakan tampilan saat file dibuka di notepad.

Cara menggunakan download url python

Seperti yang dapat kita lihat, data tersebut dipisahkan oleh koma, jadi ini termasuk jenis file CSV (Comma Separated Values) sehingga kita dapat menggunakan method read_csv() untuk import data.

Baca juga: Pengenalan Library Python Untuk Data Science

Di Python, untuk mengimport data ke jupyter notebook cukup mudah yaitu hanya dengan tiga langkah.

  1. Import pandas
  2. Definisikan variabel untuk menyimpan path url atau file dataset
  3. Gunakan method read_csv untuk mengimport data
import pandas as pd

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(url)

Jika menggunakan file dari komputer lokal, kita harus menentukan lokasi file tersebut tersimpan.

import pandas as pd

path = "dataset/imports-85.data"
df = pd.read_csv(path)

Kita bisa melihat dataset tersebut dalam bentuk dataframe dengan method head() untk melihat data teratas.

df.head()

Atau tail() untuk melihat data terbawah.

df.tail()

Default dari method head() dan tail() di atas adalah menampilkan 5 baris data teratas ataupun terbawah. Namun, jika kita ingin menentukan jumlah yang spesifik bisa dilakukan dengan memberikan sebuah angka di dalam tanda kurung.

Misalnya :

df.head(10)

atau

df.tail(20)

Baca juga: Cara Mengecek Tipe dan Distribusi Data di Pandas Python

Method read_csv() mengasumsikan setiap data yang dibaca telah mengandung header, sehingga jika ternyata dataset tersebut belum mengandung header seperti dataset automobiles yang kita gunakan, maka otomatis baris pertama dataset tersebut akan dijadikan header seperti terlihat di bawah ini.

Cara menggunakan download url python

Cara menggunakan download url python

Untuk mencegah hal itu terjadi, kita bisa menambahkan parameter “header” yang diisi dengan “None” agar data di baris pertama tetap menjadi data yang akan diproses dan mengisi header dengan nilai default.

Cara menggunakan download url python

Tentunya untuk memudahkan proses analisis data, kita sebaiknya menamai header setiap kolom dengan nama yang merepresentasikan kolom tersebut.

Jika kita melihat kembali ke alamat url dataset tersebut disini, kita akan menemukan attribute information yang menjelaskan informasi di setiap kolom. Kita bisa mengubah nama kolom sesuai dengan attribute information tersebut.

Perhatikan gambar berikut.

Cara menggunakan download url python

Sekarang dataset yang dibutuhkan telah siap dianalisis.

Baca juga: Cara Menangani Missing Values di Project Data Science

Export data

Selanjutnya, ketika proses analisis telah selesai dilakukan, terkadang kita perlu menyimpan dataset yang mungkin sudah diubah sesuai kebutuhan menjadi file CSV yang baru agar dapat digunakan di kemudian hari. Ini yang dinamakan export data.

Cara untuk mengekspor data juga cukup mudah yaitu dengan menggunakan method to_csv(). Agar data yang akan disimpan tidak membuat kolom tambahan yang berupa index, maka kita harus memberikan nilai False untuk parameter index.

df.to_csv("automobile_data.csv", index=False)

Sekarang kita sudah memiliki file CSV baru bernama “automobile_data.csv” yang berlokasi di folder yang sama dengan file jupyter notebook yang kalian buat.

Method untuk format file yang lain

Pada artikel ini, saya hanya membahas import dan export data untuk data dengan format CSV. Untuk format data yang lainnya bisa menggunakan metode berikut.

Data FormatRead DataSave DataCSVread_csv()to_csv()JSONread_json()to_json()Excelread_excel()to_excel()SQLread_sql()to_sql()