oleh Colin OKeefe23 Jan 2018, diterjemahkan langsung dari realpython.com Show Dasar-dasar Scraping Web Apa itu web scraping? Pertimbangkan skenario berikut ini: Bayangkan suatu hari, tiba-tiba, Anda mendapati diri berpikir “Wah, saya bertanya-tanya, siapa lima matematikawan terpopuler?” Anda sedikit berpikir, dan mendapatkan ide untuk menggunakan XTools Wikipedia untuk mengukur popularitas seorang matematikawan dengan menyamakan popularitas dengan tampilan halaman. Misalnya, lihatlah halaman Henri Poincaré . Di sana Anda dapat melihat bahwa tampilan halaman Poincaré selama 60 hari terakhir adalah, mulai Desember 2017, sekitar 32.000. Selanjutnya, Anda googling untuk “matematikawan terkenal” dan temukan sumber ini yang mencantumkan 100 nama. Sekarang Anda memiliki kedua halaman daftar nama matematikawan dan memiliki situs web yang memberikan informasi tentang bagaimana “populer” matematikawan itu. Sekarang apa? Di sinilah Python dan web scraping masuk. Web scraping adalah tentang mendownload data terstruktur dari web, memilih beberapa data itu, dan meneruskan semua yang Anda pilih ke proses lain. Dalam tutorial ini, Anda akan menulis program Python yang mendownload daftar 100 matematikawan dan halaman XTools mereka, memilih data tentang popularitas mereka, dan selesai dengan memberi tahu kami semua tentang top 10 matematikawan paling populer! Mari kita mulai. Menyiapkan Scraper Python WebAnda akan menggunakan lingkungan virtual Python 3 dan Python sepanjang tutorial. Jangan ragu untuk mengatur semuanya sesuka Anda, tapi inilah cara saya melakukannya: $ python3 -m venv venv Anda hanya perlu menginstal dua paket berikut:
Mari instal dependensi ini dengan $ pip install requests BeautifulSoup4 Akhirnya, jika Anda mengikuti, jalankan editor teks favorit Anda dan buatlah sebuah file bernama from requests import get Membuat Permintaan WebTugas pertama Anda adalah
mendownload halaman web. Paket Fungsi pertama anda: def simple_get(url): Fungsi Anda mungkin telah memperhatikan penggunaan Anda bisa menguji >>> from mathematicians import simple_get Wrangling HTML Dengan BeautifulSoupSetelah Anda memiliki HTML mentah di depan Anda, Anda dapat mulai memilih dan mengekstraknya. Untuk tujuan ini anda akan menggunakan Sebagai contoh, perhatikan dokumen HTML berikut ini: <!DOCTYPE html> Misalkan HTML di atas tersimpan dalam file >>> from bs4 import BeautifulSoup Melanggar contoh, Anda pertama-tama mengurai HTML mentah dengan mengirimkannya ke konstruktor
Menggunakan BeautifulSoup untuk Mendapatkan Nama MatematikaSekarang bahwa Anda telah memberikan Untuk membuat masalah menjadi konkret, beralihlah ke
daftar matematikawan yang Anda lihat sebelumnya. Menghabiskan satu atau dua menit untuk melihat sumber halaman ini, Anda dapat melihat bahwa setiap nama matematikawan muncul di dalam konten teks sebuah tag Berikut adalah tampilan singkat menggunakan Python: >>> raw_html = simple_get('http://www.fabpedigree.com/james/mathmen.htm') Percobaan di atas menunjukkan bahwa beberapa elemen def get_names(): Fungsi Mendapatkan Skor PopularitasBagus, kamu hampir selesai! Setelah Anda memiliki daftar nama, Anda harus memilih tampilan halaman untuk masing-masing daftar. Fungsi yang Anda tulis mirip dengan fungsi yang Anda buat untuk mendapatkan daftar nama, hanya sekarang Anda memberi nama dan memilih nilai integer dari halaman. Sekali lagi, pertama-tama Anda harus
memeriksa halaman contoh di alat pengembang peramban Anda. Sepertinya teks muncul di dalam def get_hits_on_name(name): Puting It All TogetherAnda telah mencapai titik di mana Anda akhirnya bisa menemukan matematikawan mana yang paling dicintai oleh publik! Rencananya sederhana saja:
Sederhana kan? Nah, ada satu hal yang belum disebutkan:errors. Bekerja dengan data dunia nyata yang berantakan, dan mencoba untuk memaksa data yang berantakan ke dalam bentuk yang seragam akan selalu menghasilkan kesalahan sesekali yang melompat untuk mengacaukan penglihatan bersih Anda yang bagus tentang bagaimana seharusnya hal itu terjadi. Idealnya, Anda ingin melacak kesalahan saat terjadi agar mendapatkan kualitas data Anda yang lebih baik. Untuk tujuan Anda saat ini, Anda akan melacak contoh saat Anda tidak dapat menemukan skor popularitas untuk nama matematikawan tertentu. Di akhir naskah, Anda akan mencetak pesan yang menunjukkan jumlah matematikawan yang tertinggal dari peringkat. Inilah kodenya: if __name__ == '__main__': Dan itu dia! Saat menjalankan skrip, Anda harus melihat laporan berikut ini: The most popular mathematicians are:Albert Einstein with 1089615 page views Kesimpulan & Langkah SelanjutnyaWeb scraping adalah bidang yang besar, dan Anda baru saja menyelesaikan tur singkat bidang itu dengan menggunakan Python saat Anda membimbing. Anda bisa mendapatkan cukup jauh menggunakan hanya
Source : https://realpython.com/blog/python/python-web-scraping-practical-introduction/ Apa itu scraping python?Salah satu fungsi library python adalah untuk membantu proses web scraping. Web scraping adalah proses mengumpulkan data terstruktur dari sebuah web secara otomatis. Proses ini juga disebut dengan proses ekstraksi data website.
Apa yang kalian ketahui tentang Web Scraping?Dilansir dari ParseHub, web scraping adalah suatu cara yang mengacu pada ekstraksi data dari suatu website. Jadi, saat kamu melakukan proses pengambilan data dari website dan menyimpannya dalam Microsoft Excel, Google Sheet, atau aplikasi sejenisnya, maka itulah yang disebut web scraping.
|