Cara yang sepenuhnya otomatis, bebas kesalahan, untuk mengikis data menggunakan Google Sheets tampaknya terlalu bagus untuk menjadi kenyataan?
Andrea Atzori
- 20 Desember 2021
- ⋅
- 9 menit membaca
Andrea Atzori
Bio
Mengikuti
844
SAHAM
135K
BACA
Kita semua pernah berada dalam situasi di mana kita harus mengekstrak data dari situs web di beberapa titik
Saat mengerjakan akun atau kampanye baru, Anda mungkin tidak memiliki data atau informasi yang tersedia untuk pembuatan iklan, misalnya
Idealnya, kita akan diberikan semua konten, halaman arahan, dan informasi relevan yang kita butuhkan, dalam format yang mudah diimpor seperti CSV, spreadsheet Excel, atau Google Sheet. (Atau paling tidak, memberikan apa yang kita butuhkan sebagai data tab yang dapat diimpor ke salah satu format yang disebutkan di atas. )
Tapi itu tidak selalu seperti itu
Mereka yang tidak memiliki alat untuk mengorek web – atau pengetahuan pengkodean untuk menggunakan sesuatu seperti Python untuk membantu tugas tersebut – mungkin harus menggunakan pekerjaan yang membosankan untuk menyalin dan menempel secara manual mungkin ratusan atau ribuan entri
Dalam pekerjaan baru-baru ini, tim saya diminta untuk melakukannya
- Buka situs web klien
- Unduh lebih dari 150 produk baru yang tersebar di 15 halaman berbeda
- Salin dan tempel nama produk dan URL laman landas untuk setiap produk ke dalam spreadsheet
Sekarang, Anda dapat membayangkan berapa lama tugas tersebut jika kita melakukan hal itu dan menjalankan tugas secara manual
Tidak hanya memakan waktu, tetapi dengan seseorang secara manual melewati banyak item dan halaman dan secara fisik harus menyalin dan menempelkan data produk demi produk, kemungkinan membuat satu atau dua kesalahan cukup tinggi.
Maka akan membutuhkan lebih banyak waktu untuk meninjau dokumen dan memastikannya bebas dari kesalahan
Harus ada cara yang lebih baik
Kabar baik. Ada. Mari saya tunjukkan bagaimana kami melakukannya
Apa itu IMPORTXML?
Masukkan Google Spreadsheet. Saya ingin Anda memenuhi fungsi IMPORTXML
Menurut halaman dukungan Google, IMPORTXML “mengimpor data dari salah satu dari berbagai jenis data terstruktur termasuk XML, HTML, CSV, TSV, dan umpan XML RSS dan ATOM. ”
Pada dasarnya, IMPORTXML adalah fungsi yang memungkinkan Anda mengikis data terstruktur dari halaman web — tidak diperlukan pengetahuan pengkodean
Misalnya, cepat dan mudah mengekstrak data seperti judul halaman, deskripsi, atau tautan, tetapi juga informasi yang lebih kompleks
Bagaimana IMPORTXML Dapat Membantu Mengikis Elemen Halaman Web?
Fungsinya sendiri cukup sederhana dan hanya membutuhkan dua nilai
- URL laman web yang ingin kami ekstrak atau ambil informasinya
- Dan XPath dari elemen yang berisi data
XPath adalah singkatan dari XML Path Language dan dapat digunakan untuk menavigasi elemen dan atribut dalam dokumen XML
Misalnya, untuk mengekstrak judul halaman dari https. //en. wikipedia. org/wiki/Moon_landing, kami akan menggunakan
=IMPORTXML(“https. //en. wikipedia. org/wiki/Moon_landing”, “//judul”)
Ini akan mengembalikan nilainya. Pendaratan di bulan – Wikipedia
Atau, jika kita mencari deskripsi halaman, coba ini
=IMPORTXML(“https. // www. searchenginejournal. com/”,”//meta[@name=’description’]/@content”)
Berikut adalah daftar singkat dari beberapa kueri XPath yang paling umum dan berguna
- Judul halaman. //judul
- Deskripsi meta halaman. //meta[@name='description']/@content
- Halaman H1. //h1
- Tautan halaman. //@href
Lihat IMPORTXML Beraksi
Sejak menemukan IMPORTXML di Google Sheets, ini benar-benar menjadi salah satu senjata rahasia kami dalam otomatisasi banyak tugas harian kami, mulai dari kampanye dan pembuatan iklan hingga penelitian konten, dan banyak lagi
Selain itu, fungsi yang digabungkan dengan formula dan add-on lain dapat digunakan untuk tugas yang lebih lanjut yang membutuhkan solusi dan pengembangan canggih, seperti alat yang dibuat dengan Python
Namun dalam contoh ini, kita akan melihat IMPORTXML dalam bentuknya yang paling dasar. mengorek data dari halaman web
Mari kita lihat contoh praktisnya
Bayangkan kita diminta membuat kampanye untuk Search Engine Journal
Mereka ingin kami mengiklankan 30 artikel terakhir yang telah diterbitkan di bagian PPC situs web
Tugas yang cukup sederhana, bisa dibilang
Sayangnya, editor tidak dapat mengirimkan data kepada kami dan dengan hormat meminta kami untuk merujuk ke situs web untuk mendapatkan informasi yang diperlukan untuk menyiapkan kampanye
Seperti disebutkan di awal artikel kami, salah satu cara untuk melakukannya adalah dengan membuka dua jendela browser — satu dengan situs web, dan yang lainnya dengan Google Sheets atau Excel. Kami kemudian akan mulai menyalin dan menempelkan informasi, artikel demi artikel, dan tautan demi tautan
Namun dengan menggunakan IMPORTXML di Google Sheets, kami dapat mencapai hasil yang sama dengan sedikit atau tanpa risiko membuat kesalahan, dalam waktu singkat.
Begini caranya
Langkah 1. Mulailah Dengan Google Sheet Baru
Pertama, kami membuka dokumen Google Sheets baru yang kosong
Langkah 2. Tambahkan Konten yang Anda Butuhkan untuk Mengikis
Tambahkan URL halaman (atau beberapa halaman) yang ingin kami ambil informasinya
Dalam kasus kami, kami mulai dengan https. // www. searchenginejournal. com/kategori/bayar-per-klik/
Langkah 3. Temukan XPath
Kami menemukan XPath dari elemen yang ingin kami impor kontennya ke dalam spreadsheet data kami
Dalam contoh kita, mari kita mulai dengan judul dari 30 artikel terbaru
Buka Chrome. Setelah mengarahkan kursor ke judul salah satu artikel, klik kanan dan pilih Periksa
Ini akan membuka jendela Alat Dev Chrome
Pastikan judul artikel tetap dipilih dan disorot, lalu klik kanan lagi dan pilih Salin > Salin XPath
Langkah 4. Ekstrak Data Ke Google Sheets
Kembali ke dokumen Google Sheets Anda, perkenalkan fungsi IMPORTXML sebagai berikut
=IMPORTXML(B1,”//*[dimulai dengan(@id, ‘judul’)]”)
Beberapa hal yang perlu diperhatikan
Pertama, dalam rumus kami, kami telah mengganti URL halaman dengan referensi ke sel tempat URL disimpan (B1)
Kedua, saat menyalin XPath dari Chrome, ini akan selalu diapit dengan tanda kutip ganda
(//*[@id=”judul_1″])
Namun, untuk memastikan tidak merusak rumus, tanda kutip ganda perlu diubah menjadi tanda kutip tunggal.
(//*[@id='judul_1'])
Perhatikan bahwa dalam contoh ini, karena judul ID halaman berubah untuk setiap artikel (title_1, title_2, dll), kita harus sedikit mengubah kueri dan menggunakan "dimulai dengan" untuk menangkap semua elemen di halaman dengan ID yang berisi . ’
Inilah yang terlihat di dokumen Google Sheets
Dan hanya dalam beberapa saat, seperti inilah hasilnya setelah kueri memuat data ke dalam spreadsheet
Seperti yang Anda lihat, daftar menampilkan semua artikel yang ditampilkan di halaman yang baru saja kami rangkum (termasuk artikel saya sebelumnya tentang otomatisasi dan cara menggunakan Penyesuai Iklan untuk Meningkatkan kinerja kampanye Google Ads)
Anda dapat menerapkan ini untuk mengumpulkan informasi lain yang diperlukan untuk menyiapkan kampanye iklan Anda
Mari tambahkan URL halaman arahan, cuplikan pilihan dari setiap artikel, dan nama penulis ke dalam dokumen Spreadsheet kita
Untuk URL laman landas, kami perlu men-tweak kueri untuk menentukan bahwa kami mencari elemen HREF yang dilampirkan pada judul artikel
Oleh karena itu, kueri kami akan terlihat seperti ini
=IMPORTXML(B1,”//*[dimulai dengan(@id, ‘judul’)]/@href”)
Sekarang, tambahkan '/@href' ke akhir Xpath
Voila. Langsung saja, kami memiliki URL halaman arahan
Anda dapat melakukan hal yang sama untuk cuplikan unggulan dan nama penulis
Penyelesaian masalah
Satu hal yang harus diwaspadai adalah agar dapat sepenuhnya memperluas dan mengisi spreadsheet dengan semua data yang dikembalikan oleh kueri, kolom tempat data diisi harus memiliki sel yang cukup bebas dan tidak ada data lain yang menghalangi.
Ini bekerja dengan cara yang mirip ketika kita menggunakan ARRAYFORMULA, agar rumus dapat diperluas tidak boleh ada data lain di kolom yang sama
Kesimpulan
Dan di sana Anda memiliki cara yang sepenuhnya otomatis, bebas kesalahan, untuk mengikis data dari (kemungkinan besar) halaman web mana pun, apakah Anda memerlukan konten dan deskripsi produk, atau data e-niaga seperti harga produk atau biaya pengiriman
Di masa ketika informasi dan data dapat menjadi keuntungan yang dibutuhkan untuk memberikan hasil yang lebih baik daripada rata-rata, kemampuan untuk mengikis halaman web dan konten terstruktur dengan cara yang mudah dan cepat dapat menjadi sesuatu yang tak ternilai harganya. Selain itu, seperti yang telah kita lihat di atas, IMPORTXML dapat membantu mempersingkat waktu eksekusi dan mengurangi kemungkinan membuat kesalahan
Selain itu, fungsinya bukan hanya alat hebat yang dapat digunakan secara eksklusif untuk tugas-tugas PPC, tetapi juga dapat sangat berguna di banyak proyek berbeda yang memerlukan pengikisan web, termasuk SEO dan tugas konten.