Bagaimana cara mengekstrak data tertentu dari google sheets?

Cara yang sepenuhnya otomatis, bebas kesalahan, untuk mengikis data menggunakan Google Sheets tampaknya terlalu bagus untuk menjadi kenyataan?

Bagaimana cara mengekstrak data tertentu dari google sheets?
Bagaimana cara mengekstrak data tertentu dari google sheets?

Andrea Atzori

  • 20 Desember 2021
  • 9 menit membaca

Bagaimana cara mengekstrak data tertentu dari google sheets?
Bagaimana cara mengekstrak data tertentu dari google sheets?

Andrea Atzori

Bio

Mengikuti

  • 844

    SAHAM

  • 135K

    BACA

Bagaimana cara mengekstrak data tertentu dari google sheets?

Kita semua pernah berada dalam situasi di mana kita harus mengekstrak data dari situs web di beberapa titik

Saat mengerjakan akun atau kampanye baru, Anda mungkin tidak memiliki data atau informasi yang tersedia untuk pembuatan iklan, misalnya

Idealnya, kita akan diberikan semua konten, halaman arahan, dan informasi relevan yang kita butuhkan, dalam format yang mudah diimpor seperti CSV, spreadsheet Excel, atau Google Sheet. (Atau paling tidak, memberikan apa yang kita butuhkan sebagai data tab yang dapat diimpor ke salah satu format yang disebutkan di atas. )

Tapi itu tidak selalu seperti itu

Mereka yang tidak memiliki alat untuk mengorek web – atau pengetahuan pengkodean untuk menggunakan sesuatu seperti Python untuk membantu tugas tersebut – mungkin harus menggunakan pekerjaan yang membosankan untuk menyalin dan menempel secara manual mungkin ratusan atau ribuan entri

Dalam pekerjaan baru-baru ini, tim saya diminta untuk melakukannya

  • Buka situs web klien
  • Unduh lebih dari 150 produk baru yang tersebar di 15 halaman berbeda
  • Salin dan tempel nama produk dan URL laman landas untuk setiap produk ke dalam spreadsheet

Sekarang, Anda dapat membayangkan berapa lama tugas tersebut jika kita melakukan hal itu dan menjalankan tugas secara manual

Tidak hanya memakan waktu, tetapi dengan seseorang secara manual melewati banyak item dan halaman dan secara fisik harus menyalin dan menempelkan data produk demi produk, kemungkinan membuat satu atau dua kesalahan cukup tinggi.

Maka akan membutuhkan lebih banyak waktu untuk meninjau dokumen dan memastikannya bebas dari kesalahan

Harus ada cara yang lebih baik

Kabar baik. Ada. Mari saya tunjukkan bagaimana kami melakukannya

Apa itu IMPORTXML?

Masukkan Google Spreadsheet. Saya ingin Anda memenuhi fungsi IMPORTXML

Menurut halaman dukungan Google, IMPORTXML “mengimpor data dari salah satu dari berbagai jenis data terstruktur termasuk XML, HTML, CSV, TSV, dan umpan XML RSS dan ATOM. ”

Pada dasarnya, IMPORTXML adalah fungsi yang memungkinkan Anda mengikis data terstruktur dari halaman web — tidak diperlukan pengetahuan pengkodean

Misalnya, cepat dan mudah mengekstrak data seperti judul halaman, deskripsi, atau tautan, tetapi juga informasi yang lebih kompleks

Bagaimana IMPORTXML Dapat Membantu Mengikis Elemen Halaman Web?

Fungsinya sendiri cukup sederhana dan hanya membutuhkan dua nilai

  • URL laman web yang ingin kami ekstrak atau ambil informasinya
  • Dan XPath dari elemen yang berisi data

XPath adalah singkatan dari XML Path Language dan dapat digunakan untuk menavigasi elemen dan atribut dalam dokumen XML

Misalnya, untuk mengekstrak judul halaman dari https. //en. wikipedia. org/wiki/Moon_landing, kami akan menggunakan

=IMPORTXML(“https. //en. wikipedia. org/wiki/Moon_landing”, “//judul”)

Ini akan mengembalikan nilainya. Pendaratan di bulan – Wikipedia

Atau, jika kita mencari deskripsi halaman, coba ini

=IMPORTXML(“https. // www. searchenginejournal. com/”,”//meta[@name=’description’]/@content”)

Bagaimana cara mengekstrak data tertentu dari google sheets?

Bagaimana cara mengekstrak data tertentu dari google sheets?

Berikut adalah daftar singkat dari beberapa kueri XPath yang paling umum dan berguna

  • Judul halaman. //judul
  • Deskripsi meta halaman. //meta[@name='description']/@content
  • Halaman H1. //h1
  • Tautan halaman. //@href

Lihat IMPORTXML Beraksi

Sejak menemukan IMPORTXML di Google Sheets, ini benar-benar menjadi salah satu senjata rahasia kami dalam otomatisasi banyak tugas harian kami, mulai dari kampanye dan pembuatan iklan hingga penelitian konten, dan banyak lagi

Selain itu, fungsi yang digabungkan dengan formula dan add-on lain dapat digunakan untuk tugas yang lebih lanjut yang membutuhkan solusi dan pengembangan canggih, seperti alat yang dibuat dengan Python

Namun dalam contoh ini, kita akan melihat IMPORTXML dalam bentuknya yang paling dasar. mengorek data dari halaman web

Mari kita lihat contoh praktisnya

Bayangkan kita diminta membuat kampanye untuk Search Engine Journal

Mereka ingin kami mengiklankan 30 artikel terakhir yang telah diterbitkan di bagian PPC situs web

Tugas yang cukup sederhana, bisa dibilang

Sayangnya, editor tidak dapat mengirimkan data kepada kami dan dengan hormat meminta kami untuk merujuk ke situs web untuk mendapatkan informasi yang diperlukan untuk menyiapkan kampanye

Seperti disebutkan di awal artikel kami, salah satu cara untuk melakukannya adalah dengan membuka dua jendela browser — satu dengan situs web, dan yang lainnya dengan Google Sheets atau Excel. Kami kemudian akan mulai menyalin dan menempelkan informasi, artikel demi artikel, dan tautan demi tautan

Namun dengan menggunakan IMPORTXML di Google Sheets, kami dapat mencapai hasil yang sama dengan sedikit atau tanpa risiko membuat kesalahan, dalam waktu singkat.

Begini caranya

Langkah 1. Mulailah Dengan Google Sheet Baru

Pertama, kami membuka dokumen Google Sheets baru yang kosong

Bagaimana cara mengekstrak data tertentu dari google sheets?

Bagaimana cara mengekstrak data tertentu dari google sheets?

Langkah 2. Tambahkan Konten yang Anda Butuhkan untuk Mengikis

Tambahkan URL halaman (atau beberapa halaman) yang ingin kami ambil informasinya

Dalam kasus kami, kami mulai dengan https. // www. searchenginejournal. com/kategori/bayar-per-klik/

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar diambil dari Google Spreadsheet, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Langkah 3. Temukan XPath

Kami menemukan XPath dari elemen yang ingin kami impor kontennya ke dalam spreadsheet data kami

Dalam contoh kita, mari kita mulai dengan judul dari 30 artikel terbaru

Buka Chrome. Setelah mengarahkan kursor ke judul salah satu artikel, klik kanan dan pilih Periksa

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar dari SearchEngineJournal. com, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Ini akan membuka jendela Alat Dev Chrome

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar dari SearchEngineJournal. com, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Pastikan judul artikel tetap dipilih dan disorot, lalu klik kanan lagi dan pilih Salin > Salin XPath

Langkah 4. Ekstrak Data Ke Google Sheets

Kembali ke dokumen Google Sheets Anda, perkenalkan fungsi IMPORTXML sebagai berikut

=IMPORTXML(B1,”//*[dimulai dengan(@id, ‘judul’)]”)

Beberapa hal yang perlu diperhatikan

Pertama, dalam rumus kami, kami telah mengganti URL halaman dengan referensi ke sel tempat URL disimpan (B1)

Kedua, saat menyalin XPath dari Chrome, ini akan selalu diapit dengan tanda kutip ganda

(//*[@id=”judul_1″])

Namun, untuk memastikan tidak merusak rumus, tanda kutip ganda perlu diubah menjadi tanda kutip tunggal.

(//*[@id='judul_1'])

Perhatikan bahwa dalam contoh ini, karena judul ID halaman berubah untuk setiap artikel (title_1, title_2, dll), kita harus sedikit mengubah kueri dan menggunakan "dimulai dengan" untuk menangkap semua elemen di halaman dengan ID yang berisi . ’

Inilah yang terlihat di dokumen Google Sheets

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar diambil dari Google Spreadsheet, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Dan hanya dalam beberapa saat, seperti inilah hasilnya setelah kueri memuat data ke dalam spreadsheet

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar diambil dari Google Spreadsheet, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Seperti yang Anda lihat, daftar menampilkan semua artikel yang ditampilkan di halaman yang baru saja kami rangkum (termasuk artikel saya sebelumnya tentang otomatisasi dan cara menggunakan Penyesuai Iklan untuk Meningkatkan kinerja kampanye Google Ads)

Anda dapat menerapkan ini untuk mengumpulkan informasi lain yang diperlukan untuk menyiapkan kampanye iklan Anda

Mari tambahkan URL halaman arahan, cuplikan pilihan dari setiap artikel, dan nama penulis ke dalam dokumen Spreadsheet kita

Untuk URL laman landas, kami perlu men-tweak kueri untuk menentukan bahwa kami mencari elemen HREF yang dilampirkan pada judul artikel

Oleh karena itu, kueri kami akan terlihat seperti ini

=IMPORTXML(B1,”//*[dimulai dengan(@id, ‘judul’)]/@href”)

Sekarang, tambahkan '/@href' ke akhir Xpath

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar diambil dari Google Spreadsheet, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Voila. Langsung saja, kami memiliki URL halaman arahan

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar diambil dari Google Spreadsheet, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Anda dapat melakukan hal yang sama untuk cuplikan unggulan dan nama penulis

Bagaimana cara mengekstrak data tertentu dari google sheets?
Tangkapan layar diambil dari Google Spreadsheet, Juli 2021
Bagaimana cara mengekstrak data tertentu dari google sheets?

Penyelesaian masalah

Satu hal yang harus diwaspadai adalah agar dapat sepenuhnya memperluas dan mengisi spreadsheet dengan semua data yang dikembalikan oleh kueri, kolom tempat data diisi harus memiliki sel yang cukup bebas dan tidak ada data lain yang menghalangi.

Ini bekerja dengan cara yang mirip ketika kita menggunakan ARRAYFORMULA, agar rumus dapat diperluas tidak boleh ada data lain di kolom yang sama

Kesimpulan

Dan di sana Anda memiliki cara yang sepenuhnya otomatis, bebas kesalahan, untuk mengikis data dari (kemungkinan besar) halaman web mana pun, apakah Anda memerlukan konten dan deskripsi produk, atau data e-niaga seperti harga produk atau biaya pengiriman

Di masa ketika informasi dan data dapat menjadi keuntungan yang dibutuhkan untuk memberikan hasil yang lebih baik daripada rata-rata, kemampuan untuk mengikis halaman web dan konten terstruktur dengan cara yang mudah dan cepat dapat menjadi sesuatu yang tak ternilai harganya. Selain itu, seperti yang telah kita lihat di atas, IMPORTXML dapat membantu mempersingkat waktu eksekusi dan mengurangi kemungkinan membuat kesalahan

Selain itu, fungsinya bukan hanya alat hebat yang dapat digunakan secara eksklusif untuk tugas-tugas PPC, tetapi juga dapat sangat berguna di banyak proyek berbeda yang memerlukan pengikisan web, termasuk SEO dan tugas konten.

Bagaimana cara mengekstrak bagian sel di Google Sheets?

Bagaimana Cara Mengekstrak Teks Tertentu Dari Sel di Google Sheets? . LEFT digunakan untuk mengembalikan sejumlah karakter tertentu dari awal sel paling kiri. use LEFT + SEARCH in Google Sheets to extract text from a string or to extract data that comes before a specific text. LEFT is used to return a specific number of characters from the leftmost cell's beginning.

Bagaimana cara mengekstrak data dari Google Sheets ke excel?

Google Spreadsheet memungkinkan Anda mengekspor spreadsheet sebagai file XLSX. Untuk ini, Anda perlu memilih Download di menu File dan memilih Microsoft Excel sebagai format ekspor . Spreadsheet dengan semua lembarnya akan diunduh ke perangkat Anda dalam bentuk buku kerja Excel.

Bagaimana Anda menarik data dari lembar lain berdasarkan kriteria di lembar?

Begini caranya. .
Di lembar asli tempat Anda ingin menarik data, tempatkan kursor di sel tempat Anda ingin memasukkan data
Ketik = (tanda sama dengan) ke dalam sel. Pilih lembar kedua dan kemudian sel yang berisi data yang ingin Anda masukkan ke lembar asli
Tekan Enter selesai