Pengatur Data Amazon SageMaker mengurangi waktu untuk mengumpulkan dan menyiapkan data untuk pembelajaran mesin (ML) dari minggu ke menit. Dengan Data Wrangler, Anda dapat memilih dan membuat kueri data hanya dengan beberapa klik, mengubah data dengan cepat dengan lebih dari 300 transformasi data bawaan, dan memahami data Anda dengan visualisasi bawaan tanpa menulis kode apa pun. Selain itu, Anda dapat membuat transformasi khusus unik untuk kebutuhan Anda. Transformasi kustom memungkinkan Anda untuk menulis transformasi kustom menggunakan PySpark, Pandas, atau SQL. Data Wrangler sekarang mendukung custom Fungsi yang ditentukan pengguna Panda (UDF) transformasi yang dapat memproses kumpulan data besar secara efisien. Anda dapat memilih dari dua mode kustom Pandas UDF: Pandas dan Python. Kedua mode memberikan solusi yang efisien untuk memproses kumpulan data, dan mode yang Anda pilih bergantung pada preferensi Anda. Dalam posting ini, kami mendemonstrasikan cara menggunakan transformasi UDF Pandas baru di salah satu mode. Ikhtisar solusiPada saat penulisan ini, Anda dapat mengimpor kumpulan data ke dalam Data Wrangler dari Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, Databricks, dan Kepingan Salju. Untuk posting ini, kami menggunakan Amazon S3 untuk menyimpan 2014 Amazon meninjau kumpulan data. Data memiliki kolom yang disebut Buat transformasi UDF Pandas khususMari kita telusuri proses pembuatan dua transformasi UDF Pandas kustom Data Wrangler menggunakan mode Pandas dan Python.
Pratinjau data harus ditampilkan dalam tabel.
Sekarang kami membuat transformasi khusus kami untuk menghapus kata-kata berhenti.
Contoh berikut menggunakan mode Pandas. Ini berarti fungsi harus menerima dan mengembalikan seri Panda dengan panjang yang sama. Anda dapat menganggap seri Panda sebagai kolom dalam tabel atau potongan kolom. Ini adalah mode UDF Pandas yang paling berkinerja karena Pandas dapat membuat vektor operasi di seluruh kumpulan
nilai yang bertentangan dengan satu per satu. Itu
Jika Anda lebih suka menggunakan Python murni sebagai lawan dari Pandas API, mode Python memungkinkan Anda untuk menentukan fungsi Python murni yang menerima argumen tunggal dan mengembalikan nilai tunggal. Contoh berikut ini setara dengan kode Pandas sebelumnya dalam hal output. Petunjuk ketik tidak diperlukan dalam mode Python.
KesimpulanData Wrangler memiliki lebih dari 300 transformasi bawaan, dan Anda juga dapat menambahkan transformasi khusus yang unik untuk kebutuhan Anda. Dalam posting ini, kami mendemonstrasikan cara memproses kumpulan data dengan transformasi UDF Pandas kustom baru dari Data Wrangler, menggunakan mode Pandas dan Python. Anda dapat menggunakan salah satu mode berdasarkan preferensi Anda. Untuk mempelajari lebih lanjut tentang Data Wrangler, lihat Buat dan Gunakan Aliran Data Wrangler. Tentang PenulisBen Harris adalah seorang insinyur perangkat lunak dengan pengalaman merancang, menerapkan, dan memelihara saluran data yang dapat diskalakan dan solusi pembelajaran mesin di berbagai domain. Ben telah membangun sistem untuk pengumpulan dan pelabelan data, klasifikasi gambar dan teks, pemodelan urutan-ke-urutan, penyematan, dan pengelompokan, antara lain. Haider Naqvi adalah Arsitek Solusi di AWS. Dia memiliki pengalaman luas dalam Pengembangan Perangkat Lunak dan Arsitektur Perusahaan. Dia berfokus untuk memungkinkan pelanggan mencapai hasil bisnis dengan AWS. Dia berbasis di New York. Vishal Srivastava adalah Manajer Akun Teknis di AWS. Dengan latar belakang Pengembangan Perangkat Lunak dan Analisis, ia terutama bekerja dengan sektor jasa keuangan dan pelanggan bisnis digital native dan mendukung perjalanan cloud mereka. Di waktu senggangnya, dia suka jalan-jalan bersama keluarganya.
|