Mempertajam keterampilan pemrograman Python Anda selalu berguna bagi Anda yang bekerja di Analisis Data & Ilmu Data, dan pembelajaran berkelanjutan diperlukan dalam ruang yang terus berkembang yang didominasi oleh kasus penggunaan yang terus berkembang dan bahasa pemrograman sumber terbuka dan lancar
Untuk itu, bagi Anda yang lebih menyukai pengkodean aktual daripada duduk selama bermenit-menit pelajaran video harus menemukan proyek pembangunan yang menantang dan menghibur, dan cara terbaik untuk terjebak dan mempelajari konsep baru di jalan.
Pada artikel ini, saya akan memberikan ikhtisar tentang apa yang diharapkan jika Anda memutuskan untuk membangun proyek yang terkandung dalam bagian kurikulum "Analisis Data dengan Python", yang baru saja saya selesaikan. Sertifikasi sepenuhnya berbasis proyek, dan kuliahnya sepenuhnya opsional
Artikel ini hanya akan fokus pada proyek akhir, yang saya putuskan untuk menguji diri saya sendiri setelah jam kerja
Sertifikat Penulis
Penafian. perkiraan durasi kursus adalah 400 jam (kuliah + proyek);
Jika Anda baru memulai, saya merekomendasikan untuk mengikuti kuliah FreeCodeCamp dan memasukkan perkiraan waktu, karena dalam jangka panjang ini akan menguntungkan Anda lebih dari sekadar mendapatkan sertifikat
Sumber daya yang direkomendasikan adalah
- FreeCodeCamp- Analisis Data dengan Kursus Python
Fokus dari tantangan (sejujurnya, mereka lebih mandiri daripada proyek yang sepenuhnya matang, dan dengan demikian nama "tantangan" terasa lebih tepat di sini) lebih pada membangun fungsionalitas mandiri (i. e. Fungsi Python yang menganalisis data dan mengembalikan keluaran numerik atau visual) daripada membangun alur kerja yang masif. Dalam hal ini, penyiapannya tidak terlalu berbeda dengan tantangan pengkodean klasik, meskipun ini mungkin sedikit lebih lama
Setiap tantangan diuji terhadap berbagai pengujian unit yang menantang kode Anda dalam kondisi yang berbeda
Ini tidak jauh berbeda dari pekerjaan yang akan dilakukan oleh seorang analis data Python sekali pada sebuah proyek, di mana Anda akan berpotensi ditugaskan untuk menjelajahi data dan menjawab beberapa pertanyaan yang terkait dengan masalah bisnis yang sedang dihadapi.
Paket yang akan Anda gunakan sebagian besar adalah numpy dan/atau panda untuk manipulasi data dan matplotlib dan/atau seaborn untuk visualisasi data
1. Kalkulator Mean-Variance-Standar Deviasi
Ikon matriks dirancang oleh Vitaly Gorbachev
Sasaran. “Buat fungsi bernama calculate() yang menggunakan Numpy untuk menampilkan rata-rata, varians, standar deviasi, maks, min, dan jumlah baris, kolom, dan elemen dalam matriks 3 x 3. ”
Pertimbangan. ini terasa seperti tantangan termudah dalam hal waktu, tetapi ini sangat penting karena menyentuh beberapa blok penyusun utama dan konsep paket numpy, yang sangat penting untuk banyak perhitungan kompleks di bidang ilmu data, di mana Anda akan
Mendekati. temukan dan manfaatkan fungsi bawaan numpy
Konsep kunci. pembentukan ulang data, penargetan sumbu, array numpy
2. Penganalisis Data Demografi
Sumber. Pengarang
Sasaran. “Gunakan Panda untuk menjawab berbagai pertanyaan tentang kumpulan data berbasis Sensus”
Pertimbangan. Ini adalah tantangan analisis data klasik di mana Anda diberi kumpulan data dan perlu menjawab berbagai pertanyaan saat Anda menjelajahinya. Untuk melakukannya, Anda akan memanfaatkan metode manipulasi data Panda, dan mempelajari yang baru di sepanjang jalan
Mendekati. Ubah pertanyaan umum menjadi metode Panda;
Konsep kunci. Penghitungan dan distribusi frekuensi kategorikal, pengelompokan dan pembentukan ulang data, pemfilteran dan penyortiran, penghitungan KPI
3. Visualizer Data Medis
Sumber. Pengarang
Sasaran. “Visualisasikan dan buat kalkulasi dari data pemeriksaan medis menggunakan matplotlib, seaborn, dan panda”
Pertimbangan. Ini adalah tantangan visualisasi data klasik di mana Anda diberi kumpulan data medis dan perlu memplot plot tipe matriks kategoris dan korelasi, sambil memanfaatkan beberapa paket populer seperti seaborn, tetapi juga metode yang kurang dikenal seperti "menutupi" matriks korelasi . Saya sendiri belum pernah mengetahui konsep ini dan menghabiskan cukup banyak waktu untuk meneliti tip berguna tentang Stack Overflow. Pasti rapi
Mendekati. Ubah pertanyaan umum menjadi metode Panda;
Konsep kunci. Membentuk ulang dan mengelompokkan data, penghapusan outlier, plot seaborn, topeng numpy
4. Visualizer Deret Waktu Tampilan Halaman
Sumber. Pengarang
Sasaran. “memvisualisasikan data deret waktu menggunakan bagan garis, bagan batang, dan plot kotak”
Pertimbangan. Mirip dengan proyek 3, dengan peringatan tambahan karena harus memproses data deret waktu untuk merender tren dan distribusi dari waktu ke waktu
Mendekati. Ubah pertanyaan umum menjadi metode Panda;
Konsep kunci. Pivoting dan pengelompokan data, penghapusan outlier, plot seaborn, representasi deret waktu
5. Prediktor Permukaan Laut
Sumber. Pengarang
Sasaran. “Analisis kumpulan data perubahan permukaan laut rata-rata global sejak 1880. Gunakan data tersebut untuk memprediksi perubahan permukaan laut hingga tahun 2050 dengan dua model regresi yang berbeda”
Pertimbangan. Dalam proyek ini komponen tambahan dari model regresi sederhana diperkenalkan saat bekerja dengan data deret waktu; . Proyek ini adalah pengantar yang sederhana namun bermanfaat untuk model statistik, yang menutup rangkaiannya
Mendekati. Sesuaikan model regresi dengan dua data, dan plot nilai prediksi selama deret waktu saat ini
Konsep kunci. Model regresi, scatterplot, pemformatan grafik
Ringkasan dan langkah selanjutnyaSecara keseluruhan, proyek mewakili cara yang bagus untuk membangun keakraban dengan banyak tugas dan paket analisis data umum, dan berfungsi sebagai pengantar yang sangat baik ke lapangan.
Setelah selesai, Anda akan menerima sertifikat yang akan memungkinkan Anda membangun kepercayaan pada keterampilan Anda sebelum melanjutkan ke pembelajaran lebih lanjut dan pembangunan proyek