Pada artikel ini, kami akan membahas fitur utama Python dan SQL, persamaan dan perbedaan utamanya, dan mana yang harus Anda pilih terlebih dahulu untuk memulai perjalanan ilmu data Anda Show Javier Canales Luna 12 menit Tren & Prediksi Data Tahun 2023Co-founder DataCamp, Jonathan Cornelissen, dan Martijn Theuwissen memecah tren data teratas yang mereka lihat di ruang data saat ini, serta prediksi mereka untuk masa depan industri data Data Teks Dalam Lembar Cheat PythonSelamat datang di lembar contekan kami untuk bekerja dengan data teks dengan Python. Kami telah menyusun daftar fungsi dan paket yang paling berguna untuk membersihkan, memproses, dan menganalisis data teks dengan Python, bersama dengan contoh dan penjelasan yang jelas, sehingga Anda akan memiliki semua yang perlu Anda ketahui tentang bekerja dengan data teks dalam Python. Mendukung ekstensi file xls, xlsx, xlsm, xlsb, odf, ods dan odt yang dibaca dari sistem file atau URL lokal. Mendukung opsi untuk membaca satu lembar atau daftar lembar Parametersio str, byte, ExcelFile, xlrd. Pesan, objek jalur, atau objek seperti fileSetiap jalur string yang valid dapat diterima. String bisa berupa URL. Skema URL yang valid termasuk http, ftp, s3, dan file. Untuk URL file, host diharapkan. File lokal bisa jadi. Jika Anda ingin meneruskan objek jalur, panda menerima Dengan objek seperti file, kami merujuk ke objek dengan metode >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 30sheet_name str, int, list, atau None, default 0 String digunakan untuk nama sheet. Bilangan bulat digunakan dalam posisi lembar terindeks nol (lembar bagan tidak dihitung sebagai posisi lembar). Daftar string/bilangan bulat digunakan untuk meminta beberapa lembar. Tentukan Tidak Ada untuk mendapatkan semua lembar kerja Kasus yang tersedia
Baris (0-diindeks) yang akan digunakan untuk label kolom dari DataFrame yang diurai. Jika daftar bilangan bulat dilewatkan, posisi baris tersebut akan digabungkan menjadi >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 35. Gunakan Tidak Ada jika tidak ada tajuk Daftar nama kolom yang akan digunakan. Jika file tidak berisi baris header, maka Anda harus secara eksplisit meneruskan header=None index_col int, daftar int, default Tidak adaKolom (0-diindeks) untuk digunakan sebagai label baris DataFrame. Lulus Tidak Ada jika tidak ada kolom seperti itu. Jika daftar dilewatkan, kolom tersebut akan digabungkan menjadi >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 35. Jika subset data dipilih dengan >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 37, index_col didasarkan pada subset Nilai yang hilang akan diisi ke depan untuk memungkinkan bolak-balik dengan >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 38 untuk >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 39. Untuk menghindari meneruskan pengisian nilai yang hilang, gunakan >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 30 setelah membaca data alih-alih >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 31usecols str, seperti daftar, atau dapat dipanggil, default Tidak ada
Mengembalikan subset kolom sesuai dengan perilaku di atas remas bool, default SalahJika data yang diurai hanya berisi satu kolom, maka kembalikan Seri Tidak digunakan lagi sejak versi 1. 4. 0. Tambahkan >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 33 ke panggilan ke >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 34 untuk memeras data. dtype Ketik nama atau dict kolom -> ketik, default Tidak ada Tipe data untuk data atau kolom. e. g. {'sebuah'. np. float64, 'b'. np. int32} Gunakan objek untuk menyimpan data seperti yang disimpan di Excel dan tidak menginterpretasikan dtype. Jika konverter ditentukan, mereka akan diterapkan BUKAN konversi dtype mesin str, bawaan Tidak adaJika io bukan buffer atau jalur, ini harus disetel untuk mengidentifikasi io. Mesin yang didukung. "xlrd", "openpyxl", "odf", "pyxlsb". Kompatibilitas mesin
Berubah pada versi 1. 2. 0. Mesin xlrd sekarang hanya mendukung file >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 35 gaya lama. Saat >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 3_6, logika berikut akan digunakan untuk menentukan mesin.
Dict fungsi untuk mengonversi nilai di kolom tertentu. Kunci dapat berupa bilangan bulat atau label kolom, nilai adalah fungsi yang mengambil satu argumen masukan, konten sel Excel, dan mengembalikan konten yang diubah true_values daftar, default Tidak adaNilai untuk dipertimbangkan sebagai Benar false_values daftar, default Tidak adaNilai yang dianggap Salah lewati seperti daftar, int, atau dapat dipanggil, opsionalNomor baris yang akan dilewati (0-diindeks) atau jumlah baris yang akan dilewati (int) di awal file. Jika dapat dipanggil, fungsi yang dapat dipanggil akan dievaluasi terhadap indeks baris, mengembalikan True jika baris harus dilewati dan False jika sebaliknya. Contoh argumen callable yang valid adalah >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.03nrows int, default Tidak Ada Jumlah baris untuk diuraikan na_values scalar, str, list-like, atau dict, default Tidak adaAdditional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘ Apakah akan menyertakan nilai NaN default saat mengurai data atau tidak. Bergantung pada apakah na_values diteruskan, perilakunya adalah sebagai berikut
Perhatikan bahwa jika na_filter diteruskan sebagai False, parameter keep_default_na dan na_values akan diabaikan na_filter bool, default TrueMendeteksi penanda nilai yang hilang (string kosong dan nilai na_values). Dalam data tanpa NAS apa pun, meneruskan na_filter=False dapat meningkatkan kinerja membaca file besar bertele-tele bool, default SalahTunjukkan jumlah nilai NA yang ditempatkan di kolom non-numerik Tingkah lakunya adalah sebagai berikut
Jika kolom atau indeks berisi tanggal yang tidak dapat diuraikan, seluruh kolom atau indeks akan dikembalikan tanpa diubah sebagai tipe data objek. Jika Anda tidak ingin mengurai beberapa sel sebagai tanggal, cukup ubah jenisnya di Excel menjadi "Teks". Untuk penguraian waktu non-standar, gunakan >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.04 setelah >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.05 Catatan. Ada jalur cepat untuk tanggal berformat iso8601 date_parser fungsi, opsionalFungsi yang akan digunakan untuk mengonversi urutan kolom string menjadi larik instance datetime. Standarnya menggunakan >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.0_6 untuk melakukan konversi. Panda akan mencoba memanggil date_parser dalam tiga cara berbeda, maju ke cara berikutnya jika terjadi pengecualian. 1) Lewati satu atau lebih array (sebagaimana didefinisikan oleh parse_dates) sebagai argumen; ribuan str, default Tidak ada Pemisah ribuan untuk mem-parsing kolom string ke numerik. Perhatikan bahwa parameter ini hanya diperlukan untuk kolom yang disimpan sebagai TEXT di Excel, kolom numerik apa pun akan diuraikan secara otomatis, terlepas dari format tampilan desimal str, default ‘. ’Karakter untuk dikenali sebagai titik desimal untuk mem-parsing kolom string menjadi numerik. Perhatikan bahwa parameter ini hanya diperlukan untuk kolom yang disimpan sebagai TEXT di Excel, kolom numerik apa pun akan diuraikan secara otomatis, terlepas dari format tampilan. (mis. g. gunakan ',' untuk data Eropa) Baru di versi 1. 4. 0 komentar str, default Tidak adaKomentari sisa baris. Berikan satu atau beberapa karakter ke argumen ini untuk menunjukkan komentar di file input. Setiap data antara string komentar dan akhir baris saat ini diabaikan skipfooter int, default 0Baris di akhir untuk dilewati (0-diindeks) convert_float bool, default TrueMengkonversi float integral ke int (i. e. , 1. 0 –> 1). Jika Salah, semua data numerik akan dibaca sebagai pelampung. Excel menyimpan semua angka sebagai float secara internal Tidak digunakan lagi sejak versi 1. 3. 0. convert_float akan dihapus di versi mendatang mangle_dupe_cols bool, bawaan BenarKolom duplikat akan ditentukan sebagai 'X', 'X. 1’, …’X. N', bukan 'X'...'X'. Meneruskan False akan menyebabkan data ditimpa jika ada nama duplikat di kolom Tidak digunakan lagi sejak versi 1. 5. 0. Tidak diterapkan, dan argumen baru untuk menentukan pola nama kolom duplikat akan ditambahkan sebagai gantinya storage_options dict, opsionalOpsi ekstra yang masuk akal untuk koneksi penyimpanan tertentu, mis. g. host, port, nama pengguna, kata sandi, dll. Untuk URL HTTP(S), key-value pair diteruskan ke >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.07 sebagai opsi tajuk. Untuk URL lain (mis. g. dimulai dengan “s3. //", dan "gcs. //”) pasangan nilai kunci diteruskan ke >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.08. Silakan lihat >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.0_9 dan >>> pd.read_excel('tmp.xlsx', index_col=0, .. na_values=['string1', 'string2']) Name Value 0 NaN 1 1 NaN 2 2 #Comment 30 untuk detail lebih lanjut, dan untuk contoh lebih lanjut tentang opsi penyimpanan lihat Baru di versi 1. 2. 0 MengembalikanDataFrame atau dict dari DataFramesDataFrame dari file Excel yang diteruskan. Lihat catatan dalam argumen sheet_name untuk informasi lebih lanjut tentang kapan dict DataFrames dikembalikan Lihat juga Tulis DataFrame ke file Excel Tulis DataFrame ke file nilai yang dipisahkan koma (csv). Baca file nilai yang dipisahkan koma (csv) ke dalam DataFrame Baca tabel garis berformat dengan lebar tetap ke dalam DataFrame Contoh File dapat dibaca menggunakan nama file sebagai string atau objek file terbuka >>> pd.read_excel('tmp.xlsx', index_col=0) Name Value 0 string1 1 1 string2 2 2 #Comment 3 >>> pd.read_excel(open('tmp.xlsx', 'rb'), .. sheet_name='Sheet3') Unnamed: 0 Name Value 0 0 string1 1 1 1 string2 2 2 2 #Comment 3 Indeks dan header dapat ditentukan melalui argumen index_col dan header >>> pd.read_excel('tmp.xlsx', index_col=None, header=None) 0 1 2 0 NaN Name Value 1 0.0 string1 1 2 1.0 string2 2 3 2.0 #Comment 3 Jenis kolom disimpulkan tetapi dapat ditentukan secara eksplisit >>> pd.read_excel('tmp.xlsx', index_col=0, .. dtype={'Name': str, 'Value': float}) Name Value 0 string1 1.0 1 string2 2.0 2 #Comment 3.0 Nilai True, False, dan NA, dan ribuan pemisah memiliki default, tetapi juga dapat ditentukan secara eksplisit. Berikan nilai yang Anda inginkan sebagai string atau daftar string Bisakah Python menarik data dari Excel?Seseorang dapat mengambil informasi dari spreadsheet . Membaca, menulis, atau memodifikasi data dapat dilakukan dengan Python dapat dilakukan dengan menggunakan metode yang berbeda.
Bagaimana cara membaca file XLSX dengan Python?Dua cara umum untuk membaca file XLSX dengan Python adalah OpenPyXL dan Pandas. . Hal pertama yang perlu Anda lakukan (dan ini berlaku untuk kedua metode dalam daftar) adalah mengunduh Python. . Selanjutnya, unduh openpyxl dari situs web mereka menggunakan pip (manajer paket standar Python). . Impor modul yang Anda butuhkan. openpyxk dan Path |