In this tutorial, we will learn about the Python String split() method with the help of examples. Show The Example
Syntax of String split()The syntax of str.split(separator, maxsplit) split() ParametersThe
split() Return ValueThe Example 1: How split() works in Python?
Output ['Love', 'thy', 'neighbor'] ['Milk', 'Chicken', 'Bread'] ['Milk, Chicken, Bread'] Example 2: How split() works when maxsplit is specified?
Output ['Milk', 'Chicken', 'Bread, Butter'] ['Milk', 'Chicken, Bread, Butter'] ['Milk', 'Chicken', 'Bread', 'Butter'] ['Milk, Chicken, Bread, Butter'] If maxsplit is specified, the list will have a maximum of Train/test split adalah salah satu metode yang dapat digunakan untuk mengevaluasi performa model machine learning. Metode evaluasi model ini membagi dataset menjadi dua bagian yakni bagian yang digunakan untuk training data dan untuk testing data dengan
proporsi tertentu. Train data digunakan untuk fit model machine learning, sedangkan test data digunakan untuk mengevaluasi hasil fit model tersebut. Train/test split dapat digunakan untuk problem regresi maupun klasifikasi. Evaluasi model machine learning dengan train/test split cocok digunakan untuk dataset yang berukuran besar. Seperti yang kita ketahui, train/test split membagi dataset menjadi train set dan test set, atau dengan kata lain, data yang digunakan untuk proses training dan testing merupakan kumpulan data yang berbeda. Metode train/test split ini akan memberikan hasil prediksi yang lebih akurat untuk new data atau data yang belum pernah di-train. Baca juga: Cara Binning Data di Python dengan Pandas Karena data testing tidak digunakan untuk melatih model, maka model tidak mengetahui outcome dari data tersebut. Ini yang disebut dengan out-of-sample testing. Suatu model dikatakan bagus jika memiliki akurasi yang tinggi atau bagus untuk data out-of-sample, karena tujuan utama dibuatnya sebuah model tentunya adalah untuk memprediksi dengan benar data yang belum diketahui outcome-nya. Train/test split di PythonPython memiliki library yang dapat
mengimplementasikan train/test split dengan mudah yaitu Scikit-Learn. Untuk menggunakannya, kita perlu mengimport Scikit-Learn terlebih dahulu, kemudian setelah itu kita dapat menggunakan fungsi from sklearn.model_selection import train_test_split Setelah itu kita definisikan data yang menjadi
source-nya ( X = df.iloc[:, :-1] y = df['Class'] Setelah didefinisikan, kita dapat langsung mengimplementasikan train/test split. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
Baca juga: Cara Memilih Algoritma Machine Learning Perlu diketahui bahwa metode ini akan membagi train set dan test set secara random atau acak. Jadi, jika kita mengulang proses running, maka tentunya hasil yang didapat akan berubah-ubah. Untuk mengatasinya, kita dapat menggunakan parameter random_state seperti contoh di bawah ini. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3) Angka yang didefinisikan pada parameter random_state boleh angka berapa saja yang berupa integer. Menerapkan Hasil Train/test Split Dalam PemodelanSelanjutnya, kita dapat menggunakannya untuk pemodelan dengan algoritma tertentu misalnya disini menggunakan Linear Regression seperti contoh berikut. from sklearn.linear_model import LinearRegression Baca juga: Konsep Regresi Linear: Simple Linear Regression
Semoga bermanfaat! |