Bagaimana Anda membagi teks menjadi kata-kata dengan python?

Di halaman ini. . membelah(),. bergabung(), dan daftar()

Membagi Kalimat menjadi Kata. . membelah()

Di bawah, mary adalah seutas tali. Meskipun itu adalah sebuah kalimat, kata-kata tersebut tidak direpresentasikan sebagai unit-unit yang tersembunyi. Untuk itu, Anda memerlukan tipe data yang berbeda. daftar string di mana setiap string sesuai dengan kata. . split() adalah metode yang digunakan

>>> mary = 'Mary had a little lamb'
>>> mary.split() 
['Mary', 'had', 'a', 'little', 'lamb'] 

split() membagi mary pada whitespce, dan hasil yang dikembalikan adalah daftar kata-kata dalam mary. Daftar ini berisi 5 item seperti yang ditunjukkan oleh fungsi len(). len() pada mary, sebaliknya, mengembalikan jumlah karakter dalam string (termasuk spasi). Karakter spasi antara lain termasuk spasi ' ', karakter baris baru '\n', dan tab '\t'. . split() memisahkan urutan gabungan dari karakter tersebut

Memisahkan pada Substring Tertentu

Dengan memberikan parameter opsional,. split('x') dapat digunakan untuk membagi string pada substring tertentu 'x'. Tanpa 'x' ditentukan,. split() hanya membagi pada semua spasi, seperti yang terlihat di atas

String ke dalam Daftar Karakter. daftar()

Tetapi bagaimana jika Anda ingin membagi string menjadi daftar karakter? . Fungsi list() mengubah string menjadi daftar huruf individual

>>> list('hello world')
['h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd'] 
_

Lebih umum, list() adalah fungsi bawaan yang mengubah objek data Python menjadi daftar. Saat tipe string diberikan, yang dikembalikan adalah daftar karakter di dalamnya. Ketika tipe data lain diberikan, spesifikasinya bervariasi tetapi tipe yang dikembalikan selalu berupa daftar. Lihat tutorial ini untuk detailnya

Bergabung dengan Daftar String. . Ikuti()

Jika Anda memiliki daftar kata, bagaimana Anda menyatukannya kembali menjadi satu string?. join() adalah metode yang digunakan. Dipanggil pada string "pemisah" 'x', 'x'. join(y) menggabungkan setiap elemen dalam daftar y yang dipisahkan oleh 'x'. Di bawah ini, kata-kata dalam kata kunci digabungkan kembali ke dalam string kalimat dengan spasi di antaranya

>>> mwords
['Mary', 'had', 'a', 'little', 'lamb'] 
>>> ' '.join(mwords)
'Mary had a little lamb' 

Bergabung dapat dilakukan pada string pemisah apa pun. Di bawah, '--' dan karakter tab '\t' digunakan

>>> '--'.join(mwords)
'Mary--had--a--little--lamb' 
>>> '\t'.join(mwords)
'Mary\thad\ta\tlittle\tlamb' 
>>> print('\t'.join(mwords))
Mary    had     a       little  lamb 

Metode ini juga dapat dipanggil pada string kosong '' sebagai pemisah. Efeknya adalah elemen-elemen dalam daftar bergabung bersama tanpa ada apa pun di antaranya. Di bawah ini, daftar karakter disatukan kembali ke dalam string asli

>>> hi = 'hello world'
>>> hichars = list(hi)
>>> hichars
['h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd'] 
>>> ''.join(hichars)
'hello world' 
_

Di Python mengambil pemisah sebagai parameter input dan membagi string pemanggil menjadi beberapa string berdasarkan pemisah. Jika kami tidak menentukan pemisah apa pun, fungsi str.split() membagi string berdasarkan ruang kosong. Cuplikan kode berikut menunjukkan cara membagi kalimat menjadi daftar kata dengan fungsi str.split()

sentence = "This is a sentence"
words = sentence.split()
print(words)

Keluaran

['This', 'is', 'a', 'sentence']
_

Kami mendeklarasikan variabel string

['This', 'is', 'a', 'sentence']
_2 yang berisi beberapa data. Kami kemudian membagi variabel
['This', 'is', 'a', 'sentence']
2 menjadi daftar string dengan fungsi
['This', 'is', 'a', 'sentence']
4 dan menyimpan hasilnya ke dalam daftar
['This', 'is', 'a', 'sentence']
5. Fungsi str.split()_ adalah cara termudah untuk mengubah kalimat menjadi daftar kata dengan Python

Pisahkan Kalimat Menjadi Kata Dengan Pemahaman Daftar di Python

Kita juga dapat menggunakan pemahaman daftar untuk membagi kalimat menjadi daftar kata. Namun, pendekatan ini tidak semudah fungsi str.split(). Keuntungan menggunakan pemahaman daftar adalah kita juga dapat melakukan beberapa operasi pada kata-kata yang diperoleh. Operasi dapat berkisar dari menambahkan sesuatu ke setiap kata atau menghapus sesuatu dari setiap kata. Cuplikan kode berikut menunjukkan cara membagi kalimat menjadi kata-kata dengan pemahaman daftar dan fungsi str.split()

sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)

Keluaran

['This', 'is', 'a', 'sentence']
_

Kami mendeklarasikan variabel string

['This', 'is', 'a', 'sentence']
_2 yang berisi beberapa data. Kami kemudian membagi variabel
['This', 'is', 'a', 'sentence']
_2 menjadi daftar string dengan pemahaman daftar dan menyimpan hasilnya ke dalam daftar
['This', 'is', 'a', 'sentence']
5. Metode ini berguna untuk memodifikasi setiap kata yang diperoleh sebelum menyimpan kata tersebut ke dalam daftar
['This', 'is', 'a', 'sentence']
5

Pisahkan Kalimat Menjadi Kata Dengan Perpustakaan sentence = "This is a sentence" words = [word for word in sentence.split()] print(words) 3 dengan Python

Pustaka

sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)
_3 atau Natural language toolkit digunakan untuk pemrosesan teks dengan Python. Kita harus menginstalnya sebelum menggunakannya karena ini adalah library eksternal. Perintah untuk menginstal perangkat bahasa alami diberikan di bawah ini

Setelah diinstal, kita harus mengunduh paket

sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)
_5 menggunakan fungsi
sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)
6. Fenomena ini diilustrasikan dalam cuplikan kode berikut

import nltk
nltk.download('punkt')

Keluaran

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.

Bagian dalam perpustakaan

sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)
_3 dapat digunakan untuk memecahkan masalah khusus kita. Fungsi ini mengambil string sebagai parameter input dan membaginya menjadi beberapa substring. Cuplikan kode berikut menunjukkan cara membagi kalimat menjadi daftar kata dengan fungsi
sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)
9

sentence = "This is a sentence"
words = nltk.word_tokenize(sentence)
print(words)

Keluaran

['This', 'is', 'a', 'sentence']
_

Kami membagi string

['This', 'is', 'a', 'sentence']
_2 kami menjadi daftar kata dengan fungsi
['This', 'is', 'a', 'sentence']
1 dan menyimpan hasilnya ke dalam daftar
['This', 'is', 'a', 'sentence']
5. Pada akhirnya, kami menampilkan elemen di dalam daftar
['This', 'is', 'a', 'sentence']
5

Metode str.split() adalah cara termudah untuk menyelesaikan masalah khusus ini, tetapi tidak banyak yang dapat kita lakukan dengan fungsi

['This', 'is', 'a', 'sentence']
5 setelah kita memiliki daftar kata. Dua metode lainnya berguna saat kita ingin melakukan beberapa manipulasi tambahan pada kata yang diperoleh

Bagaimana cara membagi string menjadi beberapa kata?

split() Metode split() membagi sebuah String menjadi beberapa String dengan pembatas yang memisahkannya. Objek yang dikembalikan adalah sebuah array yang berisi Strings yang terbelah. Kami juga dapat melewati batas jumlah elemen dalam array yang dikembalikan.

Bagaimana Anda membagi string menjadi dua string dengan Python?

Python split() method digunakan untuk membagi string menjadi potongan-potongan, dan menerima satu argumen yang disebut pemisah. Pemisah dapat berupa karakter atau simbol apa pun. Jika tidak ada pemisah yang ditentukan, maka itu akan memisahkan string yang diberikan dan spasi putih akan digunakan secara default.