Bagaimana Anda mengekstrak kata-kata tertentu dengan python?

Ekstraksi kata kunci adalah proses otomatis untuk mengekstraksi kata dan ekspresi yang paling relevan dari teks

Tapi bagaimana Anda bisa menggunakannya untuk memanfaatkan data bisnis yang ada?

Baca panduan ini dari awal sampai akhir, tandai untuk nanti, atau lompat ke topik yang menarik perhatian Anda


Mulai mengekstraksi kata kunci dari teks Anda


Mari kita mulai

Introduction to Keyword Extraction

Ekstraksi kata kunci (juga dikenal sebagai deteksi kata kunci atau analisis kata kunci) adalah teknik analisis teks yang secara otomatis mengekstrak kata dan ekspresi yang paling sering digunakan dan paling penting dari sebuah teks. Ini membantu meringkas isi teks dan mengenali topik utama yang dibahas

Ekstraksi kata kunci menggunakan kecerdasan buatan pembelajaran mesin (AI) dengan pemrosesan bahasa alami (NLP) untuk memecah bahasa manusia sehingga dapat dipahami dan dianalisis oleh mesin. Ini digunakan untuk menemukan kata kunci dari semua jenis teks. dokumen reguler dan laporan bisnis, komentar media sosial, forum dan ulasan online, laporan berita, dan banyak lagi

Bayangkan Anda ingin menganalisis ribuan ulasan online tentang produk Anda. Ekstraksi kata kunci membantu Anda menyaring seluruh kumpulan data dan mendapatkan kata-kata yang paling menggambarkan setiap ulasan hanya dalam hitungan detik. Dengan begitu, Anda dapat dengan mudah dan otomatis melihat apa yang paling sering disebutkan oleh pelanggan Anda, menghemat waktu pemrosesan manual berjam-jam bagi tim Anda

Mari kita lihat sebuah contoh

Keyword extraction from a product review

Alat ekstraksi kata kunci ini dengan mudah mengungkap atribut yang paling banyak disebutkan (versi seluler; versi web) dalam ulasan pelanggan

Anda dapat menggunakan ekstraktor kata kunci untuk mengeluarkan satu kata (kata kunci) atau kelompok dua atau lebih kata yang membuat frasa (frasa kunci)

Coba ekstraktor kata kunci, di bawah ini, gunakan teks Anda sendiri untuk mengeluarkan satu kata (kata kunci) atau kelompok dua kata atau lebih yang membuat frasa (frasa kunci)

Anda akan melihat bahwa kata kunci sudah ada di teks aslinya. Inilah perbedaan utama antara ekstraksi kata kunci dan penugasan kata kunci, yang terdiri dari pemilihan kata kunci dari daftar kosakata terkontrol atau mengklasifikasikan teks menggunakan kata kunci dari daftar yang telah ditentukan sebelumnya

Awan kata atau awan tag adalah contoh lain dari ekstraksi kata kunci. Mereka menunjukkan visualisasi kata-kata teks yang paling sering digunakan dalam kelompok kata. Di bawah ini adalah cloud kata yang dibuat dari ulasan online Slack

Word cloud generated from slack reviews

Semakin banyak kata atau frase yang muncul dalam teks, semakin besar kata atau frasa tersebut dalam visualisasi awan kata. Cobalah generator cloud kata gratis ini sekarang untuk melihat bagaimana Anda dapat mengekstrak kata kunci penting dari teks Anda

Jenis lain dari ekstraksi kata kunci termasuk pengenalan entitas bernama, yang melibatkan ekstraksi entitas (nama, lokasi, alamat email) dari teks. Misalnya, ekstraktor nama online ini secara otomatis mengeluarkan nama dari teks

Jelajahi jenis ekstraksi kata kunci lainnya saat Anda mendaftar ke MonkeyLearn secara gratis

Mengapa Ekstraksi Kata Kunci Penting?

Dengan ekstraksi kata kunci, Anda dapat menemukan kata dan frasa paling penting dalam kumpulan data besar hanya dalam hitungan detik. Dan kata dan frasa ini dapat memberikan wawasan berharga tentang topik yang dibicarakan pelanggan Anda

Mempertimbangkan bahwa lebih dari 80% data yang kami hasilkan setiap hari tidak terstruktur – artinya tidak diatur dengan cara yang telah ditentukan sebelumnya, membuatnya sangat sulit untuk dianalisis dan diproses – bisnis memerlukan ekstraksi kata kunci otomatis untuk membantu mereka memproses dan menganalisis data pelanggan secara lebih

Berapa persentase ulasan pelanggan yang mengatakan sesuatu yang berhubungan dengan Harga?

Di dunia akademik, ekstraksi kata kunci mungkin menjadi kunci untuk menemukan kata kunci yang relevan dalam kumpulan data yang sangat besar (seperti artikel, makalah, atau jurnal baru) tanpa harus benar-benar membaca seluruh konten.

Apa pun bidang bisnis Anda, alat ekstraksi kata kunci adalah kunci untuk membantu Anda mengindeks data secara otomatis, meringkas teks, atau menghasilkan cloud tag dengan kata kunci yang paling representatif. Beberapa keuntungan utama dari ekstraksi kata kunci meliputi

Skalabilitas

Ekstraksi kata kunci otomatis memungkinkan Anda menganalisis data sebanyak yang Anda inginkan. Ya, Anda dapat membaca teks dan mengidentifikasi istilah kunci secara manual, tetapi akan sangat memakan waktu. Mengotomatiskan tugas ini memberi Anda kebebasan untuk berkonsentrasi pada bagian lain dari pekerjaan Anda

Kriteria yang konsisten

Tindakan ekstraksi kata kunci berdasarkan aturan dan parameter yang telah ditentukan. Anda tidak harus berurusan dengan ketidakkonsistenan, yang biasa terjadi dalam analisis teks manual

Anda dapat melakukan ekstraksi kata kunci pada posting media sosial, ulasan pelanggan, survei, atau tiket dukungan pelanggan secara waktu nyata, dan mendapatkan wawasan tentang apa yang dikatakan tentang produk Anda saat itu terjadi dan mengikuti mereka dari waktu ke waktu

How does Keyword Extraction work?

Ekstraksi kata kunci menyederhanakan tugas menemukan kata dan frasa yang relevan dalam teks yang tidak terstruktur. Ini termasuk email, postingan media sosial, percakapan obrolan, dan jenis data lainnya yang tidak diatur dengan cara yang telah ditentukan sebelumnya

Ekstraksi kata kunci dapat mengotomatiskan alur kerja, seperti memberi tag tanggapan survei yang masuk atau menanggapi pertanyaan pelanggan yang mendesak, memungkinkan Anda menghemat banyak waktu. Ini juga memberikan wawasan berbasis data yang dapat ditindaklanjuti untuk membantu membuat keputusan bisnis yang lebih baik. Tetapi hal terbaik tentang model ekstraksi kata kunci adalah mudah disiapkan dan diterapkan

Ada berbagai teknik yang dapat Anda gunakan untuk ekstraksi kata kunci otomatis. Dari pendekatan statistik sederhana yang mendeteksi kata kunci dengan menghitung frekuensi kata, hingga pendekatan pembelajaran mesin yang lebih canggih yang membuat model yang lebih kompleks dengan belajar dari contoh sebelumnya

Di bagian ini, kami akan meninjau berbagai pendekatan untuk ekstraksi kata kunci, dengan fokus pada model berbasis pembelajaran mesin

Pendekatan Statistik Sederhana

Menggunakan statistik adalah salah satu metode paling sederhana untuk mengidentifikasi kata kunci utama dan frase kunci dalam teks

Ada berbagai jenis pendekatan statistik, termasuk frekuensi kata, kolokasi kata dan kejadian bersama, TF-IDF (kependekan dari frekuensi jangka – frekuensi dokumen terbalik), dan RAKE (Rapid Automatic Keyword Extraction)

Pendekatan ini tidak memerlukan data pelatihan untuk mengekstrak kata kunci terpenting dalam teks. Namun, karena mereka hanya mengandalkan statistik, mereka mungkin mengabaikan kata atau frasa relevan yang disebutkan satu kali tetapi harus tetap dianggap relevan. Mari kita lihat beberapa pendekatan ini secara mendetail

Frekuensi Kata

Frekuensi kata terdiri dari daftar kata dan frasa yang paling sering diulang dalam teks. Ini dapat berguna untuk berbagai tujuan, mulai dari mengidentifikasi istilah berulang dalam rangkaian ulasan produk, hingga menemukan masalah paling umum dalam interaksi dukungan pelanggan.

Namun, pendekatan frekuensi kata menganggap dokumen sebagai 'kantong kata' belaka, mengesampingkan aspek-aspek penting terkait makna, struktur, tata bahasa, dan urutan kata. Sinonim, misalnya, tidak dapat dideteksi dengan metode ekstraksi kata kunci ini, menghilangkan informasi yang sangat berharga

Kolokasi Kata dan Co-kejadian

Juga dikenal sebagai statistik N-gram, kolokasi kata dan kejadian bersama membantu memahami struktur semantik teks dan menghitung kata-kata terpisah sebagai satu

Kolokasi adalah kata-kata yang sering digabungkan. Jenis kolokasi yang paling umum adalah bi-gram (dua istilah yang muncul berdekatan, seperti 'layanan pelanggan', 'panggilan video' atau 'pemberitahuan email') dan tri-gram (sekelompok tiga kata, seperti 'mudah digunakan'

Kemunculan bersama, di sisi lain, mengacu pada kata-kata yang cenderung muncul bersamaan dalam korpus yang sama. Mereka tidak harus berdekatan, tetapi mereka memiliki kedekatan semantik

TF-IDF

TF-IDF adalah singkatan dari term frequency–inverse document frequency, sebuah rumus yang mengukur seberapa penting sebuah kata bagi sebuah dokumen dalam kumpulan dokumen

Metrik ini menghitung berapa kali sebuah kata muncul dalam teks (frekuensi istilah) dan membandingkannya dengan frekuensi dokumen terbalik (seberapa jarang atau umum kata itu ada di seluruh kumpulan data)

Mengalikan kedua kuantitas ini memberikan skor TF-IDF dari sebuah kata dalam dokumen. Semakin tinggi skornya, semakin relevan kata tersebut dengan dokumen

Algoritma TF-IDF memiliki beberapa aplikasi dalam pembelajaran mesin. Faktanya, mesin pencari menggunakan variasi algoritme TF-IDF untuk menentukan peringkat artikel berdasarkan relevansinya dengan permintaan pencarian tertentu

Dalam hal ekstraksi kata kunci, metrik ini dapat membantu Anda mengidentifikasi kata yang paling relevan dalam dokumen (kata dengan skor lebih tinggi) dan menganggapnya sebagai kata kunci. Ini bisa sangat berguna untuk tugas-tugas seperti menandai tiket dukungan pelanggan atau menganalisis umpan balik pelanggan

Dalam banyak kasus ini, kata-kata yang lebih sering muncul dalam kelompok dokumen belum tentu yang paling relevan. Demikian pula, sebuah kata yang muncul dalam satu teks tetapi tidak muncul di dokumen lainnya mungkin sangat penting untuk memahami isi teks tersebut

Katakanlah Anda sedang menganalisis kumpulan data ulasan Slack

Kata-kata seperti ini, jika, itu, ini atau apa, mungkin akan menjadi yang paling sering. Kemudian, akan ada banyak kata-kata terkait konten dengan tingkat frekuensi yang tinggi, seperti komunikasi, tim, pesan, atau produk. Namun, kata-kata tersebut tidak akan memberikan banyak detail tentang isi setiap ulasan

Berkat algoritme TF-IDF, Anda dapat menimbang pentingnya setiap istilah dan mengekstrak kata kunci yang paling merangkum setiap ulasan. Dalam kasus Slack, mereka dapat mengekstraksi kata yang lebih spesifik seperti multisaluran, antarmuka pengguna, atau aplikasi seluler

MENYAPU

Rapid Automatic Keyword Extraction (RAKE) adalah metode ekstraksi kata kunci terkenal yang menggunakan daftar stopword dan pembatas frase untuk mendeteksi kata atau frase yang paling relevan dalam sebuah teks.

Ambil teks berikut sebagai contoh

Ekstraksi kata kunci tidak terlalu sulit. Ada banyak perpustakaan yang dapat membantu Anda dengan ekstraksi kata kunci. Ekstraksi kata kunci otomatis cepat adalah salah satunya

Hal pertama yang dilakukan metode ini adalah membagi teks menjadi daftar kata dan menghapus kata henti dari daftar itu. Ini mengembalikan daftar apa yang dikenal sebagai kata konten

Misalkan daftar stopwords dan frase delimiter kita terlihat seperti ini

stopwords = [is, not, that, there, are, can, you, with, ____________1, ________1, ________1, ________1, ________1, ________1,

Kemudian, daftar 8 kata konten kami, akan terlihat seperti ini

isi_kata = [not5, not6, not7, not8, not9, that0, that1, that2]

Kemudian, algoritme membagi teks pada pembatas frase dan stopword untuk membuat ekspresi kandidat. Jadi, frasa kunci kandidat adalah sebagai berikut

that3 bukankah itu not7. Ada that_5 yang dapat that0 Anda dengan that7. that8 adalah salah satunya

Setelah teks dipisahkan, algoritme membuat matriks kejadian bersama kata. Setiap baris menunjukkan berapa kali kata konten tertentu muncul bersamaan dengan setiap kata konten lainnya dalam frasa kandidat. Untuk contoh di atas, matriksnya terlihat seperti ini

RAKE Matrix

Setelah matriks dibangun, kata-kata diberi skor. Skor itu dapat dihitung sebagai derajat kata dalam matriks (i. e. jumlah dari jumlah kemunculan bersama kata tersebut dengan kata konten lainnya dalam teks), sebagai frekuensi kata (i. e. berapa kali kata itu muncul dalam teks), atau sebagai tingkat kata dibagi dengan frekuensinya

Jika kita menghitung skor derajat dibagi dengan skor frekuensi untuk setiap kata dalam contoh kita, mereka akan terlihat seperti ini

RAKE frequency score

Ungkapan-ungkapan itu juga diberi skor, yang dihitung sebagai jumlah dari skor masing-masing kata. Jika kita menghitung skor dari frasa yang dicetak tebal di atas, akan terlihat seperti ini

RAKE phrases

Jika dua kata kunci atau frasa kunci muncul bersamaan dalam urutan yang sama lebih dari dua kali, frasa kunci baru akan dibuat terlepas dari berapa banyak kata kunci yang terkandung dalam frasa kunci dalam teks asli. Skor dari frasa kunci tersebut dihitung seperti skor untuk satu frasa kunci

Kata kunci atau frasa kunci dipilih jika skornya termasuk dalam skor T teratas di mana T adalah jumlah kata kunci yang ingin Anda ekstrak. Menurut makalah aslinya, T default ke sepertiga dari kata konten dalam dokumen

Untuk contoh di atas, metode ini akan mengembalikan 3 kata kunci teratas, yang menurut skor yang telah kami tentukan, akan menjadi ekstraksi kata kunci otomatis yang cepat (13. 33), ekstraksi kata kunci (5. 33), dan banyak perpustakaan (4. 0)

Pendekatan Linguistik

Metode ekstraksi kata kunci sering memanfaatkan informasi linguistik tentang teks dan kata-kata yang dikandungnya. Kadang-kadang, informasi morfologis atau sintaksis (seperti bagian kata-kata atau hubungan antara kata-kata dalam representasi kalimat tata bahasa ketergantungan) digunakan untuk menentukan kata kunci apa yang harus diekstraksi. Dalam beberapa kasus, PoS tertentu diberi skor lebih tinggi (mis. g. , kata benda dan frase kata benda) karena biasanya mengandung lebih banyak informasi tentang teks daripada kategori lainnya

Beberapa metode lain memanfaatkan penanda wacana (mis. e. , frasa yang menyusun wacana menjadi segmen-segmen, seperti bagaimanapun atau terlebih lagi) atau informasi semantik tentang kata (mis. g. nuansa makna dari kata tertentu). Makalah ini dapat menjadi pengantar yang baik tentang bagaimana informasi ini dapat digunakan dalam metode ekstraksi kata kunci

Namun, itu belum semua informasi yang dapat Anda gunakan untuk mengekstrak kata kunci. Kata co-occurrence juga bisa digunakan, mis. g. , kata-kata yang muncul bersamaan dengan kata topikal (seperti yang ditunjukkan dalam makalah ini)

Sebagian besar sistem yang menggunakan beberapa jenis informasi linguistik mengungguli yang tidak. Kami sangat menyarankan agar Anda mencoba beberapa di antaranya saat mengekstraksi kata kunci dari teks Anda

Pendekatan Berbasis Grafik

Pendekatan berbasis grafik yang paling populer adalah model TextRank, yang akan kami perkenalkan nanti di postingan ini. Graf dapat didefinisikan sebagai kumpulan simpul dengan koneksi di antara mereka

Teks dapat direpresentasikan sebagai grafik dengan berbagai cara. Kata-kata dapat dianggap simpul yang dihubungkan oleh sisi berarah (mis. e. koneksi satu arah antara simpul). Sisi-sisi itu dapat diberi label, misalnya, sebagai relasi yang dimiliki kata-kata dalam pohon ketergantungan. Representasi lain dari dokumen mungkin menggunakan tepi yang tidak diarahkan, misalnya, saat merepresentasikan kata yang terjadi bersamaan

Jika kata-kata diwakili oleh angka, grafik tidak berarah akan terlihat seperti ini

Numeric graph undirected

Grafik berarah akan terlihat sedikit berbeda

Numeric graph undirected

Ide yang mendasari ekstraksi kata kunci berbasis grafik selalu sama. mengukur seberapa penting suatu simpul berdasarkan langkah-langkah yang mempertimbangkan beberapa informasi yang diperoleh dari struktur graf untuk mengekstraksi simpul terpenting

Setelah grafik dibuat, saatnya untuk menentukan cara mengukur pentingnya simpul. Ada banyak opsi berbeda, yang sebagian besar dibahas dalam makalah ini. Beberapa metode memilih untuk mengukur apa yang dikenal sebagai derajat dari sebuah simpul

Derajat suatu simpul sama dengan jumlah sisi atau sambungan yang mendarat di simpul (disebut juga derajat in) ditambah jumlah sisi yang dimulai di simpul (disebut juga derajat keluar) dibagi dengan derajat maksimum (yang mana . Ini adalah rumus untuk menghitung derajat suatu simpul

Dv = (Dvin + Dvout) / (N - 1)

Numeric graph with degree

Beberapa metode lain mengukur jumlah simpul langsung ke simpul tertentu (yang dikenal sebagai ukuran lingkungan)

Numeric graph with neighborhood size

Apa pun ukuran yang dipilih, akan ada skor untuk setiap simpul yang akan menentukan apakah harus diekstraksi sebagai kata kunci atau tidak.

Ambil teks berikut sebagai contoh

Otomatis1 berbasis grafik2 kata kunci3 ekstraksi4 cukup5 mudah6. Dokumen 7 direpresentasikan sebagai grafik9 dan skor10 diberikan11 untuk masing-masing simpul 12 di grafik13. Bergantung14 pada skor15 dari simpul16, mungkin akan dipilih17 sebagai kata kunci18

Jika kita mengukur ukuran ketetanggaan untuk contoh di atas dalam grafik ketergantungan yang hanya mencakup kata-kata konten (bernomor 1 - 18 dalam teks), frasa kunci yang diekstraksi akan menjadi ekstraksi kata kunci berbasis grafik otomatis karena ukuran ketetanggaan dari

Pendekatan Pembelajaran Mesin

Sistem berbasis pembelajaran mesin digunakan untuk banyak tugas analisis teks, termasuk ekstraksi kata kunci. Tapi apa sebenarnya pembelajaran mesin itu?

Untuk memproses data teks yang tidak terstruktur, sistem pembelajaran mesin perlu memecahnya menjadi sesuatu yang dapat mereka pahami. Tapi bagaimana model pembelajaran mesin melakukan ini?

Ada berbagai algoritme dan teknik pembelajaran mesin yang dapat digunakan untuk mengekstrak kata kunci yang paling relevan dalam sebuah teks, termasuk Support Vector Machines (SVM) dan pembelajaran mendalam

Di bawah ini adalah salah satu pendekatan paling umum dan efektif untuk ekstraksi kata kunci dengan pembelajaran mesin

Bidang Acak Bersyarat

Conditional Random Fields (CRF) adalah pendekatan statistik yang mempelajari pola dengan memberi bobot fitur yang berbeda dalam urutan kata yang ada dalam sebuah teks. Pendekatan ini mempertimbangkan konteks dan hubungan antara variabel yang berbeda untuk membuat prediksinya

Menggunakan bidang acak bersyarat memungkinkan Anda membuat pola yang kompleks dan kaya. Keuntungan lain dari pendekatan ini adalah kemampuannya untuk menggeneralisasi. setelah model dilatih dengan contoh dari domain tertentu, ia dapat dengan mudah menerapkan apa yang telah dipelajarinya ke bidang lain

Sisi negatifnya, untuk menggunakan bidang acak bersyarat, Anda harus memiliki keterampilan komputasi yang kuat untuk menghitung bobot semua fitur untuk semua urutan kata.

Saat mengevaluasi kinerja ekstraktor kata kunci, Anda dapat menggunakan beberapa metrik standar dalam pembelajaran mesin. akurasi, presisi, daya ingat, dan skor F1. Namun, metrik ini tidak mencerminkan kecocokan parsial;

Untungnya, ada beberapa metrik lain yang mampu menangkap sebagian kecocokan. Contohnya adalah ROUGE

ROUGE

ROUGE (pelajar berorientasi ingatan untuk evaluasi gisting) adalah keluarga metrik yang membandingkan berbagai parameter (seperti jumlah kata yang tumpang tindih) antara teks sumber dan kata-kata yang diekstraksi. Parameter meliputi panjang dan jumlah urutan dan dapat ditentukan secara manual

Pendekatan Hibrid

Untuk mendapatkan hasil yang lebih baik saat mengekstraksi kata kunci yang relevan dari teks, Anda dapat menggabungkan dua atau lebih pendekatan yang telah kami sebutkan sejauh ini

Sekarang kita telah mempelajari tentang beberapa opsi berbeda yang tersedia, saatnya untuk melihat semua hal menarik yang dapat Anda lakukan dengan ekstraksi kata kunci dalam berbagai area bisnis, mulai dari dukungan pelanggan hingga pengelolaan media sosial

Ekstraksi Kata Kunci Gunakan Kasus & Aplikasi

Use Cases & Applications

Setiap hari, pengguna internet membuat 2. 5 triliun byte data. Komentar media sosial, ulasan produk, email, posting blog, permintaan pencarian, obrolan, dan sebagainya. Kami memiliki semua jenis data teks tidak terstruktur yang kami miliki. Pertanyaannya adalah, bagaimana kita memilah kekacauan untuk menemukan apa yang relevan?

Ekstraksi kata kunci dapat membantu Anda mendapatkan kata kunci atau frase kunci yang paling penting dari teks tertentu tanpa harus benar-benar membaca satu baris pun

Apakah Anda seorang manajer produk yang mencoba menganalisis setumpuk ulasan produk, manajer layanan pelanggan yang menganalisis interaksi pelanggan, atau seorang peneliti yang harus melalui ratusan makalah online tentang topik tertentu, Anda dapat menggunakan ekstraksi kata kunci agar mudah dipahami.

Berkat ekstraksi kata kunci, tim dapat menjadi lebih efisien dan memanfaatkan sepenuhnya kekuatan data. Anda dapat mengucapkan selamat tinggal pada tugas manual dan berulang (menghemat banyak waktu manusia) dan mendapatkan akses ke wawasan menarik yang akan membantu Anda mengubah data tidak terstruktur menjadi pengetahuan yang berharga

Ingin tahu apa yang dapat Anda analisis ekstraksi kata kunci?

Orang-orang menggunakan media sosial untuk mengekspresikan pemikiran, perasaan, dan opini mereka tentang berbagai topik, dari acara olahraga hingga kandidat politik, atau dari acara terbaru di Netflix hingga pembaruan perangkat lunak terbaru untuk iPhone

Bagi perusahaan, mengikuti percakapan di media sosial menggunakan ekstraksi kata kunci menawarkan peluang unik untuk memahami audiens mereka, meningkatkan produk mereka, atau mengambil tindakan cepat untuk mencegah krisis PR

Ekstraksi kata kunci dapat memberikan contoh nyata tentang apa yang dikatakan orang tentang merek Anda di media sosial. Temukan kata kunci untuk mengikuti tren, lakukan riset pasar, lacak topik populer, dan pantau pesaing Anda

Selama pemilu AS 2016, kami menganalisis jutaan tweet yang menyebutkan Donald Trump dan Hillary Clinton dan menggunakan ekstraksi kata kunci untuk menarik kata dan frasa paling relevan yang muncul dalam sebutan positif dan negatif.

Positive Keywords and negative keywords in tweets

Pemantauan merek

Kita hidup di era reputasi. Konsumen membaca rata-rata 10 ulasan online sebelum mereka mempercayai bisnis lokal, membuktikan betapa pentingnya bagi perusahaan untuk memantau percakapan seputar merek mereka di dunia online. Reputasi online melampaui media sosial dan mencakup penyebutan dan pendapat yang diungkapkan di blog, forum, situs ulasan, dan outlet berita

Saat Anda harus berurusan dengan volume data yang besar, seperti komentar tanpa henti di situs ulasan seperti Capterra atau G2 Crowd, penting bagi bisnis untuk menemukan cara untuk mengotomatiskan proses analisis data.

Ekstraksi kata kunci dapat menjadi sekutu yang kuat untuk tugas ini, memungkinkan Anda mengidentifikasi kata dan frasa paling penting yang disebutkan oleh pengguna dengan mudah, dan mendapatkan wawasan dan kunci yang menarik untuk peningkatan produk

Misalnya, Anda dapat melihat ulasan paling negatif tentang produk Anda, dan mengekstrak kata kunci yang paling sering dikaitkan dengannya. Jika ungkapan seperti respons lambat atau waktu tunggu yang lama sering muncul, ini mungkin menunjukkan kebutuhan Anda untuk meningkatkan waktu respons layanan pelanggan

Anda juga dapat menggabungkan ekstraksi kata kunci dengan analisis sentimen untuk mendapatkan perspektif yang lebih jelas, tidak hanya tentang apa yang dibicarakan orang, tetapi juga, bagaimana mereka membicarakan hal-hal tersebut.

Misalnya, Anda mungkin menemukan bahwa ulasan produk Anda sering menyebutkan layanan pelanggan. Analisis sentimen akan dapat membantu Anda memahami bagaimana orang menyebutkan topik khusus ini. Apakah pelanggan Anda mengacu pada pengalaman layanan pelanggan yang buruk?

Baru-baru ini, kami menggabungkan berbagai teknik analisis teks untuk menganalisis serangkaian ulasan Slack di Capterra. Kami menggunakan analisis sentimen untuk mengklasifikasikan opini sebagai Positif, Negatif, atau Netral. Kemudian, deteksi topik memungkinkan kami mengklasifikasikan setiap pendapat tersebut ke dalam topik atau aspek yang berbeda, seperti Dukungan Pelanggan, Harga, Kemudahan Penggunaan, dll.

Terakhir, kami menggunakan ekstraksi kata kunci untuk mendapatkan wawasan seperti "apa yang dibicarakan orang saat mereka mengungkapkan opini negatif tentang aspek Performa-Kualitas-Keandalan?". Ini adalah kata kunci paling representatif yang kami peroleh dengan ekstraktor kata kunci MonkeyLearn

Slack Keywords

Kata kunci ini memungkinkan kami untuk mengidentifikasi aspek negatif tertentu yang terkait dengan Performa-Kualitas-Keandalan yang mungkin memerlukan peningkatan, seperti, misalnya, waktu pemuatan atau notifikasi

Pelayanan pelanggan

Memberikan layanan pelanggan yang sangat baik dapat memberi merek Anda keunggulan kompetitif. Lagi pula, 64% pelanggan menganggap pengalaman pelanggan lebih penting daripada harga saat membeli sesuatu

Saat berinteraksi dengan perusahaan, pelanggan berharap mendapatkan informasi yang tepat pada waktu yang tepat, jadi memiliki waktu respons yang cepat bisa menjadi salah satu aset Anda yang paling berharga. Tapi bagaimana Anda bisa lebih efisien dan produktif ketika Anda memiliki banyak tiket yang menyumbat meja bantuan Anda setiap pagi?

Dalam hal tugas rutin yang terkait dengan menandai tiket dukungan yang masuk atau mengekstraksi data yang relevan, pembelajaran mesin dapat sangat membantu

Dengan ekstraksi kata kunci, tim dukungan pelanggan dapat mengotomatiskan proses penandaan tiket, menghemat waktu puluhan jam yang dapat mereka gunakan untuk fokus pada penyelesaian masalah yang sebenarnya. Pada akhirnya, itulah kunci kepuasan pelanggan

Bagaimana cara kerjanya?

Dengan menandai tiket masuk secara otomatis, tim dukungan pelanggan dapat dengan mudah dan cepat mengidentifikasi tiket yang harus mereka tangani. Plus, mereka dapat mempersingkat waktu respons mereka, karena mereka tidak lagi bertanggung jawab atas pemberian tag

Ekstraksi kata kunci juga dapat digunakan untuk mendapatkan wawasan yang relevan dari percakapan dukungan pelanggan. Apakah pelanggan biasanya mengeluh tentang harga?

Berikut adalah contoh bagaimana kami menggunakan pembelajaran mesin untuk menganalisis interaksi dukungan pelanggan melalui Twitter dengan empat perusahaan telekomunikasi besar. Pertama, kami mengklasifikasikan tweet untuk setiap perusahaan berdasarkan sentimennya (Positif, Negatif, Netral). Kemudian, kami mengekstrak kata kunci yang paling relevan untuk memahami apa yang dibicarakan oleh tweet tersebut. Ini menghasilkan beberapa wawasan yang menarik

  • Mengenai komentar Negatif, semua perusahaan memiliki keluhan yang mengacu pada 'layanan pelanggan yang buruk', 'penerimaan yang buruk', dan 'harga tinggi'. Namun, beberapa kata kunci unik untuk setiap perusahaan. Tweet yang ditujukan ke T-Mobile mengeluh tentang kualitas 'layanan LTE' mereka, sementara tweet yang menyebutkan Verizon menyatakan ketidakpuasan dengan 'paket tak terbatas' mereka

  • Saat menganalisis tweet positif, kata kunci Verizon mengacu pada 'jaringan yang lebih baik', 'layanan pelanggan berkualitas', 'terima kasih', dll. Terakhir, kami terkejut saat mengetahui bahwa kata kunci T-Mobile sering kali merupakan nama perwakilan dukungan pelanggan, yang menunjukkan tingkat keterlibatan yang tinggi dengan penggunanya.

Timbal balik pelanggan

Survei online adalah alat yang ampuh untuk memahami perasaan pelanggan tentang produk Anda, menemukan peluang untuk peningkatan, dan mempelajari aspek mana yang paling mereka hargai atau kritik. Saat Anda memproses hasil survei dengan benar, Anda akan dipersenjatai dengan wawasan yang kuat untuk membuat keputusan bisnis berdasarkan data

Ya, Anda dapat menganalisis respons dengan cara kuno – membaca setiap respons dan menandai hasilnya secara manual. Namun, mari kita hadapi itu, memberi tag umpan balik secara manual adalah tugas yang memakan waktu dan sangat tidak efisien, yang sering menyebabkan kesalahan manusia;

Ekstraksi kata kunci adalah teknik yang sangat baik untuk dengan mudah mengidentifikasi kata dan frasa yang paling representatif dalam respons pelanggan, tanpa harus memeriksanya secara manual.

Anda dapat menggunakan ekstraksi kata kunci untuk menganalisis respons NPS dan bentuk lain dari survei pelanggan

Analisis Respons NPS

Net Promoter Score (NPS) adalah salah satu cara paling populer untuk mengumpulkan umpan balik pelanggan dan mengukur loyalitas pelanggan. Pelanggan diminta untuk menilai produk atau layanan dari 0 hingga 10, berdasarkan pertanyaan. 'seberapa besar kemungkinan Anda merekomendasikan X kepada teman atau kolega?'. Ini akan membantu Anda mengkategorikan pelanggan sebagai promotor (skor 9-10), pasif (skor 7-8), dan pencela (skor 0-6)

Bagian kedua dari survei NPS adalah pertanyaan terbuka yang menanyakan pelanggan mengapa mereka memilih skor yang mereka pilih. Jawaban atas pertanyaan lanjutan ini biasanya berisi informasi yang paling penting. Di situlah kami akan menemukan wawasan yang paling menarik dan dapat ditindaklanjuti, karena menguraikan alasan untuk setiap skor, misalnya, “Anda memiliki produk yang luar biasa, tetapi ketidakmampuan untuk mengekspor data adalah pembunuh. ” Informasi ini membantu Anda memahami apa yang perlu Anda tingkatkan

Anda dapat menggunakan pembelajaran mesin untuk menganalisis umpan balik pelanggan dengan berbagai cara berdasarkan sentimen, ekstraksi kata kunci, deteksi topik, atau kombinasi dari semuanya. Berikut adalah contoh bagaimana Retently menggunakan MonkeyLearn untuk menganalisis respons NPS mereka. Dengan menggunakan pengklasifikasi teks, mereka menandai setiap respons ke dalam kategori yang berbeda, seperti Onboarding, Product UI, Ease of Use, dan Pricing

Namun, contoh lain menunjukkan bagaimana Promotor. io menggunakan ekstraksi kata kunci untuk mengidentifikasi istilah yang relevan dari respons NPS mereka. Perbedaan antara klasifikasi teks dan ekstraksi kata kunci adalah, alih-alih mengkategorikan teks dengan tag yang telah ditentukan sebelumnya, kata kunci dalam teks diekstraksi. Ini adalah kata kunci teratas yang mereka ekstrak dari tanggapan NPS mereka

Promoter.io Keywords

Seperti yang Anda lihat, lebih dari 80% pelanggan yang diberi label sebagai promotor, menyebutkan kata kunci yang terkait dengan layanan pelanggan. layanan, kualitas, layanan hebat, layanan pelanggan, layanan terbaik, dll. Ini dengan jelas menunjukkan apa yang paling disukai pelanggan tentang produk dan alasan utama skor tinggi mereka. Sebaliknya, pencela sering mengeluh tentang telepon dan harga, yang dapat berarti bahwa survei NPS mereka tidak ditampilkan dengan benar di telepon dan bahwa harga produk mereka lebih mahal daripada yang diharapkan pelanggan.

Menganalisis survei pelanggan

Ada banyak alat berbeda yang dapat Anda gunakan untuk mendapatkan umpan balik dari pelanggan Anda, mulai dari survei email hingga formulir online

SurveyMonkey, misalnya, adalah salah satu alat paling populer untuk membuat survei profesional. Anda dapat menggunakannya untuk mendapatkan wawasan dari pelanggan Anda dengan menambahkan pertanyaan terbuka dan menganalisis respons SurveyMonkey dengan AI. Dalam hal ini, ekstraksi kata kunci dapat berguna untuk memahami dengan mudah apa yang dirujuk pelanggan Anda dalam tanggapan negatif atau positif mereka. Misalnya, kata-kata seperti error, save data, dan changes mungkin memberi Anda petunjuk tentang beberapa masalah teknis yang perlu Anda selesaikan

Alat lain yang dapat membantu Anda mendapatkan pemahaman yang lebih dalam tentang pendapat pelanggan Anda adalah Typeform. Meskipun Anda dapat menggunakan teknik analisis teks yang berbeda untuk menganalisis respons Typeform, ekstraksi kata kunci dapat sangat membantu untuk mengidentifikasi kata dan frasa yang paling representatif. Sekelompok kata seperti biaya lisensi, mahal, dan model langganan, dapat menjelaskan masalah harga, misalnya

Intelijen bisnis

Ekstraksi kata kunci juga dapat berguna untuk tujuan intelijen bisnis (BI), seperti riset pasar dan analisis persaingan

Anda dapat memanfaatkan informasi dari semua jenis sumber, mulai dari ulasan produk hingga media sosial, dan mengikuti percakapan tentang topik yang diminati. Ini bisa sangat menarik jika Anda bersiap untuk meluncurkan produk baru atau kampanye pemasaran

Ekstraksi kata kunci juga dapat membantu Anda memahami opini publik terhadap suatu isu topikal dan bagaimana perkembangannya dari waktu ke waktu. Contohnya adalah mengekstraksi kata kunci yang relevan dari komentar di video YouTube yang mencakup perubahan iklim dan masalah lingkungan, untuk mempelajari opini pemangku kepentingan terhadap topik ini. Dalam hal ini, kata kunci memberikan konteks tentang bagaimana suatu masalah dibingkai dan dirasakan. Dikombinasikan dengan analisis sentimen, Anda dapat memahami perasaan di balik setiap pendapat

Terakhir, Anda dapat menggunakan ekstraksi kata kunci dan teknik analisis teks lainnya untuk membandingkan ulasan produk Anda dengan yang menyebutkan pesaing Anda. Hal ini memungkinkan Anda mendapatkan wawasan yang membantu Anda memahami titik kesulitan pasar target Anda dan membuat keputusan berdasarkan data untuk meningkatkan produk atau layanan Anda

Lihat bagaimana kami menganalisis banyak ulasan hotel di TripAdvisor dan menggunakan ekstraksi kata kunci untuk menemukan kesamaan dan perbedaan kata yang digunakan untuk mendeskripsikan hotel di berbagai kota

Misalnya, ini adalah 10 kata kunci teratas yang diambil dari ulasan hotel di New York, dengan sentimen buruk terhadap kebersihan

  • Kamar
  • Kamar mandi
  • Karpet
  • Handuk
  • Kutu busuk
  • Tempat tidur
  • Hotel
  • Mandi
  • Kamar mandi bersama
  • Dinding

Jika dibandingkan dengan kata kunci dari hotel di kota lain, kami menemukan bahwa keluhan tentang kamar mandi bersama hanya muncul di New York. Kecoak kata kunci, di sisi lain, unik untuk ulasan hotel Bangkok

Alat visualisasi kecerdasan bisnis, seperti MonkeyLearn Studio memungkinkan Anda mengumpulkan semua alat dan hasil analitik data Anda bersama-sama dalam satu dasbor yang mencolok

MonkeyLearn Studio dashboard showing results for intent classification and sentiment analysis in charts and graphs.

Di atas adalah analisis sentimen berbasis aspek MonkeyLearn Studio dari ulasan pelanggan Zoom. Visualisasi menunjukkan ulasan individu yang dikategorikan berdasarkan aspek (Kegunaan, Dukungan, Keandalan, dll. ), kemudian sentimen dianalisis untuk menunjukkan aspek mana yang dianggap positif dan mana yang negatif. Kata cloud di bagian bawah menunjukkan kata kunci paling penting yang diambil dari ulasan. Anda dapat mencoba untuk melihat semua yang ditawarkan

Optimisasi mesin pencari (SEO)

Salah satu tugas utama pengoptimalan mesin pencari (SEO) adalah menentukan kata kunci strategis yang perlu Anda targetkan di situs web Anda, untuk membuat konten

Ada segudang alat perangkat lunak pengelompokan kata kunci yang tersedia untuk penelitian kata kunci (Moz, SEMrush, Google Trends, Ahrefs, hanya untuk beberapa nama). Namun, Anda juga dapat memanfaatkan ekstraksi kata kunci untuk menyaring konten situs web secara otomatis dan mengekstrak kata kunci yang paling sering. Jika Anda mengidentifikasi kata kunci yang paling relevan yang digunakan oleh pesaing Anda, misalnya, Anda dapat menemukan beberapa peluang penulisan konten yang bagus. Dan saat Anda menggunakan teknik pengelompokan kata kunci semantik dan pengelompokan kata kunci untuk menggabungkan kata kunci dan frasa yang sering digunakan bersama, Anda akan unggul dalam persaingan

Kemajuan dalam NLP, seperti BERT Google (Bidirectional Encoder Representations from Transformers) membantu lebih memahami hubungan kata-kata dalam kueri penelusuran sehingga pengguna Google Penelusuran dapat mengajukan kueri dengan lebih banyak percakapan. Pandu Nayak dari Google menjelaskan bahwa BERT mampu memproses bagaimana kata-kata berhubungan dengan semua kata lain dalam sebuah kalimat, bukan hanya memprosesnya satu per satu. Hal ini memungkinkan pembelajaran mesin untuk lebih memahami konteks dan dapat berguna dalam SEO untuk membantu menulis teks yang percakapannya lebih alami, daripada mengemas kata kunci atau menggunakan SEO gaya pertanyaan/jawaban boilerplate

Ulasan produk dan jenis konten buatan pengguna lainnya dapat menjadi sumber yang bagus untuk menemukan kata kunci baru. Studi ini, misalnya, menganalisis ulasan produk dari perusahaan logistik terkemuka (seperti DHL atau FedEx) dan melakukan ekstraksi kata kunci untuk mengidentifikasi kata kunci strategis yang dapat digunakan untuk SEO perusahaan logistik.

Analisis produk

Bagi manajer produk, data adalah penggerak utama untuk mendukung setiap keputusan mereka. Umpan balik pelanggan dalam segala bentuknya ― mulai dari interaksi dukungan pelanggan hingga postingan media sosial dan tanggapan survei ― adalah kunci keberhasilan strategi produk berbasis data

Tapi apa cara terbaik untuk memproses volume besar data umpan balik pelanggan dan mengekstrak yang relevan?

Katakanlah Anda menganalisis interaksi pelanggan perangkat lunak Anda dan melihat lonjakan jumlah orang yang menanyakan cara menggunakan fitur X produk Anda. Ini mungkin berarti bahwa fitur tersebut tidak jelas dan Anda harus berupaya meningkatkan dokumentasi, UI, atau UX untuk fitur tersebut

Manajemen pengetahuan

Saat ini, lebih banyak informasi daripada sebelumnya tersedia secara online, namun 80% dari data tersebut tidak terstruktur, artinya tidak teratur, sulit dicari, dan sulit diproses. Beberapa bidang, seperti penelitian ilmiah dan perawatan kesehatan, dihadapkan pada sejumlah besar informasi yang tidak terstruktur, dan oleh karena itu, menyia-nyiakan potensinya yang sangat besar.

Ekstraksi kata kunci memungkinkan semua industri mengungkap pengetahuan baru dengan mempermudah pencarian, pengelolaan, dan akses konten yang relevan

Praktisi medis dan dokter, misalnya, perlu melakukan penelitian untuk menemukan bukti yang relevan untuk mendukung keputusan medis mereka. Meskipun ada begitu banyak data yang tersedia, sulit untuk menemukan yang paling relevan di lautan literatur medis. Mengekstrak kata kunci dan frasa kunci yang paling penting secara otomatis dari teks dapat sangat membantu, menghemat waktu dan sumber daya yang berharga

Berikut adalah studi tentang penggunaan ekstraksi kata kunci pada kumpulan data biomedis, yang juga mengeksplorasi kemungkinan meringkas bukti yang tersedia untuk menemukan jawaban yang paling memadai atas pertanyaan kompleks

Alat Ekstraksi Kata Kunci, Sumber Daya, dan Tutorial

Resources

Jika Anda bersemangat untuk memulai dengan ekstraksi kata kunci tetapi Anda tidak yakin ke mana harus pergi dulu di sini, Anda akan menemukan semua sumber daya yang diperlukan untuk memulai

Pertama, kami akan merekomendasikan beberapa buku dan makalah akademis untuk penjelasan lebih mendalam tentang metode dan algoritme ekstraksi kata kunci. Kemudian, kami akan membagikan beberapa API untuk ekstraksi kata kunci, termasuk pustaka sumber terbuka dan API SaaS

Terakhir, kami akan memberikan beberapa tutorial ekstraksi kata kunci yang dapat Anda ikuti agar Anda dapat memulai dan menjalankannya. Beberapa tutorial menunjukkan cara menjalankan ekstraksi kata kunci dengan pustaka sumber terbuka dengan Python dan R. Namun, jika Anda lebih suka menghemat waktu dan sumber daya, mungkin berguna untuk mencoba solusi yang sudah jadi

MonkeyLearn, misalnya, memiliki templat siap pakai yang dapat Anda selami langsung

Buku dan Makalah

Jika Anda mencari pendekatan yang lebih mendalam untuk ekstraksi kata kunci, membaca beberapa literatur yang ada tentang subjek terdengar seperti langkah logis berikutnya. Kita semua tahu bahwa meneliti buku dan makalah yang relevan bisa sangat melelahkan. Untuk membantu Anda dengan tugas ini, kami telah membuat daftar beberapa materi paling menarik yang terkait dengan ekstraksi kata kunci. Tandai untuk dibaca nanti atau segera mulai

API Ekstraksi Kata Kunci

Jadi, Anda siap mengambil langkah pertama dengan ekstraksi dan analisis kata kunci. Cara yang sulit (dan lebih kompleks) untuk dilakukan adalah mengembangkan seluruh sistem dari awal. Namun, ada solusi yang jauh lebih nyaman. mengimplementasikan algoritme ekstraksi kata kunci melalui API pihak ketiga yang ada

Ini Build vs. Beli Debat untuk membuat ekstraksi kata kunci khusus dan model analisis teks. gunakan untuk membangun model atau terhubung ke

Menggunakan pustaka sumber terbuka bisa sangat bagus jika Anda memiliki ilmu data dan pengkodean

latar belakang, tetapi mereka bisa mahal dan memakan banyak waktu. Alat SaaS, di sisi lain, dapat diimplementasikan segera, membutuhkan kode yang sangat sedikit, biaya jauh lebih murah, dan sepenuhnya dapat diskalakan

API SaaS

Keuntungan menggunakan SaaS API untuk ekstraksi kata kunci

  • Tidak ada penyiapan. Menggunakan perpustakaan sumber terbuka sering kali melibatkan pengaturan seluruh antarmuka pemrograman. Apakah Anda menggunakan Python atau R, Anda harus terbiasa dengan bahasa pemrograman dan menginstal alat dan dependensi tertentu. SaaS API, di sisi lain, membuat segalanya lebih cepat dan sederhana
  • Tidak ada kode. SaaS API adalah solusi siap pakai. Anda tidak perlu khawatir tentang hal-hal seperti kinerja atau arsitektur. Satu-satunya baris kode yang perlu Anda tulis adalah yang memanggil API dan mendapatkan hasil Anda (biasanya 10 baris atau kurang)
  • Integrasi yang mudah. Anda dapat dengan mudah mengintegrasikan API SaaS Anda dengan alat seperti Zendesk atau Google Sheets, membuat solusi ekstraksi kata kunci Anda menjadi lebih kuat

Beberapa API SaaS paling populer untuk alat ekstraksi kata kunci termasuk

  • MonkeyLearn
  • IBM Watson
  • Amazon Memahami
  • Aylien
  • Kortikal. io

MonkeyLearn

MonkeyLearn menawarkan seperangkat alat ekstraksi kata kunci SaaS yang dapat dipanggil hanya dengan beberapa baris kode dan mudah disesuaikan dengan bahasa dan kriteria bisnis Anda. Cobalah ekstraktor terlatih ini sekarang juga untuk melihat cara kerjanya

API MonkeyLearn sangat sederhana untuk pengenalan kata kunci Python (dan banyak lagi), dan yang terbaik, MonkeyLearn Studio memungkinkan Anda untuk menghubungkan semua analisis ini bersama-sama dan secara otomatis memvisualisasikannya untuk hasil yang mencolok – semua dilakukan dalam satu, mudah digunakan

IBM Watson

IBM Watson diciptakan untuk bekerja di berbagai industri dengan Watson Studio sebagai toko serba ada untuk pembuatan model ekstraksi kata kunci (dan lainnya) di platform cloud apa pun. Watson Speech-to-Text adalah standar industri untuk memformat percakapan suara yang direkam dan langsung menjadi teks tertulis

Amazon Memahami

Amazon Comprehend menawarkan API ekstraksi kata kunci terlatih yang terintegrasi dengan mulus ke dalam aplikasi yang ada. Karena Comprehend diimplementasikan dan diawasi oleh Amazon, tidak perlu membangun dan melatih model

AYLIEN

AYLIEN menawarkan tiga API dalam tujuh bahasa pemrograman utama. API Berita, API Analisis Teks, dan Platform Analisis Teks (TAP) dengan akses ke konten berita real-time dan kemampuan untuk membuat ekstraktor kata kunci khusus untuk kebutuhan apa pun

Kortikal. io

Kortikal. io adalah opsi kode rendah yang bagus untuk Java, Python, dan Javascript. Kortikal. io menggunakan "sidik jari semantik" untuk membuat representasi dari setiap kata, dan keseluruhan arti teks, untuk pengelompokan kata kunci semantik yang optimal

Perpustakaan sumber terbuka

Jika Anda tahu cara membuat kode, Anda dapat menggunakan pustaka sumber terbuka untuk menerapkan model ekstraksi kata kunci dari awal. Ada beberapa pustaka untuk Python dan R yang mungkin berguna untuk mendeteksi kata kunci yang dikelola oleh komunitas ilmu data yang aktif

Piton

Python adalah bahasa pemrograman yang paling sering digunakan dalam ilmu data, dikenal dengan sintaks yang mudah dimengerti. Adopsi luas Python di antara komunitas ilmu data telah didorong oleh daftar pustaka sumber terbuka yang terus bertambah untuk operasi matematika dan analisis statistik. Python memiliki komunitas yang berkembang pesat dan sejumlah besar pustaka sumber terbuka untuk tugas analisis teks, termasuk NLTK, scikit-learn, dan spaCy

MENYAPU

RAKE adalah pustaka Python lama tetapi banyak digunakan untuk mengekstraksi kata kunci. Pustaka ini mengimplementasikan algoritme Rapid Automatic Keyword Extraction (RAKE), seperti yang dijelaskan dalam makalah ini. Ikuti di sini untuk implementasi Python

NLTK

Natural Language Toolkit, juga dikenal sebagai NLTK, adalah pustaka sumber terbuka populer untuk Python untuk menganalisis data bahasa manusia. NLTK menyediakan antarmuka yang mudah digunakan untuk membuat model ekstraksi kata kunci, dan juga berguna untuk melatih model klasifikasi, tokenisasi, stemming, parsing, dan tugas analisis teks lainnya

RAKE NLTK

RAKE NLTK adalah implementasi Python spesifik dari algoritma Rapid Automatic Keyword Extraction (RAKE) yang menggunakan NLTK di bawah tenda. Ini membuatnya lebih mudah untuk memperluas dan melakukan tugas analisis teks lainnya

Scikit-Pelajari

Scikit-Learn adalah salah satu pustaka sumber terbuka yang paling banyak digunakan untuk pembelajaran mesin. Pustaka ini menyediakan alat yang dapat diakses untuk melatih model NLP untuk klasifikasi, ekstraksi, regresi, dan pengelompokan. Selain itu, ia menyediakan kemampuan berguna lainnya seperti pengurangan dimensi, pencarian kisi, dan validasi silang. Scikit-Learn memiliki komunitas besar dan banyak tutorial untuk membantu Anda memulai

spaCy

Pustaka NLP bagus lainnya untuk Python adalah spaCy. Sedikit lebih baru dari NLTK atau Scikit-Learn, perpustakaan ini berspesialisasi dalam menyediakan cara mudah untuk menggunakan pembelajaran mendalam untuk menganalisis data teks

R

R adalah bahasa pemrograman yang paling banyak digunakan untuk analisis statistik. Ini juga memiliki komunitas yang sangat aktif dan membantu. Popularitas R dalam ilmu data dan pembelajaran mesin terus meningkat, dan memiliki beberapa paket hebat untuk ekstraksi kata kunci

RKEA

RKEA adalah paket untuk mengekstraksi kata kunci dan frasa kunci dari teks menggunakan R. Di balik layar, RKEA menyediakan antarmuka R ke KEA, algoritme ekstraksi kata kunci yang awalnya diterapkan di Java dan tidak bergantung pada platform

Textrank

Textrank adalah paket R untuk meringkas teks dan mengekstraksi kata kunci. Algoritme menghitung bagaimana kata-kata terkait satu sama lain dengan melihat apakah kata-kata mengikuti satu sama lain. Kemudian, ia menggunakan algoritme PageRank untuk memberi peringkat kata-kata terpenting dari teks

Tutorial

Cukup dengan teorinya, sekarang saatnya mencoba sendiri ekstraksi kata kunci. Latihan menjadi sempurna, itu fakta, dan ini terutama benar dalam hal pembelajaran mesin

Di sini Anda akan menemukan beberapa tutorial yang mudah dan bermanfaat untuk membuat model ekstraksi kata kunci pertama Anda. Pertama, kami akan membagikan beberapa petunjuk untuk melakukan ekstraksi kata kunci dengan pustaka sumber terbuka seperti Python dan R. Terakhir, bagi mereka yang tidak memiliki keterampilan pemrograman atau hanya ingin segera memulai, Anda dapat mempelajari cara menggunakan template sentimen dan kata kunci MonkeyLearn

Tutorial Menggunakan Perpustakaan Sumber Terbuka

Pustaka open source sangat bagus berkat fleksibilitas dan kemampuannya, tetapi terkadang sulit untuk memulai. Berikut ini adalah daftar tutorial yang akan membantu Anda menerapkan sistem ekstraksi kata kunci dari awal menggunakan framework open-source

Piton

MENYAPU

Jika Anda mencari panduan langkah demi langkah tentang cara menggunakan RAKE, Anda harus melihat tutorial ini. Panduan ini menjelaskan cara mengekstrak kata kunci dan frasa kunci dari awal menggunakan implementasi RAKE di Python

Scikit-belajar

Lihat tutorial ini yang menjelaskan cara menggunakan Scikit-learn untuk mengekstrak kata kunci dengan TF-IDF. Pastikan untuk memeriksa dokumentasi scikit-learn, yang juga menyediakan sumber daya yang akan membantu Anda memulai perpustakaan ini

SpaCy

Panduan ini akan menunjukkan kepada Anda proses langkah demi langkah tentang cara melakukan ekstraksi kata kunci menggunakan spaCy. Tutorial ini membahas bagaimana generator n-gram dan skip-gram dapat membantu Anda menghasilkan kata kunci atau frasa potensial dari teks. Jika Anda tertarik untuk mempelajari lebih lanjut tentang spaCy, lihat spaCy 101, yang menjelaskan konsep terpenting dalam spaCy secara sederhana

R

Dalam tutorial ini, Anda dapat mempelajari cara menggunakan paket RKEA di R untuk mengekstrak kata kunci. Ini membahas cara memuat paket, cara membuat model ekstraksi kata kunci dari awal, dan cara menggunakannya untuk menganalisis teks dan mendapatkan kata kunci secara otomatis

Tutorial Ekstraksi Kata Kunci Dengan MonkeyLearn

Selami ekstraksi kata kunci dengan ekstraktor terlatih MonkeyLearn atau selangkah lebih maju dan gunakan analisis sentimen dan templat kata kunci kami

Berikut cara menggunakan template MonkeyLearn

1. Pilih template Kata Kunci + Analisis Sentimen

Choose template.

2. Unggah data teks Anda

Upload your data.

Jika Anda tidak memiliki CSV, gunakan kumpulan data sampel kami

3. Cocokkan kolom CSV dengan bidang dasbor

Match columns to fields.

Dalam template ini, hanya ada satu field. teks. Jika Anda memiliki lebih dari satu kolom dalam kumpulan data, pilih kolom yang memiliki teks yang ingin Anda analisis

4. Beri nama alur kerja Anda

Name workflow.

5. Tunggu data Anda untuk diimpor

Wait for data to import.

6. Jelajahi dasbor Anda

Explore dashboard.

Kamu bisa

  • Filter berdasarkan sentimen atau kata kunci
  • Bagikan melalui email dengan rekan kerja lainnya

Kata Akhir

Ekstraksi kata kunci adalah cara terbaik untuk menemukan apa yang relevan dalam kumpulan data besar. Hal ini memungkinkan bisnis di bidang apa pun untuk mengotomatiskan proses kompleks yang jika tidak dilakukan akan sangat memakan waktu dan kurang efektif (dan, dalam beberapa kasus, sama sekali tidak mungkin dilakukan secara manual). Anda telah melihat kemungkinan yang ditawarkan ekstraksi kata kunci untuk dukungan pelanggan, manajemen media sosial, riset pasar, dan banyak lagi. Anda bisa mendapatkan wawasan berharga untuk membuat keputusan bisnis yang lebih baik

Sekarang saatnya membawa hal-hal ke tingkat berikutnya dan mulai menggunakan ekstraksi kata kunci untuk memaksimalkan data teks Anda. Seperti yang Anda ketahui, mengambil langkah pertama dengan MonkeyLearn bisa sangat mudah. Ingin mencobanya? . Cari tahu cara memanfaatkan ekstraksi kata kunci dan teknik analisis teks yang lebih canggih untuk mendapatkan hasil maksimal dari data Anda

Bagaimana cara mengekstrak nilai tertentu dari string dengan Python?

Ringkasan. Untuk mengekstrak angka dari string yang diberikan dengan Python, Anda dapat menggunakan salah satu metode berikut. .
Gunakan modul regex
Gunakan fungsi split() dan append() pada daftar
Gunakan Pemahaman Daftar dengan fungsi isdigit() dan split()
Gunakan modul num_from_string

Bagaimana cara menemukan kata tertentu dalam file teks Python?

Gunakan metode file read() dan metode string class find() untuk mencari string dalam file teks.

Bagaimana Anda mendapatkan kata tertentu dari sebuah string?

Untuk menemukan kata dalam string, kita menggunakan metode indexOf() dan contains() dari kelas String . Metode indexOf() digunakan untuk menemukan indeks dari substring yang ditentukan dalam string ini. Ini mengembalikan bilangan bulat positif sebagai indeks jika substring ditemukan selain mengembalikan -1.