Dalam modul ini, Anda mengunduh dataset, menjalankan praproses dataset, memisahkan dataset ke pelatihan dan validasi, kemudian mengeksekusi dataset di bucket Amazon S3 Anda. Waktu untuk Menyelesaikan Modul: 20 Menit Model ML Anda akan dilatih di dataset 20newsgroups yang berisi 20.000 postingan grup berita berisi 20 topik. Dataset 20newsgroups dikuratori oleh Carnegie Mellon, University School of Computer Science, dan tersedia secara umum dari scikit-learn.
Dalam modul ini, Anda mengimpor dan mengambil dataset yang Anda gunakan untuk sistem rekomendasi konten. Kemudian, Anda menyiapkan dataset melalui prapemrosesan, lematisasi, dan tokenisasi. Terakhir, Anda memisahkan dataset menjadi set pelatihan dan validasi, kemudian menjalankannya di bucket Amazon S3 Anda. Di modul berikutnya, Anda melatih model topik dengan Algoritme NTM Amazon SageMaker dan menerapkan model tersebut ke Amazon SageMaker. Dukungan AWS dukungan untuk Internet Explorer berakhir pada 07/31/2022. Peramban yang didukung adalah Chrome, Firefox, Edge, dan Safari. Pelajari selengkapnya » |