Pendahuluan

Klasifikasi Kalimat Mutiara Berbahasa Indonesia Pada Twitter Dengan Menggunakan Naïve Bayes dan Multinomial Naive Bayes

Indonesia 18 09 2020

Pendahuluan

Twitter yang merupakan salah satu blog mikro yang terkenal adalah layanan jejaring sosial yang memungkinkan pengguna untuk berbagi informasi dalam bentuk teks singkat 280 karakter. Pengguna Twitter sangat banyak sekali dan dari berbagai kalangan, setiap pengguna dapat berlangganan untuk menerima pesan dari pengguna lain dengan menjadi ‘pengikut’. Twitter telah berperan penting dalam memberikan informasi kepada pengguna dan juga telah mengubah cara orang menyampaikan informasi salah satunya yaitu penyampaian kutipan atau kalimat mutiara, yaitu kalimat yang dibuat dengan harapan seseorang bisa menjadi pribadi-pribadi yang kuat, pribadi-pribadi yang selalu memperbaiki diri untuk maju dan meraih kesuksesan. Kalimat mutiara di tulis dan di sampaikan agar dapat memberi manfaat bagi para pembacanya, sehingga akan selalu menjadi orang orang yang selalu maju menuju kesuksesan tanpa harus kehilangan jadi diri.

Namun, kalimat mutiara yang diposting pada Twitter memerlukan upaya untuk menemukannya. Meskipun mencari dengan kata kunci pada Twitter, hasil tweet yang di tampilkan tidak semua merupakan kalimat mutiara.

Untuk mendapatkan kalimat mutiara pengguna harus membaca tweet tersebut satu persatu untuk memastikan apakah tweet tersebut merupakan kalimat mutiara atau bukan.

Pengguna kemudian juga perlu menyeleksi apakah tweet tersebut merupakan kalimat mutiara yang sesuai dengan yang dicari misalnya ingin mencari kalimat mutiara tentang cinta, kehidupan, motivasi, agama, pendidikan dan lainnya.

Untuk meringankan masalah ini dan untuk menyampaikan data kalimat mutiara secara efektif, penelitian ini diharapkan dapat menghasilkan aplikasi web yang dapat mengumpulkan dan mengelompokkan kalimat mutiara bahasa Indonesia dari data yang diperoleh melalui Twitter dengan menggunakan metode klasifikasi Naïve Bayes dan Multinomial Naive Bayes.

Metode

Uji coba dilakukan mengambil data dari twitter menggunakan API yang disediakan oleh twitter dengan bahasa pemrograman PHP. Data tersebut akan di ambil secara acak 1700 data tweet, kemudian dibagi menjadi 1500 data digunakan sebagai data label dan 200 data sebagai data testing.

Data label yang berupa pasangan tweet dan kelas dijadikan sebagai sumber pembentukan model analisis. Setiap fitur yang merepresentasikan tweet dihitung probabilitas kemunculannya. Setelah dilakukan pelabelan manual kemudian tweet tersebut diproses untuk tahap awal preprocessing dengan melakukan Tokenisasi, Normalisasi Fitur, Case Folding, Clean Number, Stopword Removal, dan Stemming.

Dari hasil preposesing tersebut akan mendapatkan tweet yang bersih, dan selanjutnya dapat dilakukan proses pembobotan untuk mendapatkan probabilitas. Probabilitas yang didapatkan yaitu probabilitas mengenali kalimat mutiara atau bukan dan probabilitas 6 kategori(Cinta, Kehidupan, Motivasi, Agama, Pendidikan, Lainnya) untuk jenis kalimat mutiara dengan menggunakan metode klasifikasi Naive Bayes dan Multinomial Naive Bayes Figure 1.

Figure 1 Rumus Probabilitas

Dimana:

P = Probabilitas

c = Kelas

N = Jumlah

w = Kata pada dokumen

v = Jumlah kata unik dalam dokumen kelas

d = Dokumen ke-n

k = Jumlah kata pada dokumen

Sebelum melakukan klasifikasi maka perlu dilakukan tahap preproses dimana tahap ini adalah pengolahan data mentah yang nantinya akan dipakai baik untuk data label ataupun data uji yang berasal dari blog mikro Twitter yang di ambil menggunakan API Twitter, praproses sangat berguna karena dapat mengurangi ukuran index, menambah akurasi serta mendukung proses klasifikasi. Tahap yang dilakukan meliputi Tokenisasi, Normalisasi Fitur, Case Folding, Clean Number, Stopword Removal, dan Stemming.

Setelah tahap preprocessing langkah selanjutnya pembentukan model analisis menggunakan metode pembelajaran mesin Naïve Bayes dan Multinomial Naïve Bayes untuk pembentukan model. Setiap fitur yang merepresentasikan tweet dihitung probabilitas kemunculannya di kelas yang termasuk tweet kalimat mutiara atau tweet yang termasuk bukan kalimat mutiara, apabila kalimat tersebut termasuk kalimat mutiara kemudian di representasikan probabilitasnya lagi ke setiap dokumen untuk setiap masing-masing kategori kalimat mutiara (Cinta, Kehidupan, Motivasi, Agama, Pendidikan, Lainnya). Ketika ada tweet baru yang ingin diklasifikasikan, maka nilai probabilitas dari setiap fitur untuk masing-masing kelas dikalikan. Nilai probabilitas yang paling besar akan dijadikan kelas tweet baru tersebut Figure 2.

Figure 2 Arsitektur Sistem Web

Hasil

Figure 3 menunjukkan proses pembuatan data latih dimana terdapat proses (Tokenisasi, Normalisasi, Case Folding, Clean Number, Stopword Removal, Stemming). Praproses dilakukan pada setiap dokumen tweet yang masuk.

Figure 3 <bold id="bold-f919ab84e58d20aa7c5aff22493eeca3"/>Praproses Dokumen Tweet

Figure 4 menunjukkan proses pembuatan nilai probabilitas. Setiap kata dihitung untuk mendapatkan probabilitasnya menggunakan perhitungan Naive Bayes dan Multinomial Naive Bayes.

Figure 4 <bold id="bold-2092d59b9bbe5250e7abeac02069ced2"/>Praproses Dokumen Tweet 2

Figure 5 menujukkan hasil dari proses klasifikasi kalimat mutiara pada twitter yang telah di proses menggunakan Naive Bayes dan Multinomial Naive Bayes yang telah di klasifikasi kedalam enam kelas (Cinta, Kehidupan, Motivasi, Religi, Pendidikan, Lainnya).

Figure 5 <bold id="bold-c47ecf89039eec654e61d74beecc5e3a"/>Aplikasi Website Hasil Klasifikasi

Figure 5 mengkonfirmasi bahwa penelitian ini efektif untuk mengklasifikasikan kutipan bahasa Indonesia. Hasil percobaan ini juga memberikan aplikasi web kumpulan kutipan bahasa Indonesia yang telah diklasifikasikan. Klasifikasi ini memudahkan pengguna dalam mencari kutipan berdasarkan kelas atau kata kunci. Misalnya, ketika pengguna ingin mencari kutipan 'motivasi', klasifikasi ini akan sangat berguna.

Kesimpulan

Dari hasil penelitian dan berdasarkan atas hipotesa penelitian, maka dapat ditarik beberapa kesimpulan sebagai berikut:

Metode Naïve Bayes dan Multinomial Naïve Bayes yang diusulkan terbukti mampu melakukan klasifikasi dokumen kalimat mutiara pada twitter.

Dengan Menggunakan metode klasifikasi teks yaitu metode Naïve Bayes Classifier, dari segi kecocokan jenis kelas yang dihasilkan oleh Naive Bayes Classifier terhadap penentuan jenis kelas pada media sosial twitter tergolong baik. Prosentasi kecocokan jenis kelas terhadap 200 data uji sebesar 81% untuk Naïve Bayes dan 87% untuk Multinomial Naïve Bayes.

Dengan pengklasifikasian data tweet menggunakan metode Naïve Bayes Classifier, dapat meningkatkan efektifitas pengguna dalam menyeleksi kalimat mutiara dan dapat memper cepat pencairan kalimat mutiara yang sebelumnya harus memilih jenis kelas secara manual pada saat pencarian di twitter.