Optimization of the Stemming Technique on Text Preprocessing President 3 Periods Topic

M. Ulil Albab, Yohana Karuniawati P., Mohammad Nur Fawaiq

Abstract


Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Penelitian ini bertujuan untuk melakukan tahapan text pre-processing pada data twitter yang menyebutkan topik Presiden 3 Periode , yaitu sebanyak 797 data yang didapatkan dari crawling twitter mulai tanggal 15 April 2022 sampai dengan 30 April 2022, sekaligus melakukan optimasi salah satu teknik stemming terhadap teks berbahasa Indonesia yang memang belum banyak dilakukan. Banyaknya kata yang diolah sebanyak 9401 kata. Optimasi yang dilakukan yaitu dengan memodifikasi kamus bahasa dan menambahkan kata-kata yang dimasukkan dalam stopword sehingga dapat menghasilkan jumlah kata ter-stemming yang semakin meningkat. Sebelum dilakukan optimasi, prosentase keberhasilan stemming mencapai 95,86%, setelah dilakukan optimasi meningkat menjadi 99,93%.

Keywords


optimasi; teknik stemming; text preprocessing; 3 periode; media twitter

References


R. B. S. Putra and E. Utami, Non-formal affixed word stemming in Indonesian language, 2018 Int. Conf. Inf. Commun. Technol. ICOIACT 2018, vol. 2018-January, pp. 531 536, 2018, doi: 10.1109/ICOIACT.2018.8350735.

Nasution, Nana Nerina, Sistem Pengumpulan Data Publikasi Ilmiah Menggunakan Web Crawling Program Studi Teknologi Informasi, Universitas Sumatera Utara : 2020.

Oumaima Oueslati, et al., A review of sentiment analysis research in Arabic language, Future Generat. Comput. Syst. (2020), 2020.

Ronal Watrianthos, Samsir, Basyarul Ulya, Junaidi Mustapa Harahap, Deci Irmayani, Firman Edi, Jupriaman, Rizki Kurniawan Rangkuti (2021) , Naives Bayes Algorithm for Twitter Sentiment Analysis, https://iopscience.iop.org/article/10.1088/1742-6596/1933/1/012019/pdf

Murnawan, M. (2017). Pemanfaatan Analisis Sentimen Untuk Pemeringkatan Popularitas Tujuan Wisata. Jurnal Penelitian Pos dan Informatika, 7(2), 109-120. https://202.89.117.131/index.php/jppi/article/viewFile/070203/99

E. J. Rifano, Abd. C. Fauzan, A. Makhi, E. Nadya, Z. Nasikin, and F. N. Putra, Text Summarization Menggunakan Library Natural Language Toolkit (NLTK) Berbasis Pemrograman Python, ILKOMNIKA: Journal of Computer Science and Applied Informatics, vol. 2, no. 1, pp. 8 17, Apr. 2020, doi: 10.28926/ilkomnika.v2i1.32.

A. Y. Permana and M. M. Effendi, Optimasi Stemming Porter KBBI dan Cross Validation Na ve Bayes untuk Klasifikasi Topik Soal UN Bahasa Indonesia, J. Ilm. Komputasi, vol. 17, no. 4, 2018, doi: 10.32409/jikstik.17.4.2492.

Rezalina, O. (2016). Perbandingan Algoritma Stemming Nazief & Adriani, Porter dan Arifin Setiono untuk Dokumen Teks Bahasa Indonesia (Doctoral Dissertation, Universitas Muhammadiyah Jember). (Diakses 13 Mei 2022)

Ningrum, B. C. (2019). Perbandingan Algoritma Stemming untuk Bahasa Indonesia dengan Parameter Akurasi dan Waktu Proses. (Diakses 13 Mei 2022)

Databoks Katadata. (2022). Pengguna Twitter Indonesia Masuk Daftar Terbanyak di Dunia, Urutan Berapa? https://databoks.katadata.co.id/datapublish/2022/03/23/pengguna-twitter-indonesia-masuk-daftar-terbanyak-di-dunia-urutan-berapa

Putra, R. B. S., Utami, E., & Raharjo, S. (2018). Optimalisasi Stemming Kata Berimbuhan Tidak Baku Pada Bahasa Indonesia Dengan Levenshtein Distance. Jurnal Informatika: Jurnal Pengembangan IT, 3(2), 200-205. http://ejournal.poltektegal.ac.id/index.php/informatika/article/download/877/696

Amrullah, A. Z., Anas, A. S., & Hidayat, M. A. J. (2020). Analisis Sentimen Movie Review Menggunakan Naive Bayes Classifier Dengan Seleksi Fitur Chi Square. Jurnal Bumigora Information Technology (BITe), 2(1), 40-44. https://journal.universitasbumigora.ac.id/index.php/bite/article/download/804/527

Anwar, M. S., Subroto, I. M. I., & Mulyono, S. (2020). Sistem Pencarian E-Journal Menggunakan Metode Stopword Removal dan Stemming Berbasis Android. Prosiding Konstelasi Ilmiah Mahasiswa Unissula (KIMU) Klaster Engineering. http://lppm-unissula.com/jurnal.unissula.ac.id/index.php/kimueng/article/download/8420/3887

Mahendrajaya, R., Buntoro, G. A., & Setyawan, M. B, 2019, Analisis Sentimen Pengguna Gopay Menggunakan Metode Lexicon Based Dan Support Vector Machine. Komputek : Jurnal Teknik Universitas Muhammadiyah Ponorogo, No.2, Vol.3, 52 63. Doi: http://studentjournal.umpo.ac.id/index.php/komputek/article/view/270




DOI: http://dx.doi.org/10.26623/transformatika.v20i2.5374

Refbacks

  • There are currently no refbacks.


| View My Stats |

Jurnal Transformatika : Journal Information Technology  by  Department of Information Technology, Faculty of Information Technology and Communication, Semarang University  is licensed under a  Creative Commons Attribution 4.0 International License.