ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN

Isi Artikel Utama

Ahmad Fauzidan Yahya Khainur
https://orcid.org/0009-0008-0942-6581
Taufiqurrohman Yuares
Muhammad Hafiz Fathurrohman
Widianingsih
Chaerur Rozikin

Abstrak

Pertumbuhan data teks tidak terstruktur menuntut metode pra-pemrosesan (preprocessing) yang efektif untuk analisis sentimen. Penelitian ini mengembangkan dan membandingkan dua pipeline automasi pembersihan data (data cleaning) berbasis Python menggunakan dataset IMDB Movie Reviews (50.000 sampel). Pipeline pertama menerapkan pendekatan Berbasis Aturan (Rule-Based) menggunakan ekspresi reguler (Regex), sedangkan pipeline kedua menerapkan pendekatan Berbasis Lemmatisasi menggunakan pustaka NLTK. Kualitas data hasil pembersihan dievaluasi menggunakan algoritma Multinomial Naive Bayes dan Logistic Regression dengan ekstraksi fitur TF-IDF (Unigram dan Bigram). Hasil eksperimen menunjukkan bahwa pendekatan Berbasis Aturan (Regex) secara signifikan lebih efisien dalam waktu komputasi (8,87 detik vs 38,43 detik) dan menghasilkan akurasi yang sedikit lebih tinggi (89,43% vs 88,93% pada Logistic Regression) dibandingkan pendekatan Lemmatisasi. Penelitian ini menyimpulkan bahwa untuk analisis sentimen pada dataset ulasan film berskala besar, pembersihan data sederhana berbasis pola (pattern-based) lebih efektif dan efisien daripada normalisasi linguistik yang kompleks, serta menegaskan pentingnya pemilihan teknik preprocessing yang tepat dalam siklus hidup rekayasa data.

Rincian Artikel

Cara Mengutip
[1]
A. F. Y. Khainur, T. Yuares, M. H. Fathurrohman, Widianingsih, dan C. Rozikin, “ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN”, JTM, vol. 14, no. 2, hlm. 141–149, Des 2025.
Bagian
Articles

Referensi

[1] “Text Mining in Big Data Analytics,” MDPI Journals, [Daring]. Tersedia pada: https://www.mdpi.com/2504-2289/4/1/1

[2] I. Idris, “Analisis Sentimen Terhadap Penggunaan Aplikasi Shopee Mengunakan Algoritma Support Vector Machine (SVM),” Jambura J. Electr. Electron. Eng., [Daring]. Tersedia pada: https://ejurnal.ung.ac.id/index.php/jjeee/article/view/16830

[3] I. Clemence, “Day 47: Sentiment Analysis Using Python Libraries,” 2025. [Daring]. Tersedia pada: https://ianclemence.medium.com/day-47-sentiment-analysis-using-python-libraries-a2447c6154d8

[4] A. Al-Sallab, “A Survey on Data Cleaning Methods for Improved Machine Learning Model Performance,” 2021.

[5] A. Upadhye, “A Comprehensive Survey of Text Data Cleaning Techniques: Challenges, Methods, and Best Practices,” J. Sci. Eng. Res., vol. 7, no. 8, hal. 205–210, 2020.

[6] M. A. Waskom, “The Importance of Data Cleaning in Machine Learning: Best Practices and Techniques,” 2024. [Daring]. Tersedia pada: https://www.researchgate.net/publication/385173406_The_Importance_of_Data_Cleaning_in_Machine_Learning_Best_Practices_and_Techniques

[7] “A Comparative Study on Data Cleaning Approaches in Sentiment Analysis.” [Daring]. Tersedia pada: https://www.researchgate.net/publication/342156562_A_Comparative_Study_on_Data_Cleaning_Approaches_in_Sentiment_Analysis

[8] M. A. Ogunlese dan et al., “An Automated Python Script for Data Cleaning and Labeling using Machine Learning Technique,” Informatica, vol. 47, hal. 219–232, 2023.

[9] “Automated Rule-Based Data Cleaning Using NLP.” [Daring]. Tersedia pada: https://www.researchgate.net/publication/365834184_Automated_Rule-Based_Data_Cleaning_Using_NLP

[10] Codefinity, “A Comprehensive Guide to Sentiment Analysis with Python.” [Daring]. Tersedia pada: https://codefinity.com/blog/A-Comprehensive-Guide-to-Sentiment-Analysis-with-Python

[11] DataCamp, “NLTK Sentiment Analysis Tutorial: Text Mining & Analysis in Python.” [Daring]. Tersedia pada: https://www.datacamp.com/tutorial/text-analytics-beginners-nltk

[12] S. Gupta, “Text Cleaning in Python: Effective Data Cleaning Tutorial,” 2023. [Daring]. Tersedia pada: https://docs.kanaries.net/topics/Python/text-cleaning-python

[13] Intel, “Four Data Cleaning Techniques to Improve Large Language Model (LLM) Performance,” 2024. [Daring]. Tersedia pada: https://medium.com/intel-tech/four-data-cleaning-techniques-to-improve-large-language-model-llm-performance-77bee9003625

[14] “Sentiment Analysis of Indonesian Society Toward the Launch of iPhone 16 Using Naive Bayes, Random Forest, and KNN Algorithms,” J. Kom., [Daring]. Tersedia pada: https://penerbitadm.pubmedia.id/index.php/KOMITEK/article/view/2219

[15] Y. A. Rahman dan dkk., “Analisis Sentimen Terhadap Ulasan Pengguna Aplikasi Threads Instagram di Playstore Menggunakan Algoritma Naive Bayes,” JITET (Jurnal Inform. dan Tek. Elektro Ter., vol. 11, no. 2, hal. 1–7, 2023.

[16] R. Rahmadani, A. Rahim, dan R. Rudiman, “Analisis Sentimen Ulasan ‘Ojol the Game’ di Google Play Store Menggunakan Algoritma Naive Bayes dan Model Ekstraksi Fitur TF-IDF untuk Meningkatkan Kualitas Game,” J. Inform. dan Tek. Elektro Terap., vol. 12, no. 3, 2024, [Daring]. Tersedia pada: https://jurnal.unimed.ac.id/2012/index.php/JITET/article/view/41554