ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN

Ahmad Fauzidan Yahya Khainur; Taufiqurrohman Yuares; Muhammad Hafiz Fathurrohman; Widianingsih; Chaerur Rozikin

doi:10.51351/jtm.14.2.2025890

PDF

Diterbitkan: Des 10, 2025

DOI: https://doi.org/10.51351/jtm.14.2.2025890

Kata Kunci:

Analisis Sentimen, Pembersihan Data, Automasi, Python, Naive Bayes

Ahmad Fauzidan Yahya Khainur

Universitas Singaperbangsa Karawang

https://orcid.org/0009-0008-0942-6581

Taufiqurrohman Yuares

Muhammad Hafiz Fathurrohman

Widianingsih

Chaerur Rozikin

Abstrak

Pertumbuhan data teks tidak terstruktur menuntut metode pra-pemrosesan (preprocessing) yang efektif untuk analisis sentimen. Penelitian ini mengembangkan dan membandingkan dua pipeline automasi pembersihan data (data cleaning) berbasis Python menggunakan dataset IMDB Movie Reviews (50.000 sampel). Pipeline pertama menerapkan pendekatan Berbasis Aturan (Rule-Based) menggunakan ekspresi reguler (Regex), sedangkan pipeline kedua menerapkan pendekatan Berbasis Lemmatisasi menggunakan pustaka NLTK. Kualitas data hasil pembersihan dievaluasi menggunakan algoritma Multinomial Naive Bayes dan Logistic Regression dengan ekstraksi fitur TF-IDF (Unigram dan Bigram). Hasil eksperimen menunjukkan bahwa pendekatan Berbasis Aturan (Regex) secara signifikan lebih efisien dalam waktu komputasi (8,87 detik vs 38,43 detik) dan menghasilkan akurasi yang sedikit lebih tinggi (89,43% vs 88,93% pada Logistic Regression) dibandingkan pendekatan Lemmatisasi. Penelitian ini menyimpulkan bahwa untuk analisis sentimen pada dataset ulasan film berskala besar, pembersihan data sederhana berbasis pola (pattern-based) lebih efektif dan efisien daripada normalisasi linguistik yang kompleks, serta menegaskan pentingnya pemilihan teknik preprocessing yang tepat dalam siklus hidup rekayasa data.

Cara Mengutip

[1]

A. F. Y. Khainur, T. Yuares, M. H. Fathurrohman, Widianingsih, dan C. Rozikin, “ANALISIS KOMPARATIF EFEKTIVITAS PIPELINE DATA CLEANING BERBASIS ATURAN DAN LEMMATISASI UNTUK KLASIFIKASI SENTIMEN”, JTM, vol. 14, no. 2, hlm. 141–149, Des 2025.

Terbitan

Vol 14 No 2 (2025): Jurnal TIMES

Bagian

Articles

Artikel ini berlisensiCreative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Copyright (c) STMIK TIME

Referensi

[1] “Text Mining in Big Data Analytics,” MDPI Journals, [Daring]. Tersedia pada: https://www.mdpi.com/2504-2289/4/1/1

[2] I. Idris, “Analisis Sentimen Terhadap Penggunaan Aplikasi Shopee Mengunakan Algoritma Support Vector Machine (SVM),” Jambura J. Electr. Electron. Eng., [Daring]. Tersedia pada: https://ejurnal.ung.ac.id/index.php/jjeee/article/view/16830

[3] I. Clemence, “Day 47: Sentiment Analysis Using Python Libraries,” 2025. [Daring]. Tersedia pada: https://ianclemence.medium.com/day-47-sentiment-analysis-using-python-libraries-a2447c6154d8

[4] A. Al-Sallab, “A Survey on Data Cleaning Methods for Improved Machine Learning Model Performance,” 2021.

[5] A. Upadhye, “A Comprehensive Survey of Text Data Cleaning Techniques: Challenges, Methods, and Best Practices,” J. Sci. Eng. Res., vol. 7, no. 8, hal. 205–210, 2020.

[6] M. A. Waskom, “The Importance of Data Cleaning in Machine Learning: Best Practices and Techniques,” 2024. [Daring]. Tersedia pada: https://www.researchgate.net/publication/385173406_The_Importance_of_Data_Cleaning_in_Machine_Learning_Best_Practices_and_Techniques

[7] “A Comparative Study on Data Cleaning Approaches in Sentiment Analysis.” [Daring]. Tersedia pada: https://www.researchgate.net/publication/342156562_A_Comparative_Study_on_Data_Cleaning_Approaches_in_Sentiment_Analysis

[8] M. A. Ogunlese dan et al., “An Automated Python Script for Data Cleaning and Labeling using Machine Learning Technique,” Informatica, vol. 47, hal. 219–232, 2023.

[9] “Automated Rule-Based Data Cleaning Using NLP.” [Daring]. Tersedia pada: https://www.researchgate.net/publication/365834184_Automated_Rule-Based_Data_Cleaning_Using_NLP

[10] Codefinity, “A Comprehensive Guide to Sentiment Analysis with Python.” [Daring]. Tersedia pada: https://codefinity.com/blog/A-Comprehensive-Guide-to-Sentiment-Analysis-with-Python

[11] DataCamp, “NLTK Sentiment Analysis Tutorial: Text Mining & Analysis in Python.” [Daring]. Tersedia pada: https://www.datacamp.com/tutorial/text-analytics-beginners-nltk

[12] S. Gupta, “Text Cleaning in Python: Effective Data Cleaning Tutorial,” 2023. [Daring]. Tersedia pada: https://docs.kanaries.net/topics/Python/text-cleaning-python

[13] Intel, “Four Data Cleaning Techniques to Improve Large Language Model (LLM) Performance,” 2024. [Daring]. Tersedia pada: https://medium.com/intel-tech/four-data-cleaning-techniques-to-improve-large-language-model-llm-performance-77bee9003625

[14] “Sentiment Analysis of Indonesian Society Toward the Launch of iPhone 16 Using Naive Bayes, Random Forest, and KNN Algorithms,” J. Kom., [Daring]. Tersedia pada: https://penerbitadm.pubmedia.id/index.php/KOMITEK/article/view/2219

[15] Y. A. Rahman dan dkk., “Analisis Sentimen Terhadap Ulasan Pengguna Aplikasi Threads Instagram di Playstore Menggunakan Algoritma Naive Bayes,” JITET (Jurnal Inform. dan Tek. Elektro Ter., vol. 11, no. 2, hal. 1–7, 2023.

[16] R. Rahmadani, A. Rahim, dan R. Rudiman, “Analisis Sentimen Ulasan ‘Ojol the Game’ di Google Play Store Menggunakan Algoritma Naive Bayes dan Model Ekstraksi Fitur TF-IDF untuk Meningkatkan Kualitas Game,” J. Inform. dan Tek. Elektro Terap., vol. 12, no. 3, 2024, [Daring]. Tersedia pada: https://jurnal.unimed.ac.id/2012/index.php/JITET/article/view/41554

JTM : Jurnal TIMES [ISSN Print 2337-3601] [ISSN Online 2549-015X]
	Dipublikasikan oleh Lembaga Penelitian dan Pengabdian Kepada Masyarakat (LPPM) STMIK TIME Jalan Merbabu No. 32 AA-BB, Medan Kota, Kota Medan, Sumatera Utara. Kode Pos: 20212 \| Telp : 061-4561932 \| Contact : [email protected]

Bilah Samping Artikel

Isi Artikel Utama

Abstrak

Rincian Artikel

Referensi

Artikel paling banyak dibaca berdasarkan penulis yang sama