FAUZAN RAY T, -
(2025)
PENGARUH AGREGASI DATA PADA KLASIFIKASI
SENTIMEN UNTUK DATASET TERBATAS
MENGGUNAKAN SGD CLASSIFIER.
PENGARUH AGREGASI DATA PADA KLASIFIKASI SENTIMEN UNTUK DATASET TERBATAS MENGGUNAKAN SGD CLASSIFIER, 5 (3).
pp. 626-634.
ISSN 2723-567X
Abstract
Media sosial, khususnya Twitter atau X, adalah sumber data yang kaya untuk analisis sentimen. Namun, keterbatasan dataset
menjadi tantangan utama dalam pemanfaatan machine learning, terutama untuk menghasilkan analisis sentimen yang cepat dan
akurat. Penelitian ini menerapkan teknik agregasi data untuk memperluas dataset pelatihan serta menguji berbagai tahapan
preprocessing, seperti cleaning, case folding, normalisasi, stemming, dan metode berbasis leksikon (lexicon-based). Metode
klasifikasi yang digunakan adalah Stochastic Gradient Descent Classifier dengan representasi teks menggunakan model bahasa
Fast Text untuk menghasilkan embedding kata. Lexicon-based preprocessing, khususnya untuk penanganan emoji dan emoticon,
menunjukkan pengaruh signifikan saat data ditambahkan, karena mampu menangkap emosi dan konteks tambahan yang sering
diabaikan dalam analisis teks konvensional. Hasil eksperimen menunjukkan bahwa penambahan data dan optimasi preprocessing
meningkatkan F1 Score dari baseline 40% menjadi 52,13%, melampaui organizer yang mencapai 51,28%. Temuan ini
menekankan pentingnya agregasi data, optimasi preprocessing, dan parameter tuning menggunakan grid search dalam
meningkatkan kinerja model pada klasifikasi sentimen teks dengan dataset terbatas.
Actions (login required)
 |
View Item |