JONI PRANATA, -
(2025)
PENGGUNAAN MODEL BAHASA INDOBERT PADA
METODE RANDOM FOREST UNTUK KLASIFIKASI
SENTIMEN DENGAN DATASET TERBATAS.
Building of Informatics, Technology and Science (BITS), 6 (3).
pp. 1668-1676.
ISSN 2684-8910
Abstract
Masalah keterbatasan data latih menjadi tantangan utama dalam klasifikasi sentimen di berbagai bahasa, termasuk bahasa
Indonesia, terutama untuk analisis sentimen terkait topik tertentu. Hal ini disebabkan oleh berbagai faktor, dan umumnya adalah
kebutuhan untuk mengetahui dengan segera bagaimana sentimen terhadap suatu isu, sehingga tidak mungkin menghabiskan waktu
untuk memberi label yang cukup pada data untuk proses pelatihan. Penelitian ini mengusulkan model klasifikasi sentimen dengan
sumber data pelatihan yang sedikit, pada studi kasus pengangkatan Kaesang Pangarep sebagai ketua umum PSI. Model dasar
(baseline) menggunakan representasi kata dengan FastText dan algoritma Random Forest, Model ini kemudian dioptimasi dengan
menggunakan word embedding IndoBERT, sebuah model berbasis BERT yang telah dilatih khusus untuk teks bahasa
Indonesia, serta optimasi praproses, menambahkan data eksternal (data aggregation) dan parameter tuning. Hasil penelitian
menunjukkan bahwa metode IndoBERT dengan Random Forest yang dioptimasi memberikan peningkatan performa yang
signifikan dibandingkan baseline, sebesar 6%. Hasil klasifikasi model yang paling optimal sebesar 54% unutk F1-score dan 63%
akurasi. Temuan ini menegaskan bahwa penambahan data eksternal dan optimasi parameter dapat meningkatkan kemampuan
generalisasi model dalam klasifikasi sentimen bahasa Indonesia. Penelitian ini diharapkan dapat menjadi referensi metodologis
bagi studi klasifikasi sentimen serupa yang menghadapi kendala ukuran dataset.
Actions (login required)
 |
View Item |