Istiani, Aulia (2024) Implementasi metode random forest untuk klasifikasi kategori berita online. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
19650041.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (5MB) |
Abstract
ABSTRAK:
Penelitian ini dilakukan untuk membantu editor berita online yang masih mengklasifikasikan kategori berita online secara manual. Pengklasifikasian kategori berita online secara manual tidak efektif karena membutuhkanwaktu lama untuk membaca keseluruhan berita dan memungkinkan terjadinya kesalahan karena kemiripan isi dari beberapa berita. Metode yang digunakan dalam penelitian ini adalah metode Random Forest dengan pembobotan TF-IDF. Data sebanyak 1115 artikel berita terlebih dahulu dilakukan proses preprocessing untuk mengubah data mentah menjadi data yang bisa diproses oleh sistem meliputi case folding, stopword removal, stemming dan tokenizing. Seluruh kata dari proses tokenizing dilakukan proses TF-IDF untuk mengubah kata menjadi bentuk numerik dan dijadikan inputan pada sistem. Hasil uji coba dengan tiga skenario berbeda menunjukkan bahwa skenario pertama dengan rasio 90:10 menghasilkan performa terbaik dengan akurasi 79%., skenario kedua dengan rasio 80:20 menghasilkan akurasi 66% dan skenario ketiga dengan rasio 70:30 menghasilkan akurasi 77%.
ABSTRACT:
The research aims to help online news editors who still classify online news manually. The manual classification is ineffective since it takes a longer time to read the whole news and may miss mistakes due to news similarity. The researcher employed the Random Forest method with TF-IDF weighing. She pre-processed data from 1,115 news articles to change the raw materials into data the system can process, including case folding, stopword removal, stemming, and tokenizing. All words from the tokenizing process went through the TF-IDF process to change them into numeric to be inputted into the system. The trial result using three different scenarios shows that the first scenario with a ratio of 90:10 induces the best performance with an accuracy of 79%. The second scenario, with a ratio of 80:20, induces 66% accuracy. Meanwhile, the third scenario with a ratio of 70:30 induces 77% accuracy.
مستخلص البحث:
تم إجراء هذا البحث لمساعدة محرري الأخبار الإلكترونية الذين ما زالوا يصنفون فئات الأخبار الإلكترونية يدويا. التصنيف اليدوي لفئات الأخبار الإلكترونية غير فعال لأنه يستغرق وقتا طويلا لقراءة الأخبار بأكملها ويسمح بالأخطاء بسبب تشابه محتوى بعض الأخبار. الطريقة المستخدمة في هذا البحث هي طريقة الغابة العشوائية مع ترجيح TF-IDF. تمت معالجة بيانات 1115 مقالة إخبارية أولا لتحويل البيانات الأولية إلى بيانات يمكن معالجتها بواسطة النظام، بما في ذلك طي الحالة وإزالة الكلمات الموقوفة والتوقف والترميز. تم تنفيذ جميع الكلمات من عملية الترميز بواسطة عملية TF-IDF لتحويل الكلمات إلى أشكال رقمية واستخدامها كمدخلات للنظام. أظهرت نتائج اختبار بثلاثة سيناريوهات مختلفة أن السيناريو الأول بنسبة 90:10 نتج عنه أفضل أداء بدقة 79٪، أما السيناريو الثاني بنسبة 80:20 فقد نتج عنه دقة 66٪ ونتج السيناريو الثالث بنسبة 70:30 دقة 77٪.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Hariyadi, Mokhamad Amin and Melani, Roro Inda |
Keywords: | Random Forest; Klasifikasi teks; Berita; Text Classification; News; غابة عشوائية; تصنيف النص; أخبار |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Aulia Istiani |
Date Deposited: | 22 Jul 2024 15:27 |
Last Modified: | 01 Aug 2024 08:59 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/65739 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |