Responsive Banner

Komparasi metode Naïve Bayes dan Regresi Logistik untuk klasifikasi produktivitas padi di Jawa Timur

Tohari, Hamim (2025) Komparasi metode Naïve Bayes dan Regresi Logistik untuk klasifikasi produktivitas padi di Jawa Timur. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Fulltext)
210605210006.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(11MB) | Preview

Abstract

INDONESIA:

Produktivitas padi merupakan faktor strategis yang memengaruhi ketahanan pangan dan perekonomian daerah, khususnya di Provinsi Jawa Timur yang dikenal sebagai salah satu sentra produksi padi nasional. Penelitian ini bertujuan untuk mengembangkan model klasifikasi produktivitas padi dengan membandingkan kinerja Gaussian Naïve Bayes (GNB) dan Regresi Logistik (LR), dua algoritma klasifikasi berbasis statistik yang umum digunakan dalam bidang data mining. Dataset yang digunakan dalam penelitian ini diperoleh dari hasil kompilasi data sekunder Badan Pusat Statistik (BPS) Jawa Timur yang mencakup atribut numerik seperti suhu udara, kelembaban, kecepatan angin, tekanan udara, curah hujan, dan intensitas penyinaran. Label produktivitas padi dikategorikan ke dalam dua kelas: Tinggi dan Rendah berdasarkan rata-rata produktivitas di wilayah studi. Penelitian ini menerapkan dua skenario pembagian data, yaitu rasio 80:20 dan 70:30 untuk data latih dan uji, dengan masing-masing divalidasi menggunakan 5-fold dan 10-fold cross-validation. Hasil eksperimen menunjukkan bahwa model GNB dengan konfigurasi rasio 70:30 dan validasi 10-fold menghasilkan performa terbaik, dengan akurasi 66%, F1-score 65%, dan AUC 72%, yang mencerminkan kemampuan model yang baik dalam membedakan kelas produktivitas. Sebaliknya, model Regresi Logistik menunjukkan performa yang lebih rendah pada seluruh skenario, dengan capaian terbaik akurasi 61% dan AUC 65% pada konfigurasi yang sama. Temuan penelitian ini mengindikasikan bahwa Gaussian Naïve Bayes lebih unggul dibandingkan Regresi Logistik dalam klasifikasi produktivitas padi berbasis data cuaca dan lingkungan di Jawa Timur.

ENGLISH:

Rice productivity is a crucial factor influencing food security and the regional economy, particularly in East Java Province, which is recognized as a major center for national rice production. This study aims to develop a rice productivity classification model by comparing the performance of Gaussian Naïve Bayes (GNB) and Logistic Regression (LR), two statistically-based classification algorithms commonly used in the field of data mining. The dataset used in this study was sourced from a compilation of secondary data from the Central Bureau of Statistics (BPS) of East Java, which includes numerical attributes such as air temperature, humidity, wind speed, air pressure, rainfall, and solar radiation intensity. Rice productivity labels were categorized into two classes: High and Low, based on the average productivity in the study area. This research applied two data splitting scenarios—80:20 and 70:30 ratios for training and testing data—each validated using 5-fold and 10-fold cross-validation. The experimental results showed that the GNB model, under the 70:30 ratio and 10-fold validation configuration, achieved the best performance with an accuracy of 66%, an F1-score of 65%, and an AUC of 72%, reflecting the model's good capability to distinguish between productivity classes. Conversely, the Logistic Regression model exhibited lower performance across all scenarios, with its best achievement being an accuracy of 61% and an AUC of 65% under the same configuration. The findings of this study indicate that Gaussian Naïve Bayes outperforms Logistic Regression in classifying rice productivity based on weather and environmental data in East Java.

ARABIC:

إنتاجية الأرز عامل استراتيجي يؤثر على الأمن الغذائي والاقتصاد الإقليمي، وخاصة في مقاطعة جاوة الشرقية المعروفة بأنها أحد مراكز إنتاج الأرز الوطنية. تهدف هذه الدراسة إلى تطوير نموذج تصنيف إنتاجية الأرز من خلال مقارنة أداء Gaussian Naïve Bayes (GNB) والانحدار اللوجستي (LR)، وهما خوارزميتان للتصنيف الإحصائي تُستخدمان بشكل شائع في استخراج البيانات. تم الحصول على مجموعة البيانات المستخدمة في هذه الدراسة من تجميع البيانات الثانوية من وكالة الإحصاء المركزية لشرق جاوة (BPS) والتي تتضمن سمات رقمية مثل درجة حرارة الهواء والرطوبة وسرعة الرياح وضغط الهواء وهطول الأمطار وكثافة الإشعاع. يتم تصنيف تسميات إنتاجية الأرز إلى فئتين: عالية ومنخفضة بناءً على متوسط الإنتاجية في منطقة الدراسة. تطبق هذه الدراسة سيناريوهين لمشاركة البيانات، وهما نسبة 80:20 و70:30 لبيانات التدريب والاختبار، مع التحقق من صحة كل منهما باستخدام التحقق المتبادل 5 أضعاف و10 أضعاف. أظهرت النتائج التجريبية أن نموذج GNB، بتكوين نسبة 70:30 وتحقق عشري، حقق أفضل أداء، بدقة 66%، ودرجة F1 65%، ومساحة تحت المنحنى 72%، مما يعكس قدرة النموذج الجيدة على تمييز فئات الإنتاجية. في المقابل، أظهر نموذج الانحدار اللوجستي أداءً أقل في جميع السيناريوهات، مع أفضل تحقيق لدقة 61% ومساحة تحت المنحنى 65% في التكوين نفسه. تشير نتائج هذه الدراسة إلى تفوق خوارزمية بايز الغوسية الساذجة على الانحدار اللوجستي في تصنيف إنتاجية الأرز بناءً على بيانات الطقس
والبيئة في شرق جاوة

Item Type: Thesis (Masters)
Supervisor: Harini, Sri and Santoso, Irwan Budi
Keywords: Gaussian Naïve Bayes; Regresi Logistik; Klasifikasi; Produktivitas padi; Jawa Timur; Gaussian Naïve Bayes; Logistic Regression; Classification, Rice productivity, East Java; جاوة الشرقية ;إنتاجية الأرز ;التصنيف ;الانحدار اللوجستي ;ناييف بايز الغاوسي
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Hamim Tohari
Date Deposited: 14 Jul 2025 13:34
Last Modified: 14 Jul 2025 13:34
URI: http://etheses.uin-malang.ac.id/id/eprint/80263

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item