Responsive Banner

Evaluasi pengaruh Chi-Square feature selection dan oversampling LDW-SMOTE terhadap kinerja Naive Bayes untuk deteksi email spam

Syafi'ah, Nurus (2026) Evaluasi pengaruh Chi-Square feature selection dan oversampling LDW-SMOTE terhadap kinerja Naive Bayes untuk deteksi email spam. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
220601110057.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(4MB)

Abstract

INDONESIA:

Peningkatan penggunaan email menyebabkan bertambahnya jumlah spam yang mengganggu dan berisiko bagi pengguna. Penelitian ini bertujuan menganalisis kinerja Multinomial Naïve Bayes dengan Chi-Square Feature Selection dan LDW-SMOTE dalam klasifikasi email spam. Data berbahasa Inggris diproses menggunakan TF-IDF dan direduksi menggunakan Chi-Square. Hasil menunjukkan bahwa Chi-Square meningkatkan akurasi dan presisi, namun menurunkan recall spam. Sebaliknya, LDW-SMOTE meningkatkan recall spam secara signifikan, tetapi menurunkan akurasi dan presisi. Hal ini menunjukkan adanya perbedaan fokus antara ketepatan model dan kemampuan deteksi spam. Pemilihan metode perlu disesuaikan dengan tujuan sistem. Penelitian selanjutnya disarankan mengoptimalkan jumlah fitur Chi-Square, parameter LDW-SMOTE, serta membandingkan metode penyeimbangan data lain.

ENGLISH:

The increased use of email leads to an increase in the amount of spam that is annoying and risky for users. This study aims to analyze the performance of Multinomial Naïve Bayes with Chi-Square Feature Selection and LDW-SMOTE in the classification of spam emails. English-language data was processed using TF-IDF with and reduced using Chi-Square. The results showed that Chi-Square improved accuracy and precision, but decreased spam recalls. In contrast, LDW-SMOTE significantly improved spam recalls, but decreased accuracy and precision. This shows a difference in focus between model accuracy and spam detection capabilities. The selection of methods needs to be adjusted to the objectives of the system. Further research is recommended to optimize the number of Chi-Square features, LDW-SMOTE parameters, and compare other data balancing methods.

ARABIC:

يؤدي الاستخدام المتزايد للبريد الإلكتروني إلى زيادة كمية الرسائل المزعجة والمحفوفة بالمخاطر للمستخدمين. هدفت هذه الدراسة إلى تحليل أداء Multinomial Naïve Bayes باستخدام ميزة اختيار ميزات Chi-Square وLDW-SMOTE في تصنيف رسائل البريد المزعج. تمت معالجة البيانات باللغة الإنجليزية باستخدام TF-IDF مع وتقليل استخدام Chi-Square. أظهرت النتائج أن Chi-Square حسن الدقة والدقة، لكنه قلل من استدعاءات الرسائل المزعجة. على النقيض من ذلك، حسن LDW-SMOTE بشكل ملحوظ عمليات استدعاء الرسائل المزعجة، لكنه قلل من الدقة والدقة. ظهر هذا فرق في التركيز بين دقة النموذج وقدرات اكتشاف الرسائل المزعجة. يجب تعديل اختيار الطرق وفقا لأهداف النظام. يوصى بإجراء الدراسة المستقبلية بتحسين عدد الخصائص في Chi-Square، وضبط معاملات LDW-SMOTE، إضافةً إلى مقارنة طرائق أخرى لموازنة البيانات.

Item Type: Thesis (Undergraduate)
Supervisor: Fahmi, Hisyam and Herawati, Erna
Keywords: Multinomial Naïve Bayes; Chi-Square; LDW-SMOTE; Klasifikasi; Email Spam; Classification; التصنيف ;البريد الإلكتروني المزعج
Subjects: 01 MATHEMATICAL SCIENCES > 0103 Numerical and Computational mathematics > 010399 Numerical and Computational Mathematics not elsewhere classified
Departement: Fakultas Sains dan Teknologi > Jurusan Matematika
Depositing User: Nurus Syafi'ah
Date Deposited: 12 Jun 2026 13:24
Last Modified: 12 Jun 2026 13:24
URI: http://etheses.uin-malang.ac.id/id/eprint/85318

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item