Penerapan Ensemble Learning untuk deteksi Phishing Website dan Email

Hermawan, Hendra (2026) Penerapan Ensemble Learning untuk deteksi Phishing Website dan Email. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

Text (Fulltext)
240605220007.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.
(1MB)

Abstract

ABSTRAK

Penelitian ini bertujuan untuk menganalisis efektivitas penerapan ensemble learning dalam mendeteksi phishing berbasis website dan email menggunakan Mendeley Dataset. Pendekatan yang digunakan meliputi tiga varian ensemble, yaitu bagging (Random Forest), boosting (AdaBoost dan Gradient Boosting), serta stacking dengan meta-learner berbasis Logistic Regression. Selain itu, penelitian ini mengintegrasikan feature selection berbasis Genetic Algorithm (GA) untuk mengoptimalkan subset fitur dan meningkatkan efisiensi komputasi. Evaluasi dilakukan menggunakan metrik accuracy, precision, recall, F1-score, dan AUC-ROC dengan skema 5-fold cross-validation guna mengukur performa dan stabilitas model. Hasil eksperimen menunjukkan bahwa metode stacking menghasilkan performa terbaik dengan accuracy sebesar 97,6%, F1-score sebesar 97,2%, dan AUC-ROC sebesar 0,992. Penerapan feature selection berhasil mereduksi jumlah fitur sebesar ±35%, sekaligus meningkatkan performa model sekitar ±0,3% dan menurunkan waktu training sebesar ±33% serta waktu inferensi sebesar ±34%. Analisis stabilitas menunjukkan deviasi standar terendah pada metode stacking (±0,004), yang mengindikasikan kemampuan generalisasi yang kuat terhadap variasi data. Secara keseluruhan, kombinasi stacking ensemble dan feature selection berbasis Genetic Algorithm terbukti menghasilkan sistem deteksi phishing yang akurat, stabil, dan efisien secara komputasi. Model yang dikembangkan memiliki potensi implementasi pada sistem keamanan real-time seperti email gateway, firewall, dan browser security extension.

مستخلص البحث

هيرماوان، هندرا. 2026. الكشف المبكر عن التصيّد الاحتيالي والتضليل والآراء المتطرفة باستخدام التعلّم الجماعي الموجَّه باختيار السمات المُحسَّن بالخوارزمية الجينية. رسالة ماجستير، قسم الهندسة المعلوماتية، كلية العلوم والتكنولوجيا، جامعة مولانا مالك إبراهيم الإسلامية الحكومية مالانج. المشرف الأول: الدكتور المهندس محمد فيصل، الماجستير. المشرف الثاني: الدكتور محمد إمام الدين، الماجستير.

تهدف هذه الدراسة إلى تحليل فعالية تطبيق التعلّم الجماعي في الكشف عن التصيّد الاحتيالي على مواقع الويب والبريد الإلكتروني، وذلك باستخدام منهج يجمع بين ثلاثة أنواع من التعلّم الجماعي، وهي: التجميع، والتعزيز، والتكديس. وقد استُخدمت خوارزميات التعلّم الآلي، مثل الغابة العشوائية (Random Forest)، وأدا بوست (AdaBoost)، والتعزيز المتدرّج (Gradient Boosting)، والتكديس، من أجل تحسين أداء النموذج في اكتشاف التصيّد الاحتيالي والتضليل والآراء المتطرفة. بالإضافة إلى ذلك، جرى استخدام اختيار السمات المُحسَّن بالخوارزمية الجينية لتحسين مجموعة السمات الفرعية وزيادة كفاءة الحساب. وقد أُجري تقييم أداء النموذج باستخدام مقاييس الدقة، والاسترجاع، ودرجة F1، ومنحنى AUC-ROC، مع مخطط التحقق المتقاطع الخماسي لقياس أداء النموذج واستقراره. أظهرت نتائج الدراسة أن طريقة التكديس حققت أفضل أداء في الكشف عن التصيّد الاحتيالي، حيث بلغت الدقة 97.6%، وبلغت قيمة AUC-ROC 97.2%، كما بلغت درجة F1 نحو 97.6%. ونجح تطبيق اختيار السمات في تقليل عدد السمات بنسبة 35.3%، مع تحسين أداء النموذج بنسبة 0.3%. وأظهرت مقارنة وقت التدريب انخفاضًا في زمن التنفيذ بنسبة 34.3%؛ إذ انخفض الوقت من 33 ثانية إلى 21 ثانية بعد تطبيق اختيار السمات باستخدام الخوارزمية الجينية. وتشير هذه النتائج إلى أن دمج التعلّم الجماعي مع اختيار السمات المُحسَّن بالخوارزمية الجينية قادر على إنتاج نموذج دقيق ومستقر وفعّال حسابيًا للكشف عن التصيّد الاحتيالي. كما يُظهر النموذج المقترح قدرة عالية على التنبؤ في الوقت الفعلي، مما يجعله قابلًا للتطبيق في أنظمة الحماية ومُلحقات أمان المتصفح والبريد الإلكتروني.

ABSTRACT

This study aims to analyse the effectiveness of applying ensemble learning in detecting website- and email-based phishing using the Mendeley Dataset. The approach used includes three ensemble variants, namely bagging (Random Forest), boosting (AdaBoost and Gradient Boosting), and stacking with a Logistic Regression-based meta-learner. In addition, this study integrates Genetic Algorithm (GA)-based feature selection to optimise feature subsets and improve computational efficiency. The evaluation was conducted using accuracy, precision, recall, F1-score, and AUC-ROC metrics with a 5-fold cross-validation scheme to measure model performance and stability. The experimental results showed that the stacking method produced the best performance with an accuracy of 97.6%, an F1-score of 97.2%, and an AUC-ROC of 0.992. The application of feature selection successfully reduced the number of features by ±35%, while improving model performance by ±0.3% and reducing training time by ±33% and inference time by ±34%. Stability analysis showed the lowest standard deviation in the stacking method (±0.004), indicating strong generalisation capabilities against data variations. Overall, the combination of stacking ensemble and Genetic Algorithm-based feature selection proved to produce an accurate, stable, and computationally efficient phishing detection system. The developed model has the potential for implementation in real-time security systems such as email gateways, firewalls, and browser security extensions.

Item Type:	Thesis (Masters)
Supervisor:	Faisal, Muhammad and Imamudin, Mochamad
Keywords:	Pembelajaran Ensemble, Deteksi Phishing, Stacking, Pemilihan Fitur, Algoritma Genetika الكلمات المفتاحية: التعلّم الجماعي، الكشف عن التصيّد الاحتيالي، التضليل، الآراء المتطرفة، اختيار السمات، الخوارزمية الجينية. Ensemble Learning, Phishing Detection, Stacking, Feature Selection, Genetic Algorithm
Subjects:	08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
Departement:	Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User:	HENDRA HERMAWAN
Date Deposited:	17 Jun 2026 13:52
Last Modified:	17 Jun 2026 13:52
URI:	http://etheses.uin-malang.ac.id/id/eprint/85268

Downloads

Downloads per month over past year

Actions (login required)

View Item

Link Terkait

Media Sosial

Alamat

Gedung Abdurrahman Wahid

Jl. Gajayana No.50, Dinoyo, Lowokwaru, Malang,

Jawa Timur 65149, Indonesia

Email: csc@uin-malang.ac.id