Adi, Charis Maulana Setya (2025) Klasifikasi Malware pada trafik jaringan menggunakan metode Logistic Regression. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
210605110083.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (2MB) |
Abstract
INDONESIA :
Peningkatan lalu lintas jaringan seiring dengan kemajuan teknologi informasi turut memperbesar risiko serangan Malware. Oleh karena itu, deteksi dini terhadap trafik jaringan yang mencurigakan menjadi langkah penting dalam mencegah kerugian akibat ancaman siber. Penelitian ini bertujuan untuk mengukur performa metode Logistic Regression dalam mengklasifikasikan Malware pada trafik jaringan, menggunakan data yang telah melalui tahapan Preprocessing berupa seleksi Fitur, Encoding, dan Normalisasi. Model dilatih dengan teknik 5-Fold Cross Validation guna mengukur konsistensi dan kemampuan generalisasi terhadap data baru. Penelitian menguji tiga skenario dengan perbedaan metode pembagian data, yakni manual split dengan rasio 80:20 dan random split dengan rasio 80:20 dan 70:30. Evaluasi dilakukan menggunakan metrik akurasi, presisi, recall, dan F1-score berdasarkan hasil confusion matrix. Hasil terbaik diperoleh pada Skenario 3 (random split 70:30) dengan nilai akurasi sebesar 92,93%, presisi 93,89%, recall 92,83%, dan F1-score 92,88%. Visualisasi nilai Loss dan Learning curve menunjukkan proses pemodelan yang stabil tanpa overfitting, serta kemampuan generalisasi yang baik terhadap data validasi. Temuan ini menunjukkan bahwa Logistic Regression merupakan pendekatan klasifikasi yang efektif dan layak diterapkan dalam sistem deteksi Malware berbasis trafik jaringan, karena mampu memberikan performa tinggi yang seimbang antara deteksi ancaman dan pengenalan trafik normal.
ENGLISH :
The growth of information technology has led to an increase in network traffic, thereby escalating the risk of Malware attacks. Therefore, early detection of suspicious network traffic is crucial to prevent potential cyber-related Loss es. This study evaluates the performance of the Logistic Regression method in classifying Malware based on network traffic data. The dataset used for this research underwent pre-processing, including feature selection, Encoding, and normalisation. The model was trained using 5-Fold cross-validation to evaluate its consistency and generalisation capability. Three modelling scenarios were tested using the same number of epochs, with variations in data splitting methods, including manual with ratio 80:20 and random splits with different ratios 80:20 and 70:30. The model was evaluated using the accuracy, precision, recall, and F1 score metrics derived from the confusion matrix. The best performance was achieved in Scenario 3 (random split, 70:30), with an accuracy of 92.93%, a precision of 93.89%, a recall of 92.83%, and an F1 score of 92.88%. Visualisation of the training Loss and Learning curve indicated a stable learning process without signs of overfitting, demonstrating strong generalisation to unseen data. These results confirm that Logistic Regression is an effective and reliable approach to Malware detection based on network traffic. It offers a balance between accuracy, precision, and generalisation performance that is suitable for real-world implementation in network security systems.
ARABIC:
أدى الحجم المتزايد لحركة مرور الشبكة، إلى جانب التقدم التكنولوجي، إلى زيادة خطر هجمات البرامج الضارة. لذلك، يعد الكشف المبكر عن حركة المرور المشبوهة أمرًا ضروريًا لتقليل الخسائر الناجمة عن التهديدات السيبرانية. تهدف هذه الدراسة إلى تقييم أداء خوارزمية الانحدار اللوجستي في تصنيف البرامج الضارة بناءً على بيانات حركة مرور الشبكة، بعد معالجتها مسبقًا من خلال اختيار الميزات والترميز والتطبيع. تم تدريب النموذج باستخدام تقنية التحقق المتقاطع 5 أضعاف لقياس اتساق النموذج وقدرته على التعميم. تتضمن هذه الدراسة ثلاثة سيناريوهات بطرق مختلفة لتقسيم البيانات، وهي التقسيم اليدوي بنسبة 80:20 والتقسيم العشوائي بنسبة 80:20 و70:30. يتم تقييم أداء النموذج باستخدام مقاييس الدقة والنوعية والتذكر ودرجة F1 بناءً على مصفوفة الارتباك. يُظهر السيناريو الثالث (التقسيم العشوائي 70:30) أفضل أداء، محققًا دقة 92.93٪ وخصوصية 93.89٪ وتذكر 92.83٪ ودرجة F1 92.88٪. يُظهر منحنى التعلم ومخططات خسارة التدريب أيضًا تعلّمًا مستقرًا دون أي علامات على الإفراط في التجهيز، بالإضافة إلى قدرة تعميم قوية عند التعامل مع بيانات جديدة. تشير هذه النتائج إلى أن الانحدار اللوجستي طريقة فعالة وموثوقة للكشف عن البرامج الضارة استنادًا إلى حركة مرور الشبكة، مما يوفر توازنًا بين الدقة والموثوقية وقابلية التطبيق في أنظمة أمن الشبكات العملية.
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |