Responsive Banner

Klasifikasi Malware pada trafik jaringan menggunakan metode Logistic Regression

Adi, Charis Maulana Setya (2025) Klasifikasi Malware pada trafik jaringan menggunakan metode Logistic Regression. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
210605110083.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(2MB)

Abstract

INDONESIA :

Peningkatan lalu lintas jaringan seiring dengan kemajuan teknologi informasi turut memperbesar risiko serangan Malware. Oleh karena itu, deteksi dini terhadap trafik jaringan yang mencurigakan menjadi langkah penting dalam mencegah kerugian akibat ancaman siber. Penelitian ini bertujuan untuk mengukur performa metode Logistic Regression dalam mengklasifikasikan Malware pada trafik jaringan, menggunakan data yang telah melalui tahapan Preprocessing berupa seleksi Fitur, Encoding, dan Normalisasi. Model dilatih dengan teknik 5-Fold Cross Validation guna mengukur konsistensi dan kemampuan generalisasi terhadap data baru. Penelitian menguji tiga skenario dengan perbedaan metode pembagian data, yakni manual split dengan rasio 80:20 dan random split dengan rasio 80:20 dan 70:30. Evaluasi dilakukan menggunakan metrik akurasi, presisi, recall, dan F1-score berdasarkan hasil confusion matrix. Hasil terbaik diperoleh pada Skenario 3 (random split 70:30) dengan nilai akurasi sebesar 92,93%, presisi 93,89%, recall 92,83%, dan F1-score 92,88%. Visualisasi nilai Loss dan Learning curve menunjukkan proses pemodelan yang stabil tanpa overfitting, serta kemampuan generalisasi yang baik terhadap data validasi. Temuan ini menunjukkan bahwa Logistic Regression merupakan pendekatan klasifikasi yang efektif dan layak diterapkan dalam sistem deteksi Malware berbasis trafik jaringan, karena mampu memberikan performa tinggi yang seimbang antara deteksi ancaman dan pengenalan trafik normal.

ENGLISH :

The growth of information technology has led to an increase in network traffic, thereby escalating the risk of Malware attacks. Therefore, early detection of suspicious network traffic is crucial to prevent potential cyber-related Loss es. This study evaluates the performance of the Logistic Regression method in classifying Malware based on network traffic data. The dataset used for this research underwent pre-processing, including feature selection, Encoding, and normalisation. The model was trained using 5-Fold cross-validation to evaluate its consistency and generalisation capability. Three modelling scenarios were tested using the same number of epochs, with variations in data splitting methods, including manual with ratio 80:20 and random splits with different ratios 80:20 and 70:30. The model was evaluated using the accuracy, precision, recall, and F1 score metrics derived from the confusion matrix. The best performance was achieved in Scenario 3 (random split, 70:30), with an accuracy of 92.93%, a precision of 93.89%, a recall of 92.83%, and an F1 score of 92.88%. Visualisation of the training Loss and Learning curve indicated a stable learning process without signs of overfitting, demonstrating strong generalisation to unseen data. These results confirm that Logistic Regression is an effective and reliable approach to Malware detection based on network traffic. It offers a balance between accuracy, precision, and generalisation performance that is suitable for real-world implementation in network security systems.

ARABIC:

أدى الحجم المتزايد لحركة مرور الشبكة، إلى جانب التقدم التكنولوجي، إلى زيادة خطر هجمات البرامج الضارة. لذلك، يعد الكشف المبكر عن حركة المرور المشبوهة أمرًا ضروريًا لتقليل الخسائر الناجمة عن التهديدات السيبرانية. تهدف هذه الدراسة إلى تقييم أداء خوارزمية الانحدار اللوجستي في تصنيف البرامج الضارة بناءً على بيانات حركة مرور الشبكة، بعد معالجتها مسبقًا من خلال اختيار الميزات والترميز والتطبيع. تم تدريب النموذج باستخدام تقنية التحقق المتقاطع 5 أضعاف لقياس اتساق النموذج وقدرته على التعميم. تتضمن هذه الدراسة ثلاثة سيناريوهات بطرق مختلفة لتقسيم البيانات، وهي التقسيم اليدوي بنسبة 80:20 والتقسيم العشوائي بنسبة 80:20 و70:30. يتم تقييم أداء النموذج باستخدام مقاييس الدقة والنوعية والتذكر ودرجة F1 بناءً على مصفوفة الارتباك. يُظهر السيناريو الثالث (التقسيم العشوائي 70:30) أفضل أداء، محققًا دقة 92.93٪ وخصوصية 93.89٪ وتذكر 92.83٪ ودرجة F1 92.88٪. يُظهر منحنى التعلم ومخططات خسارة التدريب أيضًا تعلّمًا مستقرًا دون أي علامات على الإفراط في التجهيز، بالإضافة إلى قدرة تعميم قوية عند التعامل مع بيانات جديدة. تشير هذه النتائج إلى أن الانحدار اللوجستي طريقة فعالة وموثوقة للكشف عن البرامج الضارة استنادًا إلى حركة مرور الشبكة، مما يوفر توازنًا بين الدقة والموثوقية وقابلية التطبيق في أنظمة أمن الشبكات العملية.

Item Type: Thesis (Undergraduate)
Supervisor: Hanani, Ajib and Wahyu Prakasa, Johan Ericka
Keywords: Malware; Logistic Regression (LR); Klasifikasi; Trafik Jaringan; Cross Validation Malware; Logistic Regression (LR); Classification; Network Traffic; Cross Validation البرمجيات الخبيثة;الانحدار اللوجستي (LR); التصنيف; حركة مرور الشبكة، التحقق المتبادل
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080105 Expert Systems
08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining
08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080199 Artificial Intelligence and Image Processing not elsewhere classified
08 INFORMATION AND COMPUTING SCIENCES > 0805 Distributed Computing > 080503 Networking and Communications
08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Charis Maulana Setya Adi
Date Deposited: 15 Sep 2025 08:44
Last Modified: 15 Sep 2025 08:44
URI: http://etheses.uin-malang.ac.id/id/eprint/79271

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item