Responsive Banner

Deteksi dan pelacakan wajah pada lingkungan keramaian menggunakan Yolov9 berbasis attention Mechanism dan Deepsort

Santoso, Teguh Budi (2026) Deteksi dan pelacakan wajah pada lingkungan keramaian menggunakan Yolov9 berbasis attention Mechanism dan Deepsort. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
240605220002.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(4MB)

Abstract

ABSTRAK

Penelitian ini bertujuan mengembangkan dan mengevaluasi sistem deteksi dan pelacakan wajah pada lingkungan keramaian padat menggunakan integrasi teknik pra-pemrosesan citra, YOLOv9 dengan Attention Mechanism, MobileFaceNet, dan DeepSORT. Lingkungan keramaian menghadirkan tantangan berupa occlusion, pergerakan dinamis, perubahan pencahayaan, variasi skala dan sudut pandang wajah yang dapat menurunkan akurasi deteksi serta kestabilan identitas selama pelacakan. Tahap awal penelitian menerapkan pra-pemrosesan citra melalui normalisasi, penyesuaian resolusi, dan augmentasi untuk meningkatkan kualitas data masukan, yang kemudian dievaluasi menggunakan metrik Detection Score (DET), Peak Signal-to-Noise Ratio (PSNR), dan Structural Similarity Index Measure (SSIM). Model YOLOv9 diperkuat dengan Attention Mechanism untuk meningkatkan kemampuan ekstraksi fitur wajah pada kondisi kepadatan tinggi dan occlusion, sedangkan MobileFaceNet dan DeepSORT digunakan untuk mempertahankan konsistensi identitas antar-frame.
Eksperimen dilakukan melalui variasi rasio data training-validation (90:10, 50:50, dan 10:90) serta variasi parameter pelatihan berupa epoch, batch size, dan learning rate untuk menganalisis stabilitas dan kemampuan generalisasi model. Evaluasi dilakukan menggunakan metrik precision, recall, F1-score, mAP@0.5, dan validation loss pada tahap deteksi, serta MOTA, IDF1, Identity Switches, dan FPS pada tahap pelacakan. Hasil penelitian menunjukkan bahwa konfigurasi terbaik diperoleh pada rasio 90:10 dengan epoch 200, batch size 16, dan learning rate 0.0005, yang menghasilkan precision sebesar 97.20%, recall sebesar 97.04%, F1-score sebesar 97.12%, mAP@0.5 sebesar 97.33%, MOTA sebesar 83.9%, dan IDF1 sebesar 81.9%. Hasil tersebut menunjukkan bahwa integrasi Attention Mechanism pada YOLOv9 mampu meningkatkan kualitas deteksi wajah secara signifikan, sementara MobileFaceNet dan DeepSORT mampu mempertahankan konsistensi identitas objek secara efektif pada lingkungan keramaian padat.

ABSTRACT

This study aims to develop and evaluate a face detection and tracking system in dense crowd environments by integrating image preprocessing techniques, YOLOv9 with an Attention Mechanism, MobileFaceNet, and DeepSORT. Crowded environments present several challenges, including occlusion, dynamic movements, illumination variations, and differences in facial scale and viewing angles, which can reduce detection accuracy and identity consistency during tracking. The preprocessing stage applies image normalization, resolution adjustment, and data augmentation to improve input image quality, which is subsequently evaluated using Detection Score (DET), Peak Signal-to-Noise Ratio (PSNR), and Structural Similarity Index Measure (SSIM). YOLOv9 is enhanced with an Attention Mechanism to improve facial feature extraction under high-density and occlusion conditions, while MobileFaceNet and DeepSORT are employed to maintain identity consistency across video frames.
Experiments were conducted using variations of training-validation data ratios (90:10, 50:50, and 10:90) as well as training parameters, including epoch, batch size, and learning rate, to analyze model stability and generalization capability. Performance evaluation was carried out using precision, recall, F1-score, mAP@0.5, and validation loss for the detection stage, as well as MOTA, IDF1, Identity Switches, and FPS for the tracking stage. The results show that the best configuration was achieved using a 90:10 ratio with 200 epochs, a batch size of 16, and a learning rate of 0.0005, resulting in a precision of 97.20%, recall of 97.04%, F1-score of 97.12%, mAP@0.5 of 97.33%, MOTA of 83.9%, and IDF1 of 81.9%. These findings demonstrate that the integration of an Attention Mechanism into YOLOv9 significantly improves face detection performance, while MobileFaceNet and DeepSORT effectively maintain object identity consistency in dense crowd environments.

الملخص

تهدف هذه الدراسة إلى تطوير نظام كشف الوجوه وتتبعها في بيئات الحشود الكثيفة وتقييمه، من خلال دمج تقنيات المعالجة المسبقة للصور، ونموذج YOLOv9 المعزَّز بآلية الانتباه، وشبكة MobileFaceNet، وخوارزمية DeepSORT. تُفرز البيئات المزدحمة تحديات عدة، منها: الإخفاء، والحركة الديناميكية، وتباين الإضاءة، فضلاً عن الاختلافات في حجم الوجه وزوايا الرؤية، مما قد يُقلل من دقة الكشف واتساق الهوية أثناء التتبع. تُطبِّق مرحلة المعالجة المسبقة تطبيعَ الصور وضبطَ الدقة وتوسيعَ البيانات، بهدف تحسين جودة صور المدخلات، ويُقيَّم ذلك لاحقاً باستخدام درجة الكشف (DET)، ونسبة الإشارة إلى الضوضاء القمية (PSNR)، ومؤشر التشابه الهيكلي (SSIM). يُعزَّز نموذج YOLOv9 بآلية الانتباه لتحسين استخلاص السمات الوجهية في ظروف الكثافة العالية والإخفاء، فيما تُوظَّف شبكة MobileFaceNet وخوارزمية DeepSORT للحفاظ على اتساق الهوية عبر إطارات الفيديو.
أُجريت التجارب باستخدام تباينات في نسب تقسيم بيانات التدريب والتحقق (90:10، و50:50، و10:90)، ومعاملات التدريب، شاملةً عدد الحقب وحجم الدُّفعة ومعدل التعلم، وذلك لتحليل استقرار النموذج وقدرته على التعميم. جرى تقييم الأداء باستخدام مقاييس الدقة والاستدعاء ودرجة F1 ومتوسط الدقة المتوسطة mAP@0.5 وخسارة التحقق في مرحلة الكشف، إلى جانب مقاييس MOTA وIDF1 وعدد تبديلات الهوية وإطارات الثانية (FPS) في مرحلة التتبع. تُظهر النتائج أن أفضل إعداد تحقَّق باستخدام نسبة 90:10 مع 200 حقبة وحجم دُفعة 16 ومعدل تعلم 0.0005، إذ بلغت الدقة 97.20%، والاستدعاء 97.04%، ودرجة F1 نسبة 97.12%، ومتوسط الدقة المتوسطة mAP@0.5 نسبة 97.33%، فضلاً عن بلوغ MOTA نسبة 83.9% وIDF1 نسبة 81.9%. تُثبت هذه النتائج أن دمج آلية الانتباه في نموذج YOLOv9 يُحسِّن أداء كشف الوجوه تحسيناً ملحوظاً، في حين تُحافظ شبكة MobileFaceNet وخوارزمية DeepSORT بفاعلية على اتساق هوية الأجسام في بيئات الحشود الكثيفة.

Item Type: Thesis (Masters)
Supervisor: Kurniawan, Fachrul and Imamudin, Mochamad
Keywords: Kata Kunci: Deteksi wajah, Pelacakan wajah, YOLOv9, Attention mechanism, DeepSORT, Keramaian padat, Multi-object tracking; Keywords: Face detection, Face tracking, YOLOv9, Attention mechanism, DeepSORT, Dense crowds, Multi-object tracking; الكلمات المفتاحية: كشف الوجوه، تتبع الوجوه، YOLOv9، آلية الانتباه، DeepSORT، الحشود الكثيفة، تتبع الأجسام المتعددة.
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080103 Computer Graphics
08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080104 Computer Vision
08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080106 Image Processing
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Teguh Budi Santoso
Date Deposited: 25 Jun 2026 11:13
Last Modified: 25 Jun 2026 11:13
URI: http://etheses.uin-malang.ac.id/id/eprint/86418

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item