Sa'diyah, Halimatus (2026) Pengembangan model regresi logistik berbasis optimasi beda hingga pada klasifikasi virus SARS-CoV-2 dan Non-SARS-CoV-2. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
220601110036.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. (1MB) |
Abstract
INDONESIA:
Penelitian ini bertujuan untuk mengklasifikasikan sekuens genom SARS-CoV-2 dan Non-SARS-CoV-2 menggunakan regresi logistik yang dioptimasi dengan metode gradient descent berbasis beda hingga beda maju. Data sekuens genetik direpresentasikan dalam bentuk numerik menggunakan metode k-mer (k = 4). Metode beda hingga maju digunakan untuk menghitung gradien fungsi kerugian (log-loss) secara numerik melalui pemberian gangguan kecil pada parameter model, kemudian gradien tersebut digunakan dalam proses pembaruan parameter secara iteratif hingga mencapai kondisi konvergen. Hasil penelitian menunjukkan bahwa model memiliki performa sangat baik dengan akurasi 100%, presisi 100%, recall 100%, dan F1-score 100%. Analisis sensitivitas parameter menunjukkan bahwa learning rate yang terlalu kecil menyebabkan konvergensi lebih lambat, sedangkan learning rate yang terlalu besar membuat proses pelatihan kurang stabil. Sementara itu,step size (h) tidak berpengaruh signifikan terhadap performa model. Model juga tidak sensitif terhadap nilai awal parameter dan cenderung konvergen ke solusi yang sama. Selain itu, hasil beberapa kali percobaan menunjukkan bahwa model cenderung tidak sensitif terhadap nilai awal parameter dan menghasilkan performa yang relatif konsisten. Dengan demikian, regresi logistik berbasis optimasi beda hingga dapat digunakan sebagai alternatif yang efektif dalam klasifikasi data genom SARS-CoV-2 dan Non-SARS-CoV-2.
ENGLISH:
This study aims to classify SARS-CoV-2 and non-SARS-CoV-2 genome sequences using logistic regression optimized via a forward-backward gradient descent method. Genomic sequence data are represented numerically using the k-mer method (k = 4). The forward difference method is used to numerically calculate the gradient of the loss function (log-loss) by applying small perturbations to the model parameters; this gradient is then used in an iterative parameter update process until convergence is achieved. The results show that the model performs exceptionally well, with an accuracy of 100%, precision of 100%, recall of 100%, and an F1-score of 100%. Parameter sensitivity analysis indicates that a learning rate that is too small causes slower convergence, while a learning rate that is too large makes the training process less stable. Meanwhile, the step size (h) does not significantly affect the model’s performance. The model is also insensitive to initial parameter values and tends to converge to the same solution. Furthermore, results from multiple experiments indicate that the model is generally insensitive to initial parameter values and yields relatively consistent performance. Thus, finite difference-based logistic regression can serve as an effective alternative for classifying SARS-CoV-2 and non-SARS-CoV-2 genomic data.
ARABIC:
هدف هذا البحث إلى تصنيف تسلسلات جينوم فيروس SARS-CoV-2 وNon-SARS-CoV-2 باستخدام الانحدار اللوجستي المُحسَّن بطريقة التدرج التنازلي القائمة على الفرق المتقدم. تم تمثيل بيانات التسلسلات الجينية في شكل رقمي باستخدام طريقة k-mer (k = 4). تُستخدم طريقة التدرج إلى الأمام لحساب التدرج الدالة الخسارة (log-loss) عدديًا من خلال إحداث اضطراب بسيط في معلمات النموذج، ثم إستخدام هذا التدرج في عملية تحديث المعلمات بشكل تكراري حتى الوصول إلى حالة التقارب. أظهرت نتائج البحث أن النموذج يتمتع بأداء ممتاز بدقة 100٪، ودقة 100٪، واسترجاع 100٪، ودرجة F1 100٪. يُظهر تحليل حساسية المعلمات أن معدل التعلم الصغير جدًا يؤدي إلى تقارب أبطأ، في حين أن معدل التعلم الكبير جدًا يجعل عملية التدريب أقل استقرارًا. وفي الوقت نفسه، لا يؤثر حجم الخطوة (h) بشكل كبير على أداء النموذج. كما أن النموذج غير حساس للقيم الأولية للمعلمات ويميل إلى التقارب نحو الحل نفسه. بالإضافة إلى ذلك، أظهرت نتائج عدة تجارب أن النموذج يميل إلى عدم الحساسية تجاه القيم الأولية للمعلمات ويحقق أداءً متسقًا نسبيًا. وبالتالي، يمكن استخدام الانحدار اللوجستي القائم على التفاير التفاضلي كبديل فعال في تصنيف بيانات الجينوم لـ SARS-CoV-2 و Non-SARS-CoV-2
| Item Type: | Thesis (Undergraduate) |
|---|---|
| Supervisor: | Jamhuri, Mohammad and Rozi, Fachrur |
| Keywords: | Beda Hingga; Klasifikasi; K-mer; Regresi Logistik; SARS-CoV-2; Finite Difference; Classification; K-mer; Logistic Regression; SARS-CoV-2; SARS-CoV-2;الانحدار اللوجستي; K-mer; الفرق المتناهي ;التصنيف |
| Subjects: | 01 MATHEMATICAL SCIENCES > 0103 Numerical and Computational mathematics > 010301 Numerical Analysis |
| Departement: | Fakultas Sains dan Teknologi > Jurusan Matematika |
| Depositing User: | Halimatus Sa'diyah |
| Date Deposited: | 18 Jun 2026 09:12 |
| Last Modified: | 18 Jun 2026 09:12 |
| URI: | http://etheses.uin-malang.ac.id/id/eprint/85375 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |
