Ismail, Naufal Bakhtiar (2024) Klasifikasi topik artikel ilmiah kelompok keilmuan informatika berdasarkan abstrak menggunakan metode K-Nearest Neighbor (KNN). Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
200605110105.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (5MB) |
Abstract
INDONESIA:
Pada era informasi digital yang semakin berkembang, artikel ilmiah menjadi sumber utama dalam membagikan pengetahuan di berbagai disiplin ilmu, termasuk informatika. Namun, pencarian artikel ilmiah berdasarkan kelompok keilmuan informatika di platform seperti GARUDA masih menghadapi kendala karena kategori yang terlalu umum. Dalam upaya mengklasifikasi artikel ilmiah informatika, penelitian ini mengimplementasikan metode K-Nearest Neighbor (KNN) berdasarkan abstrak artikel. KNN merupakan metode klasifikasi dengan cara mengelompokkan data berdasarkan data training yang sudah terklasifikasi sebelumnya. Penelitian ini menguji beberapa nilai k (tetangga terdekat) dengan rasio pembagian data yang berbeda untuk mendapatkan akurasi terbaik. Nilai k yang digunakan adalah 7, 8, 9, 10, dan 11. Hasil pengujian menunjukkan bahwa rasio pembagian data 8:2 dengan nilai k=10 memberikan akurasi tertinggi sebesar 77%. Evaluasi menggunakan confusion matrix menunjukkan rata-rata nilai precision sebesar 76,74% dan recall sebesar 76,33%. Pengujian selanjutnya menggunakan metode k-fold cross validation dengan nilai k-10 dan k-15. Hasilnya menunjukkan penggunaan k-10 menghasilkan akurasi tertinggi sebesar 60,83% pada nilai k-nn sebesar 9 dengan variasi tertinggi 79,17% pada nilai k-nn sebesar 11, sedangkan k-15 memberikan akurasi tertinggi sebesar 59,58% pada nilai k-nn sebesar 10 dan 11 dengan variasi tertinggi 87,50% pada nilai k-nn sebesar 7 dan 9. Hal ini menunjukkan bahwa penggunaan metode k-fold cross validation dapat secara signifikan meningkatkan akurasi model. Implementasi metode ini diharapkan dapat memberikan manfaat signifikan bagi praktisi, peneliti, dan mahasiswa dalam mengakses informasi dengan lebih efisien dan akurat.
ENGLISH:
In the era of growing digital information, scientific articles are the main source of sharing knowledge in various disciplines, including informatics. However, searching for scientific articles based on informatics scientific groups on platforms such as GARUDA still faces obstacles because the categories are too general. In an effort to classify scientific informatics articles, this research implements the K-Nearest Neighbor (KNN) method based on article abstracts. KNN is a classification method by classifying data based on training data that has been previously classified. This research tests several k (nearest neighbor) values with different data sharing ratios to get the best accuracy. The k values used are 7, 8, 9, 10, and 11. The test results show that the data division ratio of 8:2 with the value of k = 10 gives the highest accuracy of 77%. Evaluation using confusion matrix shows an average precision value of 76.74% and recall of 76.33%. Further testing uses the k-fold cross validation method with k-10 and k-15 values. The results show that the use of k-10 produces the highest accuracy of 60.83% at a k-nn value of 9 with the highest variation of 79.17% at a k-nn value of 11, while k-15 gives the highest accuracy of 59.58% at k-nn values of 10 and 11 with the highest variation of 87.50% at k-nn values of 7 and 9. This shows that the use of the k-fold cross validation method can significantly improve model accuracy. The implementation of this method is expected to provide significant benefits for practitioners, researchers, and students in accessing information more efficiently and accurately.
ARABIC:
في عصر المعلومات الرقمية المتنامية، تعد المقالات العلمية المصدر الرئيسي في تبادل المعرفة في مختلف التخصصات، بما في ذلك المعلوماتية. ومع ذلك، لا يزال البحث عن المقالات العلمية استنادًا إلى المجموعات العلمية المعلوماتية على منصات مثل GARUDA يواجه عقبات لأن التصنيفات عامة جدًا. في محاولة لتصنيف المقالات المعلوماتية العلمية، يطبق هذا البحث طريقة K-Nearest Neighbor (KNN)استنادًا إلى ملخصات المقالات. KNN هي طريقة تصنيف من خلال تصنيف البيانات بناءً على بيانات التدريب التي تم تصنيفها مسبقًا. اختبر هذا البحث عدة قيم لـ k (أقرب جار) مع نسب مختلفة لمشاركة البيانات للحصول على أفضل دقة. والقيم k المستخدمة هي٧, ٨, ٩, ١٠و ١١. تُظهر نتائج الاختبار أن نسبة تقسيم البيانات ٨:٢ مع قيمة k=10 تعطي أعلى دقة تبلغ 77%. يُظهر التقييم باستخدام confusion matrixقيمة دقة متوسطة تبلغ 76.74% واستدعاء 76.33%. يستخدم المزيد من الاختبارات طريقة k-fold cross validationبقيم k-10 و k-15. تُظهر النتائج أن استخدام k-10 يُنتج أعلى دقة تبلغ 60.83% عند قيمة k-nn 9 مع أعلى تباين يبلغ 79.17% عند قيمة k-n 11 ، بينما يعطي k-15 أعلى دقة تبلغ 59.58% عند قيم k-nn 10 و11 مع أعلى تباين يبلغ 87.50% عند قيم k-nn 7 و9. وهذا يدل على أن استخدام طريقة k-fold cross validation يمكن أن يحسن دقة النموذج بشكل كبير. من المتوقع أن يوفر تطبيق هذه الطريقة فوائد كبيرة للممارسين والباحثين والطلاب في الوصول إلى المعلومات بشكل أكثر كفاءة ودقة.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Hariri, Fajar Rohman and Hariyadi, Mokhamad Amin |
Keywords: | Klasifikasi Artikel Ilmiah; K-Nearest Neighbor; K-Fold Cross Validation Scientific Article Classification; K-Nearest Neighbor; K-Fold Cross Validation تصنيف املقاالت العلمية،K-Fold Cross Validation; K-Nearest Neighbor |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Naufal Bakhtiar Ismail |
Date Deposited: | 23 Jul 2024 08:51 |
Last Modified: | 05 Aug 2024 13:13 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/66000 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |