Arohman, Rifky Martin (2024) Klasifikasi paper bertema teknologi informasi dengan menggunakan metode Naive Bayes Classifier. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
![]() |
Text (Fulltext)
17650007.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (3MB) |
Abstract
Indonesia:
Penelitian ini mengeksplorasi pengklasifikasian paper bertema teknologi informasi menggunakan Naive Bayes Classifier. pada penelitian ini bertujuan untuk mengkategorikan paper bertema teknologi informasi ke dalam lima kategori yang berbeda yaitu Sistem Informasi (IS), Ilmu Komputer (CS), Teknik Komputer (CE), Rekayasa Perangkat Lunak (SE), dan Informatika (IF). Metodologi penelitian meliputi penyiapan dataset dari 600 kata kunci dari abstrak paper bertema IT, mengekstraksi kata kunci, dan memberi label pada setiap kata kunci sesuai kategori yang ditentukan. Penelitian ini melakukan eksperimen dalam tiga skenario, yang pertama dominasi satu kategori, kedua minoritas satu kategori, dan yang terakhir kata kunci secara acak. Hasilnya menunjukkan bahwa metode Naive Bayes Classifier efektif, dengan tingkat keberhasilan yang bervariasi bergantung pada percobaan dari kata kunci. Ketika satu kategori mendominasi, pengklasifikasi menunjukkan akurasi yang tinggi tetapi tingkat akurasi yang bervariasi, yang menunjukkan kesulitan dalam mengenali beberapa contoh. Sebaliknya, ketika salah satu kategori berada pada minoritas, presisi tetap tinggi, namun akurasi dan recall lebih tidak konsisten, terutama untuk kategori IF. Skenario percobaan pada acak dan merata menunjukkan bahwa distribusi kata kunci merata secara signifikan meningkatkan akurasi, presisi, dan perolehan, sehingga menghasilkan performa model yang lebih konsisten. Kesimpulannya, distribusi percobaan data yang seimbang meningkatkan keandalan dan konsistensi pengklasifikasi di semua metrik. Sebaliknya, distribusi yang tidak seimbang memengaruhi kemampuan model untuk mengenali instance dari kategori tertentu secara akurat meskipun presisinya tetap tinggi.
Arab:
يستكشف هذا البحث تصنيف الأوراق البحثية المتعلقة بتكنولوجيا المعلومات باستخدام Naive Bayes Classifier. يهدف هذا البحث إلى تصنيف الأوراق البحثية التي تتناول موضوع تكنولوجيا المعلومات إلى خمس فئات مختلفة، وهي نظم المعلومات (IS)، وعلوم الكمبيوتر (CS)، وهندسة الكمبيوتر (CE)، وهندسة البرمجيات (SE)، والمعلوماتية (IF). تتضمن منهجية البحث إعداد مجموعة بيانات مكونة من 600 كلمة رئيسية من الملخصات الورقية المتعلقة بتكنولوجيا المعلومات، واستخراج الكلمات الرئيسية، وتصنيف كل كلمة رئيسية وفقًا للفئة المحددة. أجرى هذا البحث تجارب في ثلاثة سيناريوهات، الأول هو هيمنة فئة واحدة، والثاني هو الأقلية في فئة واحدة، والأخير هو الكلمات الرئيسية العشوائية. أظهرت النتائج أن طريقة Naive Bayes Classifier فعالة، حيث تختلف معدلات النجاح حسب الكلمات الرئيسية التي تم اختبارها. عندما تهيمن فئة واحدة، يظهر المصنف دقة عالية ولكن مستويات متفاوتة من الدقة، مما يشير إلى صعوبة التعرف على بعض الأمثلة. على العكس من ذلك، عندما تكون إحدى الفئات في الأقلية، تظل الدقة عالية، ولكن الدقة والاستدعاء أكثر عدم اتساق، خاصة بالنسبة لفئة IF. تظهر السيناريوهات التجريبية للتوزيع العشوائي والمتساوي أنه حتى توزيع الكلمات الرئيسية يؤدي إلى تحسين الدقة والدقة والتذكر بشكل كبير، مما يؤدي إلى أداء نموذج أكثر اتساقًا. في الختام، يؤدي التوزيع التجريبي المتوازن للبيانات إلى تحسين موثوقية واتساق المصنف عبر جميع المقاييس. وعلى العكس من ذلك، يؤثر التوزيع غير المتوازن على قدرة النموذج على التعرف بدقة على مثيلات فئة معينة على الرغم من أن دقتها تظل عالية.
nggris:
This research explores the classification of information technology themed papers using the Naive Bayes Classifier. This research aims to categorize information technology themed papers into five different categories, namely Information Systems (IS), Computer Science (CS), Computer Engineering (CE), Software Engineering (SE), and Informatics (IF). The research methodology includes preparing a dataset of 600 keywords from IT-themed paper abstracts, extracting the keywords, and labeling each keyword according to the specified category. This research conducted experiments in three scenarios, the first being dominance of one category, the second being minority in one category, and the last being random keywords. The results show that the Naive Bayes Classifier method is effective, with success rates varying depending on the keywords tested. When one category dominates, the classifier shows high accuracy but varying levels of accuracy, indicating difficulty in recognizing some examples. Conversely, when one of the categories is in the minority, precision remains high, but accuracy and recall are more inconsistent, especially for the IF category. Experimental scenarios on random and even distribution show that even keyword distribution significantly improves accuracy, precision, and recall, resulting in more consistent model performance. In conclusion, a balanced trial distribution of data improves the reliability and consistency of the classifier across all metrics. Conversely, an unbalanced distribution affects the model's ability to accurately recognize instances of a given category even though its precision remains high.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Yaqin, M. Ainul and Zaman, Syahiduz |
Keywords: | Klasifikasi; Naïve Bayes Classifier; Paper; Teknologi Informatika ال Klasifikasi;Naïve Bayes Classifier; الورق; تكنولوجيا المعلومات Classificasi; Naïve Bayes Classifier; Paper; Information technology |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0804 Data Format > 080403 Data Structures 08 INFORMATION AND COMPUTING SCIENCES > 0804 Data Format > 080499 Data Format not elsewhere classified |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Eden Baxter Clio Mccray |
Date Deposited: | 30 Jul 2024 14:37 |
Last Modified: | 30 Jul 2024 14:37 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/65309 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |