Dewantara, Fajar (2022) Identifikasi jenis penyakit berdasarkan gejala menggunakan metode Multinomial Naive Bayes. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
17650063.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) | Preview |
Abstract
INDONESIA:
Penelitian ini melakukan identifikasi jenis penyakit berdasarkan gejala yang mengidap pada manusia. Identifikasi jenis penyakit diperlukan dalam layanan kesehatan digital. Dalam melakukan identifikasi jenis penyakit, algoritma yang digunakan adalah Multinomial Naive Bayes. Algoritma Multinomial Naive Bayes merupakan salah satu kecerdasan buatan dimana dapat melakukan klasifikasi atau identifikasi terhadap data baru dengan cukup baik dan hanya memerlukan penyimpanan ruang yang sangat kecil. Sehingga metode tersebut cocok untuk diimplementasikan ke dalam penelitian ini yang memiliki data relatif besar. Penelitian ini menggunakan data sekunder dengan melakukan teknik scraping pada situs http://sehatq.com. Data tersebut memiliki jumlah sebesar 586 dokumen dengan mengekstraksi informasi jenis penyakit sebagai kelas dan gejala sebagai atribut seleksi fitur. Data memiliki sebanyak tujuh kelas jenis penyakit, setiap kelas memiliki jumlah dokumen yang berbeda. Hasil pengujian dari proses identifikasi menggunakan metode confusion matrix dan didapatkan dengan nilai akurasi sebesar 85.4% dan recall, precision, f-measure masing-masing bernilai 49.1%. Berdasarkan hasil pada pengujian dapat disimpulkan bahwa hasil dari recall, precision dan f-measure memiliki perbedaan yang tidak signifikan dari hasil akurasi. Hal ini dikarenakan proses text preprocessing, TF-IDF dan Multinomial Naive Bayes mengalami kesalahan dalam mengidentifikasi jenis penyakit. Selain itu, ukuran data tiap kelas yang jauh berbeda dapat mengakibatkan proses pembelajaran tidak relevan sehingga terjadinya data overfitting. Dengan menambahkan data supaya memiliki kesetaraan ukuran data tiap kelas diharapkan dapat mengurangi masalah tersebut.
ENGLISH:
This research is identifying the type of disease by using symptoms which are affected people. In identifying the type of disease, this research uses Multinomial Naive Bayes method. Identifying the type of disease required by health services digital, uses Multinomial Naive Bayes algorithm. Multinomial Naive Bayes is one of machine learning that can classify or identify the new data quite well and only requires a small storage space that is suitable for this research which has many data relatively. This research uses secondary data collected using scraping techniques on http://sehatq.com site. Data has 586 documents with type of disease information as a class and symptoms as an atribute for feature selection. There are seven classes, each class has different total of the documents. Result of the identification process using confusion matrix method are 85.4% for accuracy and 49.1% for recall, precision, and f-measure. Based on the result, it concludes that the results of those recall, precision, and f-measure have much different value from the accuracy. It is because of those text preprocessing, TF-IDF and Multinomial Naive Bayes failed to identify the type of disease. In addition, total of documents for each class are different, so it makes the machine learning can not be relevant and becomes overfitting. In adding amount of data same as the other classes, hopefully it solves the problem.
مستخلص البحث:
هذا يستخدم ، الرض نوع تديد ف .الناس تتأثر الت العراض بستخدام الرض نوع تديد هو البحث هذا السذاجة بيز خوارزاية يستخدم ، الرقمية الصحية الداات تتطلبه الذي الرض نوع تديد .الدود اتعددة السذاجة بيز طريقة جيد بشكل الديدة البيانت تديد أو تصنيف يكن الت ايل التعلم ان واحدة هي بيز ساذجة الدود اتعددة .الدود اتعددة البحث هذا يستخدم .نسبيا البيانت ان العديد لديه الذي البحث لذا اناسبة هي الت غرية تزين اساحة سوى ويتطلب جدا وثيقة 586 على البيانت تتوي .الوقع http://sehatq.com على الكشط تقنيات بستخدام جعها ت الت الثانوية البيانت عملية نتيجة .الوثئق ان متلف مموع لديها فئة كل ، فئات سبع هناك .اليزة لختيار كميزةوأعراض كفئةالرض اعلواات نوع اع فإنه ، النتيجة ىل استنادا .والقياس والدقة لللستدعاء49.1 و للدقة ل 85.4 هي الرتباك اصفوفة طريقة بستخدام الوية تديد فريق فشل ، للنص السبقة العالة تلك وبسبب .الدقة عن كثيا متلفة قيمة لا قياس و والدقة الستدعاء تلك نتائج أن ىل يلص فئة لكل الوثئق مموع ، ذلك ىل وبسضافة .الرض نوع تديد ف الدود اتعدد الساذج وبيز اسسرائيلي الدفاع جيش-العمل ، الخرى الفئات نفس البيانت ان كمية ىضافة ف .التجهيز ويصبح غلة ذات تكون أن يكن ل ايلة تعلم يعل لذلك ، متلفة .الشكلة يل أن نال
Downloads
Downloads per month over past year
Actions (login required)
View Item |