Ulinuha, Dwi Zulva (2022) Klasifikasi kalimat perbincangan masyarakat pada masa pandemi covid-19 menggunakan metode k-nearest neighbor. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
18650020.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (3MB) |
Abstract
INDONESIA :
Kalimat perbincangan masyarakat merupakan kalimat perundingan mengenai suatu topik. Topik yang banyak diperbincangkan masyarakat saat ini adalah Covid-19. Kalimat perbincangan masyarakat mengenai Covid-19 banyak ditemukan pada sosial media, salah satunya Facebook. Data kalimat perbincangan masyaraka mengenai Covid-19 disosial media memiliki jumlah yang sangat besar. Data tersebut dapat diproses untuk memperoleh informasi tersirat dengan menggunakan machine learning untuk mengklasifikasikan kalimat. Metode yang digunakan dalam penelitian ini adalah metode K-Nearest Neighbor. Metode ini dipilih karena menghasilkan data yang akurat dan efektif jumlah data yang digunakan pada data latih memiliki jumlah yang cukup besar, dan cukup kuat untuk menggunakan data latih noisy. Hasil yang didapatkan berupa klasifikasi kalimat kedalam kalimat positif atau negatif. Hasil klasifikasi ini dapat digunakan sebagai bahan refleksi dan evaluasi bagi pemerintah dalam proses penanganan dan pengembangan kebijakan baru terkait Covid-19. Selanjutnya dilakukan pengukuran performa sistem dengan menggunakan confusion matrix, dan diperoleh hasil 174 True Negative (TN), 41 False Positive (FP), 79 False Negative(FN), 106 True Positif(TP). Hasil dari confusion matrix tersebut kemudian digunakan sebagai dasar pengukuran performa sistem yang mendapatkan nilai accuracy 70%, precission 69%, recall 81%, dan F1-Score 74%. Hasil analisis pada skenario pengujian menggunakan analisis korelasi menunjukkan hubungan nilai k terhadap nilai akurasi sebesar 0,91, yang berarti nilai k memiliki hubungan yang sangat kuat dengan nilai akurasi.
ENGLISH :
Community conversation sentences are conversation sentences about a topic. The topic that is being discussed a lot today is Covid-19. Community conversations about Covid-19 are often found on social media, one of which is Facebook. The data on community conversations about Covid-19 on social media has a very large amount. The data can be processed to obtain implied information by using machine learning to classify sentences. The method used in this research is K-Nearest Neighbor. This method was chosen because it produces accurate and effective data if the data used in training data has a large enough amount, and is strong enough to use noisy training data. The results obtained are in the form of classification of sentences into positive or negative sentences. The results of the text classification can be used as material for consideration and evaluation for the government in handling and making further policies related to Covid-19. Then the system performance measurement was carried out using a confusion matrix, and the results were 174 True Negative (TN), 41 False Positive (FP), 79 False Negative(FN), 106 True Positive(TP). The results of the confusion matrix are then used as the basis for measuring system performance which gets accuracy 70% precision , recall , and F1-Score 74%. The results of the analysis in the test scenario using correlation analysis show the relationship between the k value and the accuracy value of 0.91, which means that the k value has a very strong relationship with the accuracy value.
ARABIC :
جمل محادثة المجتمع هي جملة التفاوض حول موضوع ما. الموضوع الذي ناقشه الكثير من الناس اليوم هو ,Covid-19 محادثات الناس حول Covid-19 يوجد في الغالب على وسائل التواصل الاجتماعي, إحدى هذه وسائل هي Facebook . تحتوي البيانات من محادثة المجتمع حول Facebook على وسائل التواصل الاجتماعي على قدر كبير جدًا. يمكن معالجة البيانات للحصول على معلومات ضمنية باستخدام Machine Learning لتصنيف الجمل. الطريقة المستخدمة في هذا البحث هي K-Nearest Neighbor . تم اختيار هذه الطريقة لأنها تنتج بيانات دقيقة وفعالة إذا كانت البيانات المستخدمة في بيانات التدريب تحتوي على كمية كبيرة بما يكفي. هذه الطريقة قوية أيضًا لمعالجة بيانات التدريب التي مزجعة(noisy) . النتائج التي تم الحصول عليها هي في شكل تصنيف الجمل إلى جمل إيجابية أو سلبية. يمكن استخدام نتائج هذا التصنيف كمواد للنظر فيها وتقييمها للحكومة في التعامل ووضع سياسات أخرى متعلقة ب Covid-19. الخطوة التالية هي قياس أداء النظام باستخدام مصفوفة الارتباك والتي تحصل على النتائج وهي174 True Negative (FN) , 41 False Positive (FP) 79 False Negative (FN), 106 True Positive (TP) .ثم تُستخدم نتائج Confusion Matrix كأساس لقياس أداء النظام الذي يحصل على القيمة,Accuracy 70% Precision 69%, Recall 81% , F1-Score 74%. تظهر نتائج التحليل في سيناريو الاختبار باستخدام تحليل الارتباط أن العلاقة بين قيمة K وقيمة الدقة هي 0,91, مما يعني أن قيمة K لها علاقة قوية جدًا بقيمة الدق.
Item Type: | Thesis (Undergraduate) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Kurniawan, Fachrul and Abidin, Zainal | |||||||||
Contributors: |
|
|||||||||
Keywords: | Sosial Media; K-Nearest Neighbor(K-NN); Klasifikasi Text; Confusion Matrix; Social Media; K-Nearest Neighbor(K-NN); Text Classification; Confusion Matrix; وسائل التواصل الاجتماعي; K-Nearest Neighbor (K-NN); تصنيف الجمل ; Confusion Matrix; | |||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika | |||||||||
Depositing User: | Dwi Zulva Ulinuha | |||||||||
Date Deposited: | 30 Jun 2022 14:29 | |||||||||
Last Modified: | 30 Jun 2022 14:29 | |||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/36810 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |