Alfianita, Rizha (2024) Deteksi pertanyaan insincere pada komunitas tanya jawab online menggunakan metode multinomial naive bayes. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
200605110177.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) |
Abstract
INDONESIA:
Terdapat beragam kemudahan yang ditawarkan oleh platform komunitas tanya jawab online. Platform ini memungkinkan pengguna mengajukan pertanyaan langsung daripada harus mencarinya melalui mesin pencari sehingga dapat menghemat waktu. Alih-alih menelusuri ribuan situs, pengguna dapat langsung mendapatkan jawaban yang relevan. Namun, di samping banyaknya kemudahan yang ditawarkan, platform ini juga menghadapi beberapa tantangan. Salah satunya adalah munculnya pertanyaan insincere, seperti yang saat ini dihadapi oleh Quora. Pertanyaan-pertanyaan insincere ini ditandai dengan beberapa karakteristik, diantaranya memiliki nada yang tidak netral, bersifat meremehkan atau menghasut, tidak berdasarkan kenyataan, dan menggunakan konten seksual. Penelitian ini menggunakan Multinomial Naïve Bayes untuk mendeteksi pertanyaan insincere tersebut. Performa sistem diukur dengan mengunakan confusion matrix meliputi metrik accuracy, precision, recall, dan F1-score. Hasil terbaik didapatkan pada rasio data 90% data latih dan 10% data uji dengan nilai accuracy 0.83, precision 0.76, recall 0.94, dan F1-score 0.84. Model divalidasi menggunakan k-fold cross validation pada k=10 yang menghasilkan rata-rata accuracy 0.82. Analisis kata menggunakan TF-IDF dilakukan untuk menemukan kata-kata yang merepresentasikan masing-masing kelas. Hasil analisis menunjukkan bahwa kelas sincere didominasi oleh kata ‘best’, ‘get’, ‘good’, dan ‘like’, sementara kelas insincere ditandai dengan kata ‘people’, ‘woman’, ‘trump’, dan ‘muslim’. Penelitian ini juga menunjukkan bahwa semakin banyak data latih yang digunakan maka performa model menjadi semakin meningkat. Diharapkan penelitian ini dapat membantu mengurangi konten toxic seperti pertanyaan insincere sebagai upaya peningkatan kualitas platform komunitas tanya jawab online.
ENGLISH:
Online question-and-answer community platform offers ease. It enables the users to directly ask questions rather than browsing them using search engines to save time. Instead of browsing thousands of sites, users can directly get relevant answers. However, besides its ease, the platform also faces challenges, one of which is insincere questions. They often come to Quora nowadays. The question is marked by some characteristics, such as using a one-sided tone, disdain and provocative, unrealistic, and sexual content. The research employs Multinomial Naïve Bayes to detect these insincere questions. The system performance is measured using confusion matrixes, including accuracy, precision, recall, and F1-score. The best result is achieved using a ratio of 90% of training data and 10% of testing data with accuracy, precision, recall, and F1 scores are 0.83, 0.76, 0.94, and 0.84, respectively. The model is verified using k-fold cross-validation at k=10, leading to an accuracy average of 0.82. Word analysis using TF-IDF aims to search for words representing each class. The analysis shows that the sincere class is dominated by the words ‘best’, ‘get’, ‘good’, and ‘like’. Meanwhile, the insincere class is indicated with the word ‘people’, ‘woman’, ‘trump’, and ‘muslim’. The research also shows that the more training data used, the more the model performance increases. It is expected to help reduce toxic content, like insincere questions, to improve the quality of online question-and-answer platforms.
ARABIC:
هناك عدة وسائل الراحة التي توفرها منصات الأسئلة والأجوبة المجتمعية عبر الإنترنت. تتيح المنصة للمستخدمين طرح الأسئلة مباشرة بدلا من الاضطرار إلى البحث عنها من خلال محركات البحث وبالتالي توفير الوقت. بدلا من تصفح آلاف المواقع، يمكن للمستخدمين الحصول على إجابات ذات صلة على الفور. ومع ذلك، بالإضافة إلى عدة وسائل الراحة المتوفرة، تواجه المنصة أيضا بعض التحديات. أحدها هو ظهور أسئلة جوهرية، مثل تلك التي يواجهها Quora حاليا. تتميز هذه الأسئلة غير الصادقة بعدة خصائص، بما في ذلك وجود نغمة غير محايدة أو مهينة أو تحريضية، ولا تستند إلى الواقع، واستخدام المحتوى الجنسي. استخدم هذا البحث مصنف بايزي ساذج متعدد الحدود للكشف عن هذه الأسئلة غير الصادقة. تم قياس أداء النظام باستخدام مصفوفة الارتباك بما في ذلك الدقة والثبات والاستدعاء وقيمة ف1. تم الحصول على أفضل النتائج في نسبة البيانات 90٪ من بيانات التدريب و 10٪ من بيانات الاختبار بقيمة دقة 0.83، ثبات 0.76، استدعاء 0.94 ، وقيمة ف1 0.84. تم التحقق من صحة النموذج باستخدام التحقق المتقاطع k-fold عند k = 10 مما أدى إلى متوسط دقة 0.82. تم إجراء تحليل الكلمات باستخدام TF-IDF للعثور على الكلمات التي تمثل كل فئة. أظهرت نتائج التحليل أن الطبقة (sincere) المخلصة تهيمن عليها كلمات "best" و "get" و "good" و "like"، بينما تتميز الطبقة (insincere) غير المخلصة بكلمات "people" و "woman" و "trump" و "muslim". أظهرت أيضا كلما تم استخدام المزيد من بيانات التدريب، أصبح أداء النموذج أفضل. من المأمول أن يساعد هذا البحث في تقليل المحتوى السام (toxic) مثل الأسئلة غير الصادقة كمحاولة لتحسين جودة منصات الأسئلة والأجوبة المجتمعية عبر الإنترنت.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Crysdian, Cahyo and Imamudin, Mochamad |
Keywords: | Deteksi; Pertanyaan Insincere; Multinomial Naïve Bayes; TF-IDF; Detection; Insincere Questions; كشف، أسئلة غير صادقة، مصنف بايزي ساذج متعدد الحدود |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing 08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080201 Analysis of Algorithms and Complexity |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Rizha Alfianita |
Date Deposited: | 23 Jul 2024 11:01 |
Last Modified: | 23 Jul 2024 11:01 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/66013 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |