Putri, Salma Azmi Anggita (2024) Deteksi hoax pada berita kesehatan Berbahasa Indonesia menggunakan algoritma multinomial naïve bayes. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
19650075.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (3MB) | Preview |
Abstract
Indonesia:
Salah satu manfaat dari sosial media adalah menyebarkan informasi. Sosial media digunakan untuk wadah dari persebaran berita. Salah satunya adalah berita kesehatan. Namun, realitanya berita mengenai kesehatan yang tersebar melalui sosial media tidak seluruhnya adalah merupakan fakta. Saat ini berita hoaks semakin banyak bermunculan. Untuk meminimalisasi penyebaran berita hoaks terutama pada berita kesehatan, maka dilakukan penelitian deteksi berita hoaks mengenai kesehatan berbahasa Indonesia berdasarkan kata-kata yang menyusun berita tersebut. Deteksi hoaks ini akan diimplementasikan ke dalam aplikasi yang berbasis web. Metode yang digunakan dalam proses deteksi hoaks adalah metode klasifikasi Multinomial Naïve Bayes. Multinomial Naïve Bayes, digunakan untuk pengklasifikasian dokumen atau teks yang mana fungsi tersebut tepat untuk diterapkan pada penelitian ini yang menggunakan data berbentuk teks. Pada metode Multinomial Naïve Bayes, frekuensi kemunculan kata-kata dalam dokumen dihitung dengan tujuan untuk proses klasifikasi. Frekuensi kemunculan kata dihitung dengan menghitung bobot kata dengan TF-IDF. Data yang digunakan dalam penelitian ini, diperoleh dengan melakukan web scraping pada situs detikcom untuk kategori berita fakta dan turnbackhoax untuk memperoleh data berita hoaks. Hasil pengujian dari proses identifikasi menggunakan metode confusion matrix dan didapatkan dengan nilai akurasi sebesar 84.3% dan precision, recall, f-measure masing-masing bernilai 100%, 68.6%, dan 81.39%. Selain itu, pada tahap uji coba yang dilakukan di aplikasi berbasis web, dari 12 berita yang terdiri dari 6 berita fakta dan 6 berita hoaks, terdapat kesalahan deteksi karena teks berita yang terlalu singkat. Sehingga, mesin sulit mendeteksi sescara tepat. Oleh karena itu, diperlukan penelitian lanjutan untuk menyempurnakan mesin deteksi ini, contohnya dengan menggunakan metode yang lain atau fitur yang lain.
English:
One benefit of social media is a media for distributing news. In reality, not all health news on social media is factual. Nowadays, hoax news often occurs. To minimize the spread of hoax news, especially health news, the researcher studied Indonesian hoax health news based on their words. The detection is implemented into a web-based application. The researcher employed the Multinomial Naïve Bayes classification method in the process of hoax detection to classify documents or texts. The word frequency in the document is counted for classification by calculating the word weight using the TF-IDF. The research data were obtained using web scraping on the detikcom website for fact news and turnback hoax category to get hoax news data. The test result of the identification process using the confusion matrix method gets an accuracy, precision, recall, and f-measure of 84.3%, 100%, 68.6%, and 81.39%, respectively. In addition, during the try-out process, a web-based application consisting of six factual news and six hoaxes experiences detection failure due to too short news text. The machine is hard to detect correctly. Therefore, it needs further study to improve the performance of the detection machine, for example by using other methods or features.
Arabic:
من فوائد وسائل التواصل الاجتماعي هي نشر المعلومات. استخدمت وسائل التواصل الاجتماعي كحاوية لنشر الأخبار. منها الأخبار الصحية. ومع ذلك، فإن الحقيقة هي أن الأخبار الصحية المنتشرة عبر وسائل التواصل الاجتماعي ليست حقيقة كاملة. حاليا، تظهر أخبار الخدعة بشكل متزايد. لتقليل انتشار الأخبار الخادعة، خاصة في الأخبار الصحية، تم إجراء بحث حول كشف الأخبار الصحية الخادعة باللغة الإندونيسية بناء على الكلمات التي تشكل الأخبار. سيتم تنفيذ كشف الخدعة هذا في تطبيق قائم على الويب. الطريقة المستخدمة في عملية الكشف عن الخدعة هي طريقة تصنيف ساذج بايز متعدد الحدود. استخدمت هذه الطريقة لتصنيف الوثائق أو النصوص حيث تكون الوظيفة مناسبة للتطبيق على هذا البحث الذي يستخدم البيانات في شكل نص. في هذه الطريقة، تم حساب تكرار حدوث الكلمات في المستند لغرض عملية التصنيف. تم حساب تكرار حدوث الكلمة عن طريق حساب وزن الكلمة باستخدام TF-IDF. تم الحصول على البيانات المستخدمة في هذا البحث عن طريق تجريف الويب على موقع detikcom لفئة الأخبار الواقعية وخدعة الارتداد للحصول على بيانات إخبارية خادعة. استخدمت نتائج اختبار عملية تحديد الهوية طريقة مصفوفة الارتباك وتم الحصول عليها بقيمة دقة 84.3٪ وقيمة الدقة والاستدعاء وقياس f بنسبة 100٪ و 68.6٪ و 81.39٪ على التوالي. بالإضافة إلى ذلك، في المرحلة التجريبية التي أجريت في التطبيق المستند إلى الويب، من بين 12 خبرا تتكون من 6 أخبار واقعية و 6 أخبار خادعة، كان هناك خطأ في الكشف بسبب نص إخباري قصير جدا. لذلك، يصعب على الجهاز الكشف بالطريقة الصحيحة. لذلك، هناك حاجة إلى مزيد من البحث لتحسين محرك الكشف هذا، على سبيل المثال باستخدام طرق أخرى أو ميزات أخرى.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Crysdian, Cahyo and Hariyadi, M. Amin |
Keywords: | berita kesehatan; naïve bayes; multinomial naïve bayes; deteksi hoax; health news; naïve bayes; multinomial naïve bayes; hoax detection; أخبار صحية; ساذج بايز; ساذج بايز متعدد الحدود; كشف خدعة |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Salma Azmi Anggita Putri |
Date Deposited: | 29 Oct 2024 09:03 |
Last Modified: | 29 Oct 2024 09:03 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/69768 |
Downloads
Downloads per month over past year
Actions (login required)
![]() |
View Item |