Usman, Baso Abrar (2021) Klasifikasi tanggapan masyarakat tentang covid-19 menggunakan improved k-nearest neighbor studi kasus Indonesia. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
16650122.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (1MB) | Preview |
Abstract
INDONESIA:
Teks mining dimanfaatkan untuk mencari informasi dan memasukkannya kedalam kategori yang sudah disiapkan, Penggunaan Media digital yang berkembang pesat membuat popularitas Teks Mining untuk Analisis Sentimen meningkat pesat, karena didalam teks terdapat emosi yang diekspresikan. Semua emosi itu mereka tuliskan dalam bentuk teks dan di unggah ke dunia maya, menyebabkan keragaman data yang dapat diperoleh. Banyaknya data tersebut membuat resah sebagaian masyarakat karena semakin banyak konten yang tidak baik dan bersifat merugikan, diantaranya hate speech, hoax tentang pandemi Covid-19, dan menyebabkan polemik di kalangan masyarakat. Oleh karena itu peneliti membuat sistem yang mampu mengklasifikasi sentimen masyarakat secara otomatis, dengan harapan peneltian ini bisa menjadi alat bantu pemerintah agar bisa mengontrol konten yang tesebar di dunia maya. Data yang di gunakan adalah data yang dikumpulkan dari bulan awal terjadinya pandemi yakni bulan Mei Juni dan Juli 2020. Pada penelitian ini Klasifikasi Opini dikembangkan dengan menggunakan metode Improved K-Nearest Neighbor, sebelum itu teks harus melalui 6 tahapan pre-processing (terdiri dari Case Folding, Cleansing, Tokeninzing, Normalisasi, Stopword Removal dan Stemming) yang selanjutnya teks akan dilakukan perhitungan bobot teks menggunakan metode TF-IDF dan proses akhir adalah mengklasifikasi data tersebut kedalam kategori sentiment negatif atau positif, menggunakan metode Improved K Nearest Neighbor. Untuk menghitung akurasi metode diguanakan Confusion Matrix didalamnya dibandingkan antara data yang diklasifikasi manual dan data yang diklasifikasi oleh sistem.Improved K Nearest Neighbor dipilih karena akurasi dan performa yang baik, pada pengujian ke -1 menghasilkan akurasi sebesar 92%, pengujian ke-2 menghasilkan 94% dan pengujian ke -3 menghasilkan 90%, nilai akan berubah tergantung dari kualitas data latih dan kamus normalisasi yang digunakan.
ENGLISH:
Text mining was used to find the information and put it into a category that had been prepared, Use of digital Media is growing rapidly make the popularity of Text Mining for Sentiment Analysis is increasing rapidly, because in the text there are the emotions that are expressed. All the emotions that they write in text form and uploaded into the virtual world, causing the diversity of data that can be obtained. The amount of data the restless part of the community because the more content that is not better and be detrimental, such as hate speech, hoaxes about the pandemic Covid-19, and cause polemics among the people. Therefore, researchers make the system able to classify the sentiment of the community automatically, with the hope of this research can be a tool for the government to be in control of the content being in the virtual world. Data in use is the data collected from the month of the beginning of the pandemic, namely the months of May June and July 2020. In this study, the Classification of Opinion developed using the Improved K-Nearest Neighbor, before it the text should be through the 6 stages of pre-processing (consisting of Case Folding, Cleansing, Tokeninzing, Normalization, Stopword Removal and Stemming) the next text will be carried out the calculation of the weights of the text using the method of TF-IDF and the final process is to classify the data into the category of sentiment negative or positive, using the Improved K Nearest Neighbor. To calculate the accuracy of the method primarily used Confusion Matrix therein comparison between the data classified manually and the data were classified by the system.Improved K Nearest Neighbor is selected because of its accuracy and performance on testing to -1 produces an accuracy of 92%, testing to-2 resulted in 94% and testing to -3 produces 90%, the value will change depending of the quality of the training data and the dictionary of the normalization is used.
ARABIC:
تم استخدام التعدين النص للعثور على المعلومات ووضعها في الفئة التي تم إعدادها ، واستخدام وسائل الإعلام الرقمية ينمو بسرعة جعل شعبية التعدين النص لتحليل المشاعر يتزايد بسرعة ، لأنه في النص هناك العواطف التي يتم التعبير عنها. كل المشاعر التي يكتبونها في شكل نص وتحميلها في العالم الافتراضي ، مما تسبب في تنوع البيانات التي يمكن الحصول عليها. كمية البيانات الجزء المضطرب من المجتمع لأن المزيد من المحتوى الذي ليس أفضل ويكون ضارا ، مثل خطاب الكراهية ، والخدع حول جائحة Covid-19 ، وتسبب الجدل بين الناس. لذلك ، يجعل الباحثون النظام قادرا على تصنيف مشاعر المجتمع تلقائيا ، على أمل أن يكون هذا البحث أداة للحكومة للتحكم في المحتوى الموجود في العالم الافتراضي. البيانات المستخدمة هي البيانات التي تم جمعها من شهر بداية الوباء ، أي شهري مايو ويوليو 2020. في هذه الدراسة ، تصنيف الرأي وضعت باستخدام تحسين أقرب جار ، قبل أن النص يجب أن يكون من خلال مراحل ما قبل المعالجة (تتألف من حالة للطي ، والتطهير ، التطبيع ، إزالة ووقف) سيتم تنفيذ النص التالي من حساب أوزان النص باستخدام طريقة جيش الدفاع الإسرائيلي والعملية النهائية هي لتصنيف البيانات في فئة المشاعر السلبية أو الإيجابية ، وذلك باستخدام تحسين أقرب جار. لحساب دقة الطريقة المستخدمة في المقام الأول مصفوفة الارتباك فيه مقارنة بين البيانات المصنفة يدويا والبيانات تم تصنيفها من قبل النظام.يتم اختيار تحسين ك أقرب جار بسبب دقتها والأداء على اختبار ل -1 تنتج دقة 92٪ ، أدى اختبار ل - 2 في 94٪ واختبار ل -3 تنتج 90٪ ، فإن قيمة تتغير اعتمادا على نوعية بيانات التدريب ويستخدم قاموس التطبيع.
Item Type: | Thesis (Undergraduate) | |||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Kurniawan, Fachrul and Nugroho, Fresy | |||||||||||||||
Contributors: |
|
|||||||||||||||
Keywords: | Analisis Sentimen; Improved K-Nearest neighbor; Teks Mining; Twitter; Confusion Matrix. Sentiment Analysis; Improved K-Nearest neighbor; Text Mining; Twitter; Confusion Matrix تحليل المشاعر ;وتحسين أقرب جار ;والتعدين النص ;تويتر ;مصفوفة الارتباك | |||||||||||||||
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080201 Analysis of Algorithms and Complexity 08 INFORMATION AND COMPUTING SCIENCES > 0802 Computation Theory and Mathematics > 080299 Computation Theory and Mathematics not elsewhere classified 08 INFORMATION AND COMPUTING SCIENCES > 0803 Computer Software > 080308 Programming Languages 08 INFORMATION AND COMPUTING SCIENCES > 0899 Other Information and Computing Sciences > 089999 Information and Computing Sciences not elsewhere classified |
|||||||||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika | |||||||||||||||
Depositing User: | Baso Abrar Usman | |||||||||||||||
Date Deposited: | 25 Jan 2022 22:15 | |||||||||||||||
Last Modified: | 25 Jan 2022 22:15 | |||||||||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/31786 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |