Romadhoni, Yuliana (2022) Klasifikasi kalimat perbincangan masyarakat terhadap pandemi covid-19 pada twitter dengan metode long short-term memory. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
18650012.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (3MB) |
Abstract
INDONESIA :
Ditemukan virus baru yang bernama Covid-19 pada tanggal 31 Desember 2019 di
daerah Wuhan, China. virus tersebut ramai diperbincangkan masyarakat pada media sosial.
Perbincangan masyarakat ini dapat digunakan pemerintahan untuk memperbaiki kebijakan
pada saat pandemi dengan cara klasifikasi teks. Klasifikasi teks ini membutuhkan metode
yang terbaik untuk mengukur nilai akurasi, presisi, Recall dan F1-Score. Long short-term
memory merupakan metode deep learning yang biasa digunakan proses klasifikasi dengan
nilai akurasi yang tinggi. oleh karena itu, penelitian ini menggunakan metode tersebut
untuk mengukur nilai akurasi dengan menggunakan Bahasa pemrograman python.
Sebelum dilakukan perhitungan menggunakan metode LSTM, data yang akan dilakukan
percobaan diambil dengan cara crawling data pada Twitter menggunakan API Twitter dan
mendapatkan data sebanyak 3904 data tweet yang akan dilakukan pelabelan oleh ahli
Bahasa, mendapatkan 2847 data positif dan 1057 data negatif data tersebut akan dilakukan
preprocessing untuk mendapatkan data yang bersih, setelah itu dilakukan pembagian data
menjadi 2 bagian dengan rasio 80:20 yaitu data training dan testing dan dilakukan
pembobotan kata menggunakan metode TF-IDF. Metode Long short-term memory
membutuhkan nilai epoch dan nilai learning rate yang akan digunakan untuk mencari nilai
akurasi dan nilai MSE, error pada data training. Penelitian ini telah menetapkan learning
rate terbaik yaitu 0.04 menghasilkan nilai MSE sebesar 0.0031 dan epoch 200 yang
memiliki nilai akurasi tertinggi serta error yang rendah yaitu nilai akurasi training sebesar
0.997% dan nilai error sebesar 0.0128%. Serta mendapat nilai akurasi testing sebesar
sebesar 80%, nilai Recall sebesar 84%, nilai Presisi sebesar 90% dan nilai F1-Score
sebesar 87%.
ENGLISH :
A new virus named Covid-19 was discovered on December 31, 2019 in the
Wuhan area, China. The virus has been widely discussed by the public on social
media. This public discussion can be used by the government to improve policies
during a pandemic using text classification. This text classification requires the best
method to measure the value of accuracy, precision, recall, and F1-Score. Long
short-term memory is a deep learning method commonly used in the classification
process with a high accuracy value. Therefore, this study uses this method to
measure the accuracy value using the Python programming language. Before
calculating using the LSTM method, the data to be experimented with was taken by
crawling data on Twitter using the Twitter API and getting 3904 tweet data that
would be labeled by linguists, getting 2847 positive data and 1057 negative data the
data would be preprocessed to get clean data, after that, the data is divided into 2
parts with a ratio of 80:20, namely training and testing data and word weighting is
carried out using the TF-IDF method. The Long short-term memory method
requires an epoch value and a learning rate value that will be used to find the
accuracy value and MSE value, errors in the training data. This study has
determined the best learning rate of 0.04 resulting in an MSE value of 0.0031 and
an epoch of 200 which has the highest accuracy value and the lowest error is the
training accuracy value of 0.997% and the error value of 0.0128%. As well as
getting a testing accuracy value of 80%, a recall value of 84%, a precision value of
90% and an F1-Score value of 87%
ARABIC :
قد و -١٩ يف ٣١ ديسمرب ٢٠١٩ يف منطقة ووهان ابلصني. متت حتدثت
ومناقشة هذه الفريوس على نطاق واسع من قبل اجلمهور على وسائل التواصل االجتماعي. ميكن استخدام هذه املناقشة العامة من
قبل احلكومة لتحسني السياسات أثناء الوابء من خالل تصنيف النص. هذا تصنيف النص أفضل وحتتاج طر يقة لقياس قيمة الدقة
والدقة والتذكر ودرجة F1 .الذاكرة قصرية املدى طويلة املدى هي طريقة تعلم عميق تستخدم بشكل شائع يف عملية التصنيف بقيم
دقة عالية. لذلك تستخدم هذه الدراسة هذه الطريقة لقياس قيمة الدقة ابستخدام لغة برجمة الثعبان. قبل احلساب ابستخدام طريقة
ذا كرة طويلة املدى ، يتم أخذ البياانت اليت سيتم استخدامها كتجربة من خالل الزحف إىل البياانت على تويرت ابستخدام واجهة برجمة
تطبيق تويرت واحلصول على ٣٩٠٤ بياانت تغريدة سيتم تصنيفها من قبل اللغويني ، واحلصول على ٢٨٤٧ بياانت إجيابية و ١٠٥٧
تها أوالً ٢٠:٨٠ ، أي بياانت التدريب بياانت سلبية. تتم معاجل لتنظيف البياانت ، بعد ذلك يتم تقسيم البياانت إىل جزأين بنسبة
واالختبار ويتم ترجيح الكلمات ابستخدام طريقة تردد وثيقة معكوس الرتدد. تتطلب طريقة الذاكرة طويلة املدى قيم العصر وقيم معدل
التعلم اليت سيتم استخدامها للعثور على قيم الدقة وقيم متوسط مربع اخلطأ واألخطاء يف بياانت التدريب. حددت هذه الدراسة أفضل
معدل تعليمي قدره ٠٬٠٤ وذلك إلنتاج قيمة متوسط مربع اخلطأ قدرها ٠٬٠٠٣ وعصر ٢٠٠ والذي حيتوي على أعلى قيمة دقة وأقل
خطأ ، وهي قيمة دقة التدريب ٠٬٩٩٧ ٪وقيمة اخلطأ ٠٬٠١٢٨ . ٪واحصل على قيمة دقة اختبار ٨٠ ٪وقيمة استدعاء ٨٤ ٪وقيمة
دقة ٩٠ ٪وقيمة F1-نتيجة٨٧.٪
1
Item Type: | Thesis (Undergraduate) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
Supervisor: | Kurniawan, Fachrul and Aziz, Okta Qomaruddin | |||||||||
Contributors: |
|
|||||||||
Keywords: | Klasifikasi Teks; Sosial Media; Pandemi Covid-19; Deep learning; Long short-term memory;Text Classification; Social Media; Covid-19 Pandemic; Deep learning; Long short-term memory; الكلمة الرئيسية :تصنيف النص ; وسائل التواصل االجتماعي جائحة كوفيد- ١٩ ; التعلم العميق ; الذاكرة طويلة املدى | |||||||||
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika | |||||||||
Depositing User: | Yuliana Romadhoni | |||||||||
Date Deposited: | 29 Jun 2022 09:06 | |||||||||
Last Modified: | 29 Jun 2022 09:06 | |||||||||
URI: | http://etheses.uin-malang.ac.id/id/eprint/36779 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |