Firdaus, Ilmi Rasyidah (2023) Peringkasan artikel online berbasis Algoritma TextRank dan Similarity. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
19650115.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (6MB) | Preview |
Abstract
ABSTRAK:
Informasi yang beredar di internet mengalami pertumbuhan yang cukup pesat. Hal ini memberikan dampak yang signifikan, termasuk meningkatnya kesulitan dalam mencari informasi yang relevan, serta timbulnya overload informasi. Maka untuk mengatasi permasalahan tersebut, dapat dibuat suatu ringkasan teks. Ringkasan teks mampu mengurangi informasi berlebihan dengan cara mengambil intisarinya. Sehingga dengan membaca ringkasan teks dapat membantu pembaca mendapatkan informasi yang relevan dengan cepat. Sistem peringkasan teks dapat dibangun dengan memanfaatkan metode yang memiliki kemampuan untuk mengekstraksi kalimat seperti metode TextRank. Proses peringkasan pada TextRank memanfaatkan konsep similarity untuk mengetahui keterkaitan antar kalimat. Pada penelitian ini akan dilakukan perbandingan hasil peringkasan teks menggunakan algoritma TextRank dengan metode similarity berbasis word overlapping, Jaccard similarity, BOW cosine similarity dan TF-IDF cosine similarity. Berdasarkan hasil uji coba yang telah dilakukan, rata-rata nilai f-score terbaik dicapai oleh metode TextRank dengan similarity word overlapping pada semua kategori compression rate. Pada ringkasan 50%, secara berurutan nilai f-score dan accuracy pada confusion matrix sebesar 0,705 dan 0,706, sedangkan nilai precision, recall dan f-score pada ROUGE-1 sebesar 0,82, 0,793 dan 0,772. Pada ringkasan 40%, secara berurutan nilai f-score dan accuracy pada confusion matrix sebesar 0,66 dan 0,728, sedangkan nilai precision, recall dan f-score pada ROUGE-1 sebesar 0,82, 0,793 dan 0,772. Pada ringkasan 30%, secara berurutan nilai f-score dan accuracy pada confusion matrix sebesar 0,588 dan 0,754, sedangkan nilai precision, recall dan f-score pada ROUGE-1 sebesar 0,742, 0,706 dan 0,721. Pada ringkasan 20%, secara berurutan nilai f-score dan accuracy pada confusion matrix sebesar 0,512 dan 0,805, sedangkan nilai precision, recall dan f-score pada ROUGE-1 sebesar 0,665, 0,657 dan 0,656. Pada ringkasan 10%, secara berurutan nilai f-score dan accuracy pada confusion matrix sebesar 0,355 dan 0,871, sedangkan nilai precision, recall dan f-score pada ROUGE-1 sebesar 0,540, 0,546 dan 0,535. Hasil penelitian ini menyatakan bahwa kalimat yang diambil menjadi ringkasan berdasarkan metode TextRank, merupakan kalimat dengan keterkaitan yang tinggi dengan kalimat lain.
ABSTRACT:
Information on the internet has advanced rapidly. It brings a significant impact,including the difficulty in finding relevant information and the occurrence of overloadedinformation. To deal with the situation, we can make a text summary to decreaseoverloaded information by grabbing the text essence. By reading the summary, thereader can acquire relevant information quickly. A text summarization system can bebuilt using sentence extraction methods, like the Textrank method. The Textrank usesthe similarity concept to find out the correlation among sentences. The researchercompares the text summarization result using the Textrank algorithm and similaritymethod based on word overlapping, Jaccard similarity, BOW cosine similarity, and TF-IDF cosine similarity. The try-out result shows that the highest f-score mean is achievedusing the Textrank method with similar word overlapping on each category ofcompression rate. For 50% summary, the f-score and accuracy of the confusion matrixare 0.705 and 0.706, respectively. Meanwhile, the precision, recall, and f-score onROUGE-1 are 0.82, 0.793, and 0.772. For the 40% summary, the f-score and accuracyof the confusion matrix are 0.66 and 0.728. Meanwhile, the precision, recall, and f-scoreon ROUGE-1 are 0.82, 0.793, and 0.772. For the 30% summary, the f-score and accuracyof the confusion matrix are 0.588 and 0.754, respectively. Meanwhile, the precision,recall, and f-score on ROUGE-1 are 0.742, 0.706, and 0.721, respectively. For the 20%summary, the f-score and accuracy of the confusion matrix are 0.512 and 0.805.Meanwhile, the precision, recall, and f-score on ROUGE-1 are 0.665, 0.657, and 0.656,respectively. For the 10% summary, the f-score and accuracy of the confusion matrixare 0.355 and 0.871, respectively. Meanwhile, the precision, recall, and f-score of theROUGE-1 are 0.540, 0.546, and 0.535. The research result shows that the sentencestaken for the summary based on the Textrank method are highly correlated with othersentences.Keyword
مستخلص البحث:
تشهد املعلومات املتداولة على اإلنرتنت منوا سريعا. وهذا له أتثري كبري، مبا يف ذلك زايدة صعوبة العثور على املعلوماتذات الصلة، فضال عن ظهور فائض من املعلومات. لذلك للتغلب على هذه املشاكل، ميكن عمل ملخص نصي. تلخيص النصقادر على تقليل املعلومات الزائدة عن احلاجة عن طريق أخذ جوهرها. لذا فإن قراءة ملخص للنص ميكن أن يساعد القراء يفاحلصول على املعلومات ذات الصلة بسرعة. ميكن بناء أنظمة تلخيص النص ابستخدام طريقة لديها القدرة على استخراج اجلملمثل طريقة ترتيب النص. تستخدم عملية التلخيص يف ترتيب النص(textrank)مفهومالتشابه لتحديد العالقة بني اجلمل.يفهذا البحث، سيتم إجراء مقارنة لنتائج تلخيص النص ابستخدام خوارزمية ترتيب النص والتشابه القائمة على تداخل الكلمات(word overlapping)، وتشابه جاكارد(Jaccard similarity)، وتشابه جيب التمامBOW، وتشابه جيب التمامTF-IDF. بناء على نتائج التجارب اليت أجريت، مت حتقيق أفضل متوسط قيمة الفاء القياسي بواسطة طريقة ترتيب النص معالتشابه بتداخل كلمات يف مجيع فئات معدل الضغط. يف ملخص٥٠%، كانت قيم درجة الفاء القياسي والدقة على مصفوفةاخللط ابلتسلسل٠.٧٠٥و٠.٧٠٦كانت قيم الضبط واالستدعاء ودرجة الفاء القياسي على ، بينماROUGE-1هي٠.٨٢،٠.٧٩٣و٠.٧٧٢. يف ملخص٤٠كانت قيم درجة الفاء القياسي والدقة على مصفوفة اخللط ،%٠.٦٦و٠.٧٢٨ابلتتابع،بينما كانت قيم الضبط واالستدعاء ودرجة الفاء القياسي علىROUGE-1هي٠.٨٢،٠.٧٩٣و٠.٧٧٢. يف ملخص٣٠%، على التوايل قيم درجة الفاء القياسي والدقة على مصفوفة اخللط هي٠.٥٨٨و٠.٧٥٤.كانت الدقة واالستدعاء بينماودرجة الفاء القياسي علىROUGE-1هي٠.٧٤٢،٠.٧٠٦و٠.٧٢١. يف ملخص٢٠كانت قيم درجة ف والضبح ،%يف مصفوفة اخللط٠.٥١٢و٠.٧٠٥كانت قيم الدقة واالستدعاء ودرجة الفاء القياسي على ابلتتابع ، بينماROUGE1هي٠.٦٦٥،٠.٦٥٧و٠.٦٥٦. يف ملخص١٠كانت قيم درجة الفاء القياسي والدقة على مصفوفة اخللط ابلتسلسل ،%٠.٣٥٥و٠.٨٧١كانت قيم الضبط واالستدعاء ودرجة الفاء القياسي على ، بينماROUGE-1هي٠.٥٤٠،٠.٥٤٦و٠.٥٣٥.أشارات نتائج هذا البحث إىل أن اجلمل املأخوذة يف ملخصات بناء على طريقة ترتيب النص، هي مجل ذات صلة عالية ابجلملاألخرى
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Crysdian, Cahyo and Aziz, Okta Qomaruddin |
Keywords: | peringkasan teks; similarity; textRank similarity; text summarization; textRank تلخيص النص، التشابه، ترتيب النص |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Unnamed user with email 19650115@student.uin-malang.ac.id |
Date Deposited: | 16 Aug 2023 13:46 |
Last Modified: | 16 Aug 2023 13:46 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/52794 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |