Ahsan, Thoriq Harizul (2023) Peringkasan teks multi dokumen berita berbahasa Indonesia menggunakan Fasttext Dan K-Means Clustering. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
|
Text (Fulltext)
19650026.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (2MB) | Preview |
Abstract
ABSTRAK:
Perkembangan teknologi semakin maju sehingga berpengaruh pada persebaran berita online yang semakin meningkat. Hal ini akan menyulitkan pembaca berita dalam mencari inti informasi dari berita sehingga diperlukan cara untuk mendapatkan inti informasi dengan melakukan peringkasan teks berita multi dokumen secara otomatis. Tujuan peringkasan teks berita otomatis multi dokumen yaitu memudahkan pembaca dalam menghemat waktu saat memilah inti informasi yang relevan dari banyak berita, serta mencegah adanya redudansi maupun duplikasi informasi. Metode yang digunakan dalam meringkas adalah FastText dan K-means Clustering. Cara kerja FastText yaitu dengan menambahkan representasi kata dalam bentuk n-gram atau substring dari teks sehingga FastText dapat lebih mudah menangani kata-kata yang tidak dikenal atau kata-kata yang tidak muncul pada saat training data. Sedangkan K-means Clustering digunakan untuk mengelompokkan kalimat yang memiliki kedekatan. Kalimat yang memiliki kedekatan akan dipilih salah satu sebagai representasi dari ringkasan sehingga akan mengurangi redudansi dan duplikasi informasi. Hasil penelitian dengan input 30 data multi-dokumen yang memiliki 4 varisai label. Dari ke empat variasi label, ringkasan sistem mendapatkan nilai tertinggi ketika dibandingkan dengan variasi 1 dan terendah ketika dibandingkan dengan variasi 4. Dimana variasi 1 mendapat nilai rata-rata precision 0,674, rata-rata recall 0,620, dan rata-rata f-measure 0,637. Sedangkan pada variasi 4 mendapat nilai rata-rata precision 0,382, rata-rata recall 0,790, dan rata-rata f-measure 0,505.
ABSTRACT:
Technological developments are increasingly advanced, so the effect of onlinenews dissemination is increasing. This condition will make it difficult for news readersto find the core information, so a way is needed to get it using automatic multi-documenttext summarization for news. The purpose of automatic multi-document textsummarization is to make readers easier to save time when sorting out the relevant coreinformation from lots of news and to prevent redundancies or duplication of information.The method used in summarization is FastText and Kmeans Clustering. FastText worksby adding word representations in the form of n-grams or substrings of the text so thatFastText can make it easier to deal with unfamiliar words or words that do not appearduring training data. At the same time, Kmeans Clustering is used to group sentenceswith proximity. Sentences that have proximity will be selected as a representation of thesummary so that it will reduce redundancy and duplication of information. The researchresults with the input of 30 multi-document data have 4 label variations. Of the four labelvariations, the system summary gets the highest score compared to variation 1 and thelowest compared to variation 4. Variation 1 gets an average precision value of 0.674, anaverage recall of 0.620, and an average f-measure of 0.637. Whereas variation 4 gets anaverage precision value of 0.382, an average recall of 0.790, and an average f-measureof 0.505.
مستخلص البحث:
يتقدم تطور التكنولوجيا بشكل متزايد حبيث يؤثر على انتشار األخبار عرب اإلنرتنت اليت تتزايد. سيجعل هذا من الصعبعلى قراء األخبار العثور على املعلومات األساسية من األخبار، لذلك هناك حاجة إىل طريقة للحصول على املعلومات األساسية عنطريق تلخيص نص األخبار متعدد املستندات تلقائيا. اهلدف من التلخيص التلقائي للنصوص اإلخبارية متعدد املستندات هو تسهيلاألمر على القراء لتوفري الوقت عند فرز جوهر املعلومات ذات الصلة من عدة األخبار، ومنع التكرار وازدواجية املعلومات. الطريقةاملستخدمة يف التلخيص هيFastTextوK-means Clustering. الطريقة اليت يعمل هباFastTextهي إضافة متثيالتالكلمات يف شكل سالسل فرعية (n-gram) من النص حبيث ميكن لFastTextالتعامل بسهولة أكرب مع الكلمات غرياملعروفة أو الكلمات اليت ال تظهر أثناء التدريب على البياانت. بينما يتم استخدامK-means Clusteringلتجميع اجلملالقريبة. سيتم اختيار اجلمل املتقاربة كتمثيل للملخص حبيث يقلل من التكرار وازدواجية املعلومات. نتائج الدراسة معإدخال٣٠بياانت متعدد املستندات حتتوي على٤اختالفات يف التسمية. من بني أشكال التسميات األربعة، حيصل ملخص النظام على أعلىدرجة عند مقارنته ابلشكل األول وأدىن درجة عند مقارنته ابلشكل الرابع. حيث حيصل االختالف األول على متوسط قيمة دقة٠.٦٧٤، واستدعاء٠.٦٢٠،والفاء القياسي٠.٦٣٧. بينما حيصل الشكل الرابع على متوسط قيمة دقة٠.٣٢٨، واستدعاء٠.٧٩٠، والفاء القياسي٠.٥٠٥.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Abidin, Zainal and Imamudin, Mochamad |
Keywords: | FastText; K-means Clustering; Multi Dokumen; Peringkasan Teks Text Summarization; FastText; K-means Clustering متعدد املستندات، تلخيص النص; K-means Clustering; FastText |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Thoriq Harizul Ahsan |
Date Deposited: | 23 Aug 2023 14:05 |
Last Modified: | 23 Aug 2023 14:05 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/52460 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |