Responsive Banner

Sistem peringkasan teks berita berbahasa Indonesia menggunakan Latent Dirichlet Allocation dan Maximum Marginal Relevance

Mawaridi, Bima Hamdani (2024) Sistem peringkasan teks berita berbahasa Indonesia menggunakan Latent Dirichlet Allocation dan Maximum Marginal Relevance. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
200605110011.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

INDONESIA:

Kemajuan teknologi membuat berita mudah ditemukan pada media online. Jumlah artikel berita yang tersedia semakin banyak dengan teks yang cukup panjang. Hal ini akan menyulitkan pembaca berita dalam mencari inti informasi dari berita sehingga diperlukan ringkasan teks untuk membantu pengguna memahami inti dari suatu teks tanpa perlu membaca seluruhnya. Metode yang digunakan untuk peringkasan teks yaitu Maximum Marginal Relevance (MMR) dengan menggabungkan dua faktor pemilihan, yaitu relevansi dan keragaman. Sering ditemukan saat ini bahwa judul berita dalam artikel online belum sepenuhnya mewakili isi berita atau disebut clickbait, untuk menghindari judul yang kurang sesuai, pada penelitian ini peringkasan didasarkan pada kata kunci yang dihasilkan dengan metode Latent Dirichlet Allocation (LDA). Hasil uji coba dengan 2500 data artikel berita menghasilkan nilai rata-rata ROUGE-1 terbaik sebesar 0.488 untuk tingkat kompresi 50% dan 0.462 untuk tingkat kompresi 30%. Nilai ROUGE-1 terendah yaitu 0.453 untuk tingkat kompresi 50% dan 0.435 untuk tingkat kompresi 30%. Hasil tersebut menunjukkan bahwa sistem dapat menghasilkan ringkasan yang cukup relevan dengan menggunakan kata kunci yang diekstrak dari konten berita.

ENGLISH:

Advances in technology make news easy to find on online media. The number of news articles available is increasing with a fairly long text. This will make it difficult for news readers to find the core information from the news so that a text summary is needed to help users understand the essence of a text without the need to read it all. The method used for text summarization is Maximum Marginal Relevance (MMR) by combining two selection factors, namely relevance and diversity. It is often found today that news titles in online articles do not fully represent the content of the news or called clickbait, to avoid inappropriate titles, in this study the summary is based on keywords generated by the Latent Dirichlet Allocation (LDA) method. The test results with 2500 news article data produced the best average ROUGE-1 value of 0.488 for a compression level of 50% and 0.462 for a compression level of 30%. The lowest ROUGE-1 value is 0.453 for a compression level of 50% and 0.435 for a compression level of 30%. These results show that the system can produce quite relevant summaries using keywords extracted from news content.

ARABIC:

التقدم في التكنولوجيا يجعل من السهل العثور على الأخبار على وسائل الإعلام على الإنترنت. يتزايد عدد المقالات الإخبارية المتاحة بنصوص طويلة إلى حد ما. وهذا سيجعل من الصعب على قراء الأخبار العثور على المعلومات الأساسية من الأخبار، مما يجعل من الصعب على قراء الأخبار العثور على المعلومات الأساسية من الأخبار، لذا هناك حاجة إلى ملخص نصي لمساعدة المستخدمين على فهم جوهر النص دون الحاجة إلى قراءته كله. الطريقة المستخدمة لتلخيص النص هي Maximum Marginal Relevance (MMR) من خلال الجمع بين عاملي اختيار وهما الملاءمة والتنوع. غالبًا ما يتبين اليوم أن عناوين الأخبار في المقالات على الإنترنت لا تمثل محتوى الخبر بشكل كامل أو تسمى ،clickbait لتجنب العناوين غير المناسبة، في هذه الدراسة يعتمد الملخص على الكلمات المفتاحية التي تم إنشاؤها بواسطة طريقة L.Latent Dirichlet Allocation (LDA)أسفرت نتائج الاختبار باستخدام بيانات 2500 مقال إخباري عن أفضل قيمة ROUGE-1 بمتوسط 0.488 لمستوى ضغط 50% و0.462 لمستوى ضغط 30%. أدنى قيمة ROUGE-1 هي 0.453 لمستوى ضغط 50% و0.435 لمستوى ضغط 30%. تُظهر هذه النتائج أن النظام يمكن أن ينتج ملخصًا ذا صلة إلى حد ما باستخدام الكلمات الرئيسية المستخرجة من محتوى الأخبار.

Item Type: Thesis (Undergraduate)
Supervisor: Faisal, Muhammad and Nurhayati, Hani
Keywords: LDA; MMR; pemodelan topik; peringkasan teks; LDA; MMR; topic modeling, text summarization; ;نمذجة المواضيع; تلخيص النصوص ;MMR ;LDA
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Bima Hamdani Mawaridi
Date Deposited: 08 Jul 2024 10:18
Last Modified: 08 Jul 2024 10:18
URI: http://etheses.uin-malang.ac.id/id/eprint/66473

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item