Responsive Banner

Penerapan algoritma textrank pada peringkasan teks berita Berbahasa Indonesia dengan WORD2VEC dan LSA

Nandana, Prana Wijaya Pratama (2025) Penerapan algoritma textrank pada peringkasan teks berita Berbahasa Indonesia dengan WORD2VEC dan LSA. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
210605110120.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

INDONESIA :

Dalam era digital yang dipenuhi informasi, masyarakat sering kesulitan menyaring berita yang relevan karena banyaknya konten yang tersedia. Penelitian ini bertujuan untuk merancang sistem peringkasan otomatis untuk berita online berbahasa Indonesia dengan pendekatan ekstraktif menggunakan kombinasi algoritma TextRank, Word2Vec, dan Latent Semantic Analysis (LSA). TextRank digunakan untuk menentukan kalimat penting, Word2Vec mengubah kata menjadi vektor angka yang dapat mewakili maknanya, dan LSA mereduksi dimensi vektor agar analisis semantik antar kalimat lebih efisien. Dataset yang digunakan adalah Indosum yang berisi 5000 artikel berita dari berbagai topik. Sistem ini dievaluasi menggunakan metrik ROUGE dan penilaian manual oleh validator. Hasil pengujian menunjukkan bahwa tingkat kompresi 30% menghasilkan skor ROUGE-1 sebesar 0.4808, ROUGE-2 sebesar 0.3433, dan ROUGE-L sebesar 0.4675 yang merupakan hasil tertinggi dibandingkan tingkat kompresi lainnya. Penilaian manual juga menunjukkan bahwa ringkasan pada kompresi 30% paling informatif dan koheren, membuktikan bahwa kombinasi ketiga metode tersebut mampu meningkatkan kualitas ringkasan secara signifikan.

ENGLISH :

In the digital era filled with abundant information, people often struggle to filter relevant news due to the overwhelming amount of content available. This study aims to develop an automatic summarization system for Indonesian online news using an extractive approach by combining the TextRank algorithm, Word2Vec, and Latent Semantic Analysis (LSA). TextRank is used to identify the most important sentences, Word2Vec converts words into numerical vectors that represent their meanings, and LSA reduces the dimensions of these vectors to make semantic analysis between sentences more efficient. The dataset used is Indosum, consisting of 5,000 news articles across various topics. The system is evaluated using ROUGE metrics and manual assessment by a validator. The experimental results show that a 30% compression level yields the highest performance, with ROUGE-1 score of 0.4808, ROUGE-2 of 0.3433, and ROUGE-L of 0.4675. Manual evaluation also indicates that the summaries at 30% compression are the most informative and coherent, proving that the combination of these three methods significantly improves summarization quality.

ARABIC :

في العصر الرقمي المليء بالمعلومات، غالبًا ما يواجه الأشخاص صعوبة في تصفية الأخبار ذات الصلة بسبب الكمية الكبيرة من المحتوى المتاح. تهدف هذه الدراسة إلى تصميم نظام تلخيص تلقائي للأخبار عبر الإنترنت باللغة الإندونيسية باستخدام نهج استخلاصي باستخدام مزيج من خوارزميات TextRank وWord2Vec وLastent Semantic Analysis (LSA). يتم استخدام TextRank لتحديد الجمل المهمة، ويقوم Word2Vec بتحويل الكلمات إلى متجهات رقمية يمكنها تمثيل معناها، ويقوم LSA بتقليل أبعاد المتجهات لجعل التحليل الدلالي بين الجمل أكثر كفاءة. مجموعة البيانات المستخدمة هي Indosum والتي تحتوي على 5000 مقالة إخبارية من مواضيع مختلفة. تم تقييم النظام باستخدام مقاييس ROUGE والتقييم اليدوي من قبل المحققين. وتظهر نتائج الاختبار أن مستوى ضغط 30% ينتج درجة ROUGE-1 تبلغ 0.4808، وROUGE-2 تبلغ 0.3433، وROUGE-L تبلغ 0.4675، وهي أعلى النتائج مقارنة بمستويات الضغط الأخرى. وأظهر التقييم اليدوي أيضًا أن الملخص عند ضغط %30 كان الأكثر إفادة وتماسكًا، مما يثبت أن الجمع بين الأساليب الثلاثة كان قادرًا على تحسين جودة الملخص بشكل كبير.

Item Type: Thesis (Undergraduate)
Supervisor: Faisal, Muhammad and Zaman, Syahiduz
Keywords: Peringkasan; TextRank; Word2Vec; LSA Summarization; TextRank; Word2Vec; LSA LSA; Word2Vec; TextRank; التلخيص
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Prana Wijaya Pratama Nandana
Date Deposited: 03 Jun 2025 08:35
Last Modified: 03 Jun 2025 08:35
URI: http://etheses.uin-malang.ac.id/id/eprint/75089

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item