Responsive Banner

Pengelompokan berita berdasarkan kemiripan kontekstual menggunakan K-Means Clustering

Hidayat, Mohammad Yusuf (2025) Pengelompokan berita berdasarkan kemiripan kontekstual menggunakan K-Means Clustering. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
220605210011.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(3MB)

Abstract

INDONESIA:

Penelitian ini membahas proses pengelompokan teks berita berbahasa Inggris berdasarkan kemiripan kontekstual menggunakan algoritma K-Means. Permasalahan utama dalam pengelompokan teks adalah bagaimana mengukur kesamaan konteks secara tepat sehingga dokumen yang memiliki topik serupa dapat dikelompokkan dengan akurat. Pada penelitian ini dilakukan ekstraksi kata kunci menggunakan TF-IDF, kemudian ditambahkan informasi semantik berbasis WordNet dengan perhitungan Wu-Palmer untuk meningkatkan pemahaman konteks antar kata. Proses Lematisasi menggunakan POS Tagging dilakukan agar kata-kata mendapatakan informasi fungsi kata yang tepat. Matriks kesamaan dibentuk menjadi representasi setiap dokumen untuk kemudian dilakukan Pengelompokan dengan K-Means. Evaluasi performa dilakukan menggunakan nilai Silhouette Score dan Davies Bouldin Index. Model yang diujikan untuk pembentukan matriks kesamaan adalah First POS, Max POS dan Max No POS. Hasil ujicoba menggunakan 1000 sampel dataset dengan beberapa skenario ujicoba. Dari hasil ujicoba, model First POS mendapatkan hasil performa paling baik pada jumlah cluster optimal k=3 dengan nilai Silhouette 0,505 dan nilai Davies Bouldin Index 0,667.

ENGLISH:

The research investigates the clustering process of English-language news texts based on contextual similarity using the K-Means algorithm. The primary challenge in text clustering lies in accurately measuring contextual similarity so that documents with similar topics can be effectively grouped. The researcher extracts keywords using TF-IDF and incorporates semantic information based on WordNet by applying the Wu-Palmer similarity measure to enhance contextual understanding between words. He performs lemmatization using POS tagging to assign accurate grammatical function information to each word. He constructs a similarity matrix to represent each document and subsequently applies K-Means clustering. The performance evaluation employs the Silhouette Score and the Davies-Bouldin Index. The researcher uses First POS, Max POS, and Max No POS models for constructing the similarity matrix. The experiments use 1,000 dataset samples across several testing scenarios. The experiment results indicate that the First POS model achieves the best performance at the optimal number of clusters, k = 3, with a Silhouette Score of 0.505 and a Davies-Bouldin Index of 0.667.

ARABIC:

تتناول هذه الرسالة عملية تصنيف نصوص الأخبار باللغة الإنجليزية بناءً على التشابه السياقي باستخدام خوارزمية تصنيفية. تكمن المشكلة الرئيسية في تصنيف النصوص في كيفية قياس التشابه السياقي بدقة بحيث يمكن تجميع المستندات التي تتناول موضوعًا مشابهًا بشكل صحيح. في هذا البحث، تم استخراج الكلمات المفتاحية باستخدام TF-IDF، ثم تم إضافة المعلومات الدلالية المستندة إلى WordNet مع حساب Wu-Palmer لتعزيز فهم السياق بين الكلمات. تم تنفيذ عملية التصريف الصرفي باستخدام POS Tagging حتى تحصل الكلمات على معلومات الوظيفة اللغوية الصحيحة. تم تشكيل مصفوفة التشابه لتمثل كل مستند، ومن ثم تم إجراء التجميع باستخدام خوارزمية تصنيفية. تم تقييم الأداء باستخدام مؤشر Silhouette ومؤشر Davies Bouldin. النماذج التي تم اختبارها لتشكيل مصفوفة التشابه هي First POS و Max POS و Max No POS . جاءت نتائج نتائج الاختبار باستخدام 1000 عينة من مجموعة البيانات مع عدة سيناريوهات اختبار. من نتائج الاختبار، حصل نموذج First POS على أفضل أداء عند عدد التجمعات الأمثل k=3 مع قيمة مؤشر سيلويت 0.505 وقيمة مؤشر ديفيز بولدين 0.667.

Item Type: Thesis (Masters)
Supervisor: Yaqin, Muhammad Ainul and Abidin, Zainal
Keywords: clustering; K-means; kemiripan konekstual; WordNet; keyword extraction; TF-IDF; contextual similarity; تصنيف ;خوارزمية تصنيفية ; تشابه سياقي ; استخراج كلمات مفتاحية
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080107 Natural Language Processing
08 INFORMATION AND COMPUTING SCIENCES > 0806 Information Systems > 080603 Conceptual Modelling
08 INFORMATION AND COMPUTING SCIENCES > 0807 Library and Information Studies > 080707 Organisation of Information and Knowledge Resources
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Mohammad Yusuf Hidayat
Date Deposited: 23 Dec 2025 12:28
Last Modified: 23 Dec 2025 12:28
URI: http://etheses.uin-malang.ac.id/id/eprint/82065

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item