Responsive Banner

Implementasi metode Fuzzy C-Means berbasis jarak Manhattan dengan validasi Modified Partition Coefficient pada clustering data gaya hidup mahasiswa

Zainuri, Ayu Habibatun Nurwahyu (2026) Implementasi metode Fuzzy C-Means berbasis jarak Manhattan dengan validasi Modified Partition Coefficient pada clustering data gaya hidup mahasiswa. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
220601110054.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(2MB)

Abstract

INDONESIA:

Clustering merupakan salah satu metode dalam data mining yang digunakan untuk mengelompokkan data berdasarkan kemiripan karakteristik tertentu. Salah satu algoritma clustering yang dapat digunakan adalah Fuzzy C-Means, yaitu metode pengelompokan data yang memungkinkan satu data memiliki derajat keanggotaan pada lebih dari satu cluster. Dalam proses clustering, ukuran jarak memiliki peran penting karena dapat memengaruhi hasil pengelompokan, terutama pada data yang mengandung outlier. Penelitian ini membandingkan hasil clustering algoritma Fuzzy C-Means menggunakan jarak Euclidean dan jarak Manhattan pada data gaya hidup mahasiswa. Metode penelitian dilakukan melalui beberapa tahapan, yaitu preprocessing data, seleksi variabel, deteksi outlier, normalisasi Min-Max, penerapan algoritma Fuzzy C-Means, serta evaluasi hasil clustering menggunakan Modified Partition Coefficient dan Purity. Variabel yang digunakan dalam proses clustering meliputi Study Hours Per Day, Extracurricular Hours Per Day, Sleep Hours Per Day, Social Hours Per Day, Physical Activity Hours Per Day, dan GPA, sedangkan Stress Level digunakan sebagai label aktual pada evaluasi Purity. Hasil penelitian menunjukkan bahwa jarak Manhattan menghasilkan nilai Modified Partition Coefficient dan Purity yang lebih tinggi dibandingkan jarak Euclidean pada beberapa banyak cluster yang diuji. Nilai MPC terbaik diperoleh pada jarak Manhattan dengan banyak cluster c = 2, sedangkan nilai Purity tertinggi diperoleh pada jarak Manhattan dengan banyak cluster c = 5. Berdasarkan hasil tersebut, dapat disimpulkan bahwa penggunaan jarak Manhattan pada algoritma Fuzzy C-Means memberikan hasil clustering yang lebih baik dibandingkan jarak Euclidean karena lebih stabil terhadap data yang mengandung outlier dan menghasilkan derajat keanggotaan yang lebih tegas.

ENGLISH:

Clustering is a data mining method used to group data based on the similarity of specific characteristics. One clustering algorithm that can be used is Fuzzy C-Means, a data grouping method that allows a single data point to have a degree of membership in more than one cluster. In the clustering process, the choice of distance plays a crucial role because it can influence the clustering results, especially in data containing outliers. This study aims the clustering results of the Fuzzy C-Means algorithm using Euclidean distance and Manhattan distance on student lifestyle data. The research method was conducted through several stages, namely data preprocessing, variable selection, outlier detection, Min-Max normalization, application of the Fuzzy C-Means algorithm, and evaluation of the clustering results using the Modified Partition Coefficient and Purity. The variables used in the clustering process include Study Hours Per Day, Extracurricular Hours Per Day, Sleep Hours Per Day, Social Hours Per Day, Physical Activity Hours Per Day, and GPA, while Stress Level was used as the actual label in the Purity evaluation. The results show that the Manhattan distance yields higher Modified Partition Coefficient and Purity values compared to the Euclidean distance for several tested cluster sizes. The best MPC value was obtained using Manhattan distance with c = 2 clusters, while the highest Purity value was obtained using the Manhattan distance with c = 5 clusters. Based on these results, it can be concluded that using the Manhattan distance in the Fuzzy C-Means algorithm yields better clustering results than the Euclidean distance because it is more robust to data containing outliers and produces more distinct membership degrees.

ARABIC:

التجميع Clustering هو أحد الأساليب في تنقيب البيانات المستخدمة لتصنيف البيانات بناءً على تشابه خصائص معينة. ومن خوارزميات التجميع التي يمكن استخدامها هي خوارزمية Fuzzy C-Means، وهي طريقة لتجميع البيانات تسمح للبيانات المفردة بامتلاك درجة عضوية في أكثر من مجموعة واحدة. في عملية التجميع، يلعب مقياس المسافة دورًا مهمًا لأنه يمكن أن يؤثر على نتائج التجميع، خاصة في البيانات التي تحتوي على قيم متطرفة outlier. تهدف هذه الدراسة إلى مقارنة نتائج تجميع خوارزمية Fuzzy C-Means باستخدام مسافة إقليدس ومسافة مانهاتن على بيانات نمط حياة الطلاب. تم إجراء منهجية البحث من خلال عدة مراحل، وهي: المعالجة المسبقة للبيانات، واختيار المتغيرات، واكتشاف القيم المتطرفة، والتطبيع بطريقة الحد الأدنى والأقصى Min-Max، وتطبيق خوارزمية Fuzzy C-Means، بالإضافة إلى تقييم نتائج التجميع باستخدام معامل التقسيم المعدل MPC والنقاء Purity. تشمل المتغيرات المستخدمة في عملية التجميع: ساعات الدراسة يوميًا، وساعات الأنشطة اللامنهجية يوميًا، وساعات النوم يوميًا، وساعات التواصل الاجتماعي يوميًا، وساعات النشاط البدني يوميًا، والمعدل التراكمي GPA، بينما تم استخدام مستوى التوتر Stress Level كملصق فعلي في تقييم النقاء. وأظهرت النتائج أن مسافة مانهاتن أنتجت قيمًا أعلى لمعامل التقسيم المعدل والنقاء مقارنة بمسافة إقليدس في العديد من المجموعات المختبرة. تم الحصول على أفضل قيمة لمعامل التقسيم المعدل MPC باستخدام مسافة مانهاتن مع عدد مجموعات c = 2، في حين تم الحصول على أعلى قيمة للنقاء باستخدام مسافة مانهاتن مع عدد مجموعات c = 5. وبناءً على هذه النتائج، يمكن استنتاج أن استخدام مسافة مانهاتن في خوارزمية Fuzzy C-Means يعطي نتائج تجميع أفضل مقارنة بمسافة إقليدس لأنها أكثر استقرارًا تجاه البيانات التي تحتوي على قيم متطرفة وتنتج درجات عضوية أكثر وضوحًا وحسمًا.

Item Type: Thesis (Undergraduate)
Supervisor: Turmudi, Turmudi and Rozi, Fachrur
Keywords: Fuzzy C-Means; Euclidean; Manhattan; clustering; Modified Partition Coefficient; Purity; فازي سي - مينز;إقليدس ;مانهاتن ;التجميع ;معامل التقسيم المعدل ;النقاء ;
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining
Departement: Fakultas Sains dan Teknologi > Jurusan Matematika
Depositing User: Ayu Habibatun Nurwahyu Zainuri
Date Deposited: 25 Jun 2026 08:15
Last Modified: 25 Jun 2026 08:15
URI: http://etheses.uin-malang.ac.id/id/eprint/86189

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item