Responsive Banner

Clustering curah hujan dengan Principal Component Analysis menggunakan data Klimatologi

Syahreni, Syahreni (2025) Clustering curah hujan dengan Principal Component Analysis menggunakan data Klimatologi. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img]
Preview
Text (Fulltext)
240605210002.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(1MB) | Preview

Abstract

ABSTRAK

Curah hujan merupakan parameter klimatologi yang sangat penting dalam analisis cuaca dan mitigasi bencana hidrometeorologi, terutama di wilayah tropis seperti Indonesia yang memiliki variabilitas curah hujan tinggi. Penelitian ini bertujuan untuk mengidentifikasi pola hari hujan dan tidak hujan menggunakan metode Principal Component Analysis–Clustering (PCA–Clustering). Data klimatologi diperoleh dari Stasiun Klimatologi Sumberpucung dan Karangploso dengan enam variabel utama, yaitu temperatur rata-rata, curah hujan, crah hujan jam 07.00, penyinaran matahari, penguapan dan tekjanan udara. Proses normalisasi dilakukan menggunakan StandardScaler untuk menyeragamkan skala data sebelum diterapkan PCA. PCA kemudian mereduksi keenam variabel menjadi dua komponen utama (PC1 dan PC2) yang mampu menjelaskan 73,33% variasi data. Berdasarkan rentang nilai PC1, data terbagi menjadi dua kelompok: Cluster 1 (n < 0) yang mewakili hari hujan, dan Cluster 2 (0 ≤ n ≤ 3) yang mewakili hari tidak hujan. Hasil pengelompokan ini menunjukkan konsistensi dengan kategori intensitas curah hujan resmi BMKG. Validasi internal menggunakan Silhouette Score menghasilkan nilai 0,55, yang mengindikasikan kualitas pengelompokan yang cukup baik, dengan pemisahan antarcluster yang jelas. Validasi eksternal melalui perbandingan dengan data target BMKG juga menunjukkan kesesuaian pola sebaran cluster. Temuan ini menegaskan bahwa PCA bukan hanya teknik reduksi dimensi, tetapi juga dapat digunakan sebagai dasar pembentukan label dan pengelompokan data curah hujan secara efektif. Penelitian selanjutnya disarankan untuk memperluas cakupan data spasial dan temporal serta mengintegrasikan metode ini dengan model prediktif berbasis machine learning untuk analisis pola curah hujan yang lebih mendalam.

مستخلص البحث

هطول الأمطار هو أحد مؤشرات المناخ المهمة جدًا في تحليل الطقس والحد من مخاطر الكوارث الهيدرومناخية، خاصة في المناطق الاستوائية مثل إندونيسيا التي تتمتع بتغيرات كبيرة في هطول الأمطار. تهدف هذه الرسالة إلى تحديد نمط الأيام الممطرة والأيام غير الممطرة باستخدام طريقة تحليل المكون الرئيسي– التجميع (PCA–Clustering) . تم الحصول على البيانات المناخية من محطة مناخ سومبير بوجونج وكارانغ بلوسو باستخدام ستة متغيرات رئيسية، وهي متوسط درجة الحرارة، وهطول الأمطار، وهطول الأمطار الساعة 07:00، والإشعاع الشمسي، والتبخر، والضغط الجوي. تم تنفيذ عملية التطبيع باستخدام StandardScaler لتوحيد مقياس البيانات قبل تطبيق تحليل المكون الرئيسي. ثم قام PCA بتقليص المتغيرات الستة إلى مكونين رئيسيين (PC1 و PC2) قادرين على شرح 73.33% من تباين البيانات. بناءً على نطاق قيمة PC1، تم تقسيم البيانات إلى مجموعتين: المجموعة 1 (n < 0) التي تمثل الأيام الممطارة، والمجموعة 2 (0 ≤ n ≤ 3) التي تمثل الأيام غير الممطرة. أظهرت نتائج التجميع هذه توافقًا مع فئات شدة هطول الأمطار الرسمية التابعة للهيئة العامة للأرصاد الجوية الإندونيسية (BMKG). وأسفرت عملية التحقق الداخلية باستخدام درجة السيلويت (Silhouette Score) عن قيمة 0.55، مما أشار إلى جودة تجميع جيدة إلى حد ما، مع فصل واضح بين المجموعات. كما أظهرت عملية التحقق الخارجية من خلال مقارنة البيانات مع بيانات الهدف لـ BMKG توافق أنماط توزيع المجموعات. تؤكد هذه النتائج أن تحليل المكون الرئيسي (PCA) ليس مجرد تقنية لتقليل الأبعاد، بل يمكن استخدامه أيضًا كأساس لإنشاء العلامات وتجميع بيانات هطول الأمطار بشكل فعال. يُنصح في الدراسات المستقبلية بتوسيع نطاق البيانات المكانية والزمنية ودمج هذه الطريقة مع نماذج التنبؤ المعتمدة على التعلم الآلي لتحليل أنماط هطول الأمطار بشكل أعمق.

ABSTRACT

Rainfall is a very important climatological parameter in weather analysis and hydrometeorological disaster mitigation, especially in tropical regions such as Indonesia which have high rainfall variability. This study aims to identify the pattern of rainy and non-rainy days using the Principal Component Analysis–Clustering (PCA–Clustering) method. Climatological data was obtained from the Sumberpucung and Karangploso Climatology Stations with six main variables, namely average temperature, rainfall, rainfall at 07.00, solar irradiation, evaporation and air pressure. The normalization process is carried out using StandardScaler to standardize the data scale before PCA is applied. PCA then reduced the six variables to two main components (PC1 and PC2) which were able to explain 73.33% of the data variation. Based on the PC1 value range, the data is divided into two groups: Cluster 1 (n < 0) which represents rainy days, and Cluster 2 (0 ≤ n ≤ 3) which represents non-rainy days. The results of this grouping show consistency with the official BMKG rainfall intensity category. Internal validation using the Silhouette Score yielded a value of 0.55, which indicates a fairly good quality of clustering, with clear separation between clusters. External validation through comparison with BMKG target data also showed the suitability of the cluster distribution pattern. These findings confirm that PCA is not only a dimension reduction technique, but can also be used as a basis for labeling and grouping rainfall data effectively. Further research is suggested to expand the scope of spatial and temporal data and integrate this method with machine learning-based predictive models for more in-depth analysis of rainfall patterns.

Item Type: Thesis (Masters)
Supervisor: Wibowo Almais, Agung Teguh and Nugroho, Fresy
Keywords: PCA, Clustering, Curah Hujan, Hari Tidak Hujan, Hari Hujan, silhouette score: تحليل مكون رئيسي، تجميع، كمية أمطار، أيام غير ممطرة، أيام ممطرة، درجة تماثل.; PCA, Clustering, Rainfall, No Rainy Day, Rainy Day, silhouette score.
Subjects: 04 EARTH SCIENCES > 0401 Atmospheric Sciences > 040104 Climate Change Processes
04 EARTH SCIENCES > 0401 Atmospheric Sciences > 040105 Climatology (excl. Climate Change Processes)
04 EARTH SCIENCES > 0401 Atmospheric Sciences > 040107 Meteorology
08 INFORMATION AND COMPUTING SCIENCES > 0804 Data Format > 080403 Data Structures
17 PSYCHOLOGY AND COGNITIVE SCIENCES > 1702 Cognitive Sciences > 170203 Knowledge Representation and Machine Learning
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Syahreni Syahreni
Date Deposited: 11 Dec 2025 13:18
Last Modified: 11 Dec 2025 13:18
URI: http://etheses.uin-malang.ac.id/id/eprint/81532

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item