Responsive Banner

Informasi destinasi wisata menggunakan data Demographic berbasis klasifikasi SVM

A'yun, Aldilla Qurrata (2025) Informasi destinasi wisata menggunakan data Demographic berbasis klasifikasi SVM. Masters thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
220605210014.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

(1MB)

Abstract

INDONESIA

Penelitian ini bertujuan untuk mengklasifikasikan destinasi wisata berbasis data demografis menggunakan metode klasifikasi Support Vector Machine (SVM). Sistem dirancang untuk memberikan rekomendasi destinasi yang sesuai dengan karakteristik wisatawan, seperti usia, jenis kelamin, dan status sosial. Dataset yang digunakan terdiri dari sepuluh variabel demografis dan empat belas kategori destinasi wisata. Analisis awal menunjukkan bahwa dataset memiliki ketidakseimbangan kelas yang sangat tinggi, dengan kelas Jatim Park 1 mendominasi lebih dari separuh data sementara banyak kelas lain hanya memiliki 1–6 sampel. Untuk mengurangi dampak ketidakseimbangan ini, dilakukan teknik oversampling pada data training. Model SVM kemudian dilatih menggunakan beberapa kombinasi parameter dan kernel, serta diuji menggunakan metrik akurasi, precision, recall, dan F1-score. Hasil eksperimen menunjukkan bahwa pada data training yang sudah diseimbangkan, performa model meningkat signifikan, ditunjukkan oleh nilai F1-macro pada cross-validation sebesar 0.84. Namun, ketika diuji pada data testing yang mencerminkan kondisi distribusi asli, performa model menurun, dengan akurasi sebesar 54% dan nilai F1-macro yang rendah pada sebagian besar kelas minoritas. Temuan ini menunjukkan bahwa meskipun SVM efektif pada data yang seimbang, performanya masih belum optimal pada dataset rekomendasi wisata yang sangat timpang. Penelitian ini merekomendasikan pengayaan data, terutama untuk kelas-kelas minoritas, serta eksplorasi metode penanganan ketidakseimbangan kelas lainnya pada penelitian lanjutan.

ENGLISH

This research aims to clasify a tourism destination based on demographic data using the Support Vector Machine (SVM) classification method. The system is designed to provide destination recommendations that match the characteristics of travelers, such as age, gender, and social status. The dataset used consists of ten demographic variables and fourteen categories of tourism destinations. Initial analysis shows that the dataset has a very high class imbalance, with the Jatim Park 1 class dominating more than half of the data, while many other classes have only 1–6 samples. To reduce the impact of this imbalance, oversampling techniques were applied to the training data. The SVM model was then trained using several combinations of parameters and kernels, and evaluated using accuracy, precision, recall, and F1-score metrics. Experimental results indicate that after balancing the training data, the model’s performance improved significantly, as shown by an F1-macro score of 0.84 in cross-validation. However, when tested on the testing data that reflects the original distribution, the model’s performance decreased, with an accuracy of 54% and low F1-macro scores for most minority classes. These findings suggest that although SVM performs effectively on balanced data, its performance is still not optimal for highly imbalanced tourism recommendation datasets. This study recommends enriching the data, particularly for minority classes, as well as exploring other class-imbalance handling methods in future research.

ARABIC

يهدف هذا البحث لتطوير نظام توصية لوجهات السياحة اعتمادًا على البيانات الديموغرافية باستخدام خوارزمية التصنيف آلة المتجهات الداعمة (SVM). وقد جرى تصميم النظام ليولد توصيات تتوافق مع الخصائص الديموغرافية للسائحين، مثل العمر والنوع الاجتماعي والوضع الاجتماعي الاقتصادي. وتضمّنت مجموعة البيانات المستخدمة عشرة متغيرات ديموغرافية وأربع عشرة فئة تمثّل طيفًا واسعًا من الوجهات السياحية. أظهرت نتائج الفحص الأولي أَنّ للبيانات وجود اختلال جوهري في توازن الفئات، حيث تستأثر فئة “جاتيم فارك 1” بأكثر من نصف حجم البيانات، في حين تقتصر الفئات الأخرى على عيّنات تتراوح بين عيّنة واحدة وست عيّنات فقط. وللتعامل مع هذا الاختلال البنيوي، تم تطبيق أسلوب إعادة التوازن بواسطة الزيادة الاصطناعية للعينات على بيانات التدريب بغية تحسين قابلية النموذج للتعميم. وقد درّبت آلة المتجهات الداعمة باستخدام توليفات متعددة من معاملات الضبط وأنماط النواة، ثم تقييمه وفقًا لمجموعة من المقاييس الإحصائية المعتمدة في تقييم النماذج التنبؤية، وهي: الدقة، والدقة الإحصائية، والاسترجاع، والمتوسط الكلي لمقياس. وقد كشفت نتائج التحقق المتقاطع عن تحسن ملحوظ في أداء النموذج عند التدريب على بيانات متوازنة، حيث بلغ F1 المتوسط الكلي قيمة 0.84، مما يشير إلى قدرة عالية على التمييز بين الفئات المختلفة بعد إعادة التوازن. إلا أنّ اختبارات الأداء على مجموعة البيانات الاختبارية، التي تعكس التوزيع الحقيقي وغير المتوازن للفئات، بيّنت انخفاضًا معتبرًا في الأداء، حيث لم تتجاوز الدقة 54%، كما سُجلت قيم منخفضة لمؤشر F1 المتوسط الكلي في معظم الفئات ذات التمثيل المحدود. وتشير هذه النتائج بوضوح إلى أن منهجية آلة المتجهات الداعمة تُظهر أداءً فعّالًا في السياقات التي تتوفر فيها بيانات متوازنة، غير أن فعاليتها تتراجع بشكل ملحوظ عند تطبيقها على بيانات عالية الاختلال كما في حالة نظام توصية الوجهات السياحية محل الدراسة. يوصي هذا البحث بضرورة تعزيز حجم البيانات، ولا سيما الفئات ذات العيّنات النادرة، بالإضافة إلى استكشاف أساليب أكثر تقدّمًا لمعالجة اختلال توازن الفئات، مثل خوارزميات التوازن المتقدّم، وإعادة وزن الفئات، وطرائق التعلم المتين في البحوث الاستمرارية.

Item Type: Thesis (Masters)
Supervisor: Arif, Yunifa Miftachul and Imamudin, Mochamad
Keywords: Data Demografis; Destinasi Wisata; Support Vector Machine; Data Demographic; Tourist Destination; Support Vector Machine; البيانات الدموغرافية; وجهات السياحة; آلة المتجهات الداعمة
Subjects: 08 INFORMATION AND COMPUTING SCIENCES > 0806 Information Systems > 080611 Information Systems Theory
Departement: Fakultas Sains dan Teknologi > Jurusan Magister Tehnik Informatika
Depositing User: Aldilla Qurrata Ayun
Date Deposited: 30 Dec 2025 12:55
Last Modified: 30 Dec 2025 12:55
URI: http://etheses.uin-malang.ac.id/id/eprint/82431

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item