Responsive Banner

Prediksi indeks kualitas udara menggunakan metode CatBoost

Syukur, Mohamad Arif Abdul (2024) Prediksi indeks kualitas udara menggunakan metode CatBoost. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.

[img] Text (Fulltext)
200605110044.pdf - Accepted Version
Available under License Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB)

Abstract

ABSTRAK:

Udara merupakan sumber kehidupan bagi makhluk hidup di bumi. Tanpa adanya udara semua makhluk di bumi tidak dapat hidup dengan baik. Dengan banyaknya aktifitas industri yang sudah maju pada masa sekarang dan banyaknya pembakaran hutan, asap rokok, transportasi menyebabkan adanya polusi udara. Berdasarkan data AirVisual dari AQI pada tahun 2024, Negara Indonesia tepatnya di kota Jakarta telah memasuki daftar ke-11 menjadi negara dengan tingkat polusi tertinggi di dunia hingga mencapai angka 127 dalam artian udara tidak sehat bagi kelompok yang sensitive. Dengan demikian polusi udara dapat menyebabkan banyaknya penyakit seperti penyakit kulit dan bahkan penyakit pernafasan yang dapat menimbulkan kematian. Salah satu cara untuk menekan kematian tersebut adalah dengan pemantauan prediksi indeks kualitas udara dengan cepat dan efisien. Sehingga dengan informasi yang cepat dan akurat dapat mendukung pemerintah atau masyarakat dalam kelangsungan hidup, mengurangi dampak penyakit, dan meningkatkan standar hidup bagi mereka yang sensitive terhadap udara. Penelitian ini memanfaatkan metode CatBoost untuk memprediksi indeks kualitas udara dengan cepat dan akurat. Tujuan penelitian ini adalah untuk mengetahui performa metode CatBoost dalam memprediksi indeks kualitas udara pada data indeks pencemar udara di spku daerah Jakarta yang diambil dari Kaggle. Data diproses melalui tahap pra pemrosesan data yang meliputi missing value dan split data. Split data yang dilakukan terbagi menjadi 4 model yaitu model 1 dengan perbandingan 90% data training dan 10% data testing, model 2 dengan perbandingan 80% data training dan 20% data testing, model 3 dengan perbandingan 75% data training dan 25% data testing, model 4 dengan perbandingan 70% data training dan 30% data testing. Pada masing-masing model akan dibandingkan dengan beberapa parameter yang sama yaitu iterations 500, 1000, 1500, depth 6, 8, 10, -learning_rate 0,1 dan 0,01, l2_leaf_reg 1, 2, 3. Kemudian akan dicari kombinasi parameter terbaik dengan menggunakan GridSearchCV untuk dijadikan parameter sebagai model yang terbaik. Pada penelitian ini didapatkan nilai akurasi terbaik pada model 1 dengan akurasi mencapai 97%. Hal tersebut dipengaruhi oleh adanya pembagian data training sebesar 90% dan data testing 10%. Semakin besar data training dan semakin kecil data testing, maka akurasi semakin tinggi.

ABSTRACT:

Air is the source of life for living creatures on earth. Without air, all creatures on earth cannot live well. With so many advanced industrial activities nowadays and lots of forest burning, cigarette smoke, transportation causes air pollution. Based on AirVisual data from AQI in 2024, Indonesia, specifically the city of Jakarta, has entered the 11th list as the country with the highest level of pollution in the world, reaching 127 in terms of unhealthy air for sensitive groups. Thus, air pollution can cause many diseases such as skin diseases and even respiratory diseases which can cause death. One way to reduce these deaths is by monitoring air quality index predictions quickly and efficiently. So that fast and accurate information can support the government or community in survival, reduce the impact of disease, and improve the standard of living for those who are sensitive to air. This research utilizes the CatBoost method to predict air quality indices quickly and accurately. The aim of this research is to determine the performance of the CatBoost method in predicting the air quality index on air pollution index data in the Jakarta area taken from Kaggle. Data is processed through the data pre-processing stage which includes missing values and split data. The split data carried out is divided into 4 models, namely model 1 with a comparison of 90% training data and 10% testing data, model 2 with a comparison of 80% training data and 20% testing data, model 3 with a comparison of 75% training data and 25% testing data , model 4 with a comparison of 70% training data and 30% testing data. Each model will be compared with the same parameters, namely iterations 500, 1000, 1500, depth 6, 8, 10, learning_rate 0.1 and 0.01, l2_leaf_reg 1, 2, 3. Then the best parameter combination will be searched for. by using GridSearchCV to parameterize the best model. In this study, the best accuracy value was obtained in model 1 with an accuracy of 97%. This is influenced by the division of training data by 90% and testing data by 10%. The larger the training data and the smaller the testing data, the higher the accuracy.

مستخلص البحث:

بشكل جيد. مع وجود العديد من الأنشطة الصناعية المتقدمة في الوقت الحاضر والكثير من حرق الغابات، يتسبب دخان السجائر ووسائل النقل في تلوث الهواء. واستنادا إلى بيانات AirVisual الصادرة عن تنظيم القاعدة في العراق عام ٢٠٢٤، دخلت إندونيسيا، وتحديدا مدينة جاكرتا، في القائمة الـ١١ كدولة ذات أعلى مستوى من التلوث في العالم، حيث وصلت إلى المركز ١٢٧ من حيث الهواء غير الصحي للفئات الحساسة. وبالتالي فإن تلوث الهواء يمكن أن يسبب العديد من الأمراض مثل الأمراض الجلدية وحتى أمراض الجهاز التنفسي التي يمكن أن تسبب الوفاة. إحدى الطرق لتقليل هذه الوفيات هي مراقبة تنبؤات مؤشر جودة الهواء بسرعة وكفاءة. بحيث يمكن للمعلومات السريعة والدقيقة أن تدعم الحكومة أو المجتمع في البقاء على قيد الحياة، وتقليل تأثير المرض، وتحسين مستوى المعيشة لأولئك الذين لديهم حساسية للهواء. يستخدم هذا البحث طريقة CatBoost للتنبؤ بمؤشرات جودة الهواء بسرعة ودقة. الهدف من هذا البحث هو تحديد أداء طريقة CatBoost في التنبؤ بمؤشر جودة الهواء على بيانات مؤشر تلوث الهواء في منطقة جاكرتا المأخوذة من Kaggle. تتم معالجة البيانات من خلال مرحلة المعالجة المسبقة للبيانات والتي تتضمن القيم المفقودة والبيانات المقسمة. تم تقسيم البيانات المقسمة إلى ٤ نماذج، وهي النموذج ١ مع مقارنة ٩٠٪ من بيانات التدريب و١٠٪ من بيانات الاختبار، النموذج ٢ مع مقارنة ٨٠٪ من بيانات التدريب و٢٠٪ من بيانات الاختبار، النموذج ٣ مع مقارنة ٧٥٪ بيانات تدريب و ٢٥٪ بيانات اختبار نموذج ٤ مع مقارنة ٧٠٪ بيانات تدريب و ٣٠٪ بيانات اختبار. ستتم مقارنة كل نموذج بنفس المعلمات، وهي iteration ٥٠٠، ١٠٠٠، ١٥٠٠، depth ٦، ٨، ١٠، learning_rate ٠٫١ و ٠٫٠١، l2_leaf_reg ١٫٢٫٣ . ثم سيتم البحث عن أفضل مجموعة من المعلمات باستخدام GridSearchCV لتحديد أفضل نموذج. في هذه الدراسة تم الحصول على أفضل قيمة دقة في النموذج ١ بدقة ٩٧٪. ويتأثر ذلك بتقسيم بيانات التدريب بنسبة 90% وبيانات الاختبار بنسبة 10%. كلما كانت بيانات التدريب أكبر وبيانات الاختبار أصغر، زادت الدقة

Item Type: Thesis (Undergraduate)
Supervisor: Suhartono, Suhartono and Chamidy, Totok
Keywords: CatBoost; GridSearchCV; Indeks Kualitas Udara; Prediksi; Air Quality Index; CatBoost; GridSearchCV; Prediction; بمؤشر جودة الهواء، CatBoost; GridSearchCV; التنبؤ
Departement: Fakultas Sains dan Teknologi > Jurusan Teknik Informatika
Depositing User: Mohamad Arif Abdul Syukur
Date Deposited: 23 Jul 2024 09:16
Last Modified: 23 Jul 2024 09:16
URI: http://etheses.uin-malang.ac.id/id/eprint/65623

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item