Khasanah, Rizka Ma'rifatul (2024) Prediksi turnover karyawan menggunakan algoritma random forest. Undergraduate thesis, Universitas Islam Negeri Maulana Malik Ibrahim.
Text (Fulltext)
200605110032.pdf - Accepted Version Available under License Creative Commons Attribution Non-commercial No Derivatives. Download (3MB) |
Abstract
INDONESIA:
Turnover karyawan merupakan tantangan yang dapat memengaruhi stabilitas dan kinerja perusahaan. Penelitian ini bertujuan untuk memprediksi turnover karyawan menggunakan algoritma Random Forest dan seleksi fitur berbasis Pearson Correlation Coefficient (PCC). Dataset yang digunakan adalah data Human Resources (HR) dari International Business Machines Corporation (IBM), terdiri dari 1470 data dan 35 fitur. Pengujian dilakukan dengan berbagai skenario, termasuk penggunaan seluruh fitur serta 5, 10, dan 15 fitur teratas berdasarkan PCC, dengan rasio pembagian data 90:10, 80:20, dan 70:30, serta penyesuaian hyperparameter. Hasil penelitian menunjukkan bahwa model Random Forest mencapai akurasi tertinggi sebesar 88% pada skenario penggunaan seluruh fitur dengan rasio data 80:20, menggunakan kombinasi hyperparameter terbaik yaitu n_estimators = 100, max_depth = 5, dan max_features = 2. Penggunaan data dengan seleksi fitur menghasilkan penurunan akurasi hingga 2%. Meskipun PCC membantu perusahaan dalam mengidentifikasi faktor-faktor relevan yang memengaruhi turnover, uji coba menunjukkan bahwa tanpa atau dengan PCC hasilnya tetap konsisten ketika seluruh fitur digunakan karena model mampu memanfaatkan seluruh informasi yang terdapat dalam data. Penelitian ini diharapkan dapat membantu perusahaan dalam merancang strategi retensi untuk menekan angka turnover berbasis data prediktif.
ENGLISH:
Employee turnover is a challenge that can affect the stability and performance of the company. This study aims to predict employee turnover using the Random Forest algorithm and Pearson Correlation Coefficient (PCC)-based feature selection. The dataset used is Human Resources (HR) data from International Business Machines Corporation (IBM), consisting of 1470 data and 35 features. Testing was conducted with a variety of scenarios, including the use of the entire feature as well as the top 5, 10, and 15 features based on PCC, with data sharing ratios of 90:10, 80:20, and 70:30, as well as hyperparameter adjustments. The results show that the Random Forest model achieves the highest accuracy of 88% in the scenario of using all features with a data ratio of 80:20, using the best combination of hyperparameters namely n_estimators = 100, max_depth = 5, and max_features = 2. The use of data with feature selection results in a decrease in accuracy of up to 2%. Although PCC helps companies in identifying relevant factors that affect turnover, trials show that without or with PCC, the results remain consistent when all features are used because the model is able to utilize all the information contained in the data. This research is expected to help companies in designing retention strategies to reduce turnover numbers based on predictive data.
ARABIC:
دوران الموظفين هو التحدي الذي يمكن أن يؤثر على استقرار وأداء الشركة. تهدف هذه الدراسة إلى التنبؤ بدوران الموظفين باستخدام خوارزمية Random Forest واختيار الميزة المستندة إلى معامل ارتباط بيرسون (PCC). مجموعة البيانات المستخدمة هي بيانات الموارد البشرية (HR) من شركة International Business Machines Corporation (IBM) ، وتتكون من 1470 بيانات و 35 ميزة. تم إجراء الاختبار مع مجموعة متنوعة من السيناريوهات ، بما في ذلك استخدام الميزة بأكملها بالإضافة إلى أفضل 5 و 10 و 15 ميزة بناء على PCC ، مع نسب مشاركة البيانات 90:10 و 80:20 و 70:30 ، بالإضافة إلى تعديلات المعلمات الفائقة. أظهرت النتائج أن نموذج Random Forest يحقق أعلى دقة بنسبة 88٪ في سيناريو استخدام جميع المعالم بنسبة بيانات 80:20 ، باستخدام أفضل مزيج من المعلمات الفائقة وهي n_estimators = 100 و max_depth = 5 و max_features = 2. يؤدي استخدام البيانات مع تحديد الميزات إلى انخفاض في الدقة يصل إلى ٪2.على الرغم من أن PCC تساعد الشركات في تحديد العوامل ذات الصلة التي تؤثر على معدل الدوران ، إلا أن التجارب تظهر أنه بدون أو مع PCC ، تظل النتائج متسقة عند استخدام جميع الميزات لأن النموذج قادر على استخدام جميع المعلومات الواردة في البيانات. من المتوقع أن يساعد هذا البحث الشركات في تصميم استراتيجيات الاحتفاظ لتقليل أرقام الدوران بناء على البيانات التنبؤية.
Item Type: | Thesis (Undergraduate) |
---|---|
Supervisor: | Yaqin, M. Ainul and Zaman, Syahiduz |
Keywords: | Prediksi; Turnover Karyawan; Random Forest; Pearson Correlation Coefficient; Prediction; Employee Turnover; Random Forest; Pearson Correlation Coefficient; التنبؤ; دوران الموظفين; الغابة العشوائية; معامل ارتباط بيرسون |
Subjects: | 08 INFORMATION AND COMPUTING SCIENCES > 0801 Artificial Intelligence and Image Processing > 080109 Pattern Recognition and Data Mining |
Departement: | Fakultas Sains dan Teknologi > Jurusan Teknik Informatika |
Depositing User: | Rizka Ma'rifatul Khasanah |
Date Deposited: | 10 Jan 2025 09:05 |
Last Modified: | 10 Jan 2025 09:05 |
URI: | http://etheses.uin-malang.ac.id/id/eprint/71174 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |