Seleksi Fitur untuk Data Churn for Bank Customers Menggunakan Analisis Korelasi Pearson

Ika Maylani, Fadlur Rochman, Norma Devi Kurniasari

Abstract


Salah satu permasalahan yang muncul pada proses pembelajaran data yakni jumlah data yang besar dan banyaknya fitur yang dilibatkan. Salah satu teknik yang bisa digunakan untuk menangani hal tersebut yakni seleksi fitur dengan tujuan untuk mereduksi jumlah fitur. Pendekatan yang bisa digunakan dalam melakukan seleksi fitur antara lain analisis korelasi. Analisi korelasi dapat digunakan untuk mengetahui seberapa berpengaruh fitur terhadap hasil atau target klasifikasi. Penelitian ini melakukan seleksi fitur menggunakan analisis korelasi kemudian diuji dengan mengklasifikasikan data dengan memanfaatkan metode K-Nearest Neighbor. Data yang digunakan yakni data Churn for Bank Customers yang diambil dari Kaggle. Hasil uji coba menunjukkan bahwa pengurangan jumlah fitur berdasarkan nilai koefisien korelasi yang rendah dapat meningkatkan nilai akurasi. Fitur yang dianggap penting yakni Age dan IsActiveMember.

Keywords


Analisis Korelasi; Data Churn for Bank Customers; K-Nearest Neighbor; Seleksi fitur.

Full Text:

PDF

References


M. E. Morocho-Cayamcela, H. Lee, dan W. Lim, “Machine learning for 5G/B5G mobile and wireless communications: Potential, limitations, and future directions,” IEEE Access, vol. 7, hlm. 137184–137206, 2019, doi: 10.1109/ACCESS.2019.2942390.

Z.-H. Zhou, “A brief introduction to weakly supervised learning,” National Science Review, vol. 5, no. 1, hlm. 44–53, Agu 2017, doi: 10.1093/nsr/nwx106.

S. N. Shukla dan B. M. Marlin, “Interpolation-Prediction Networks for Irregularly Sampled Time Series,” 2019.

N. Papernot dan P. D. McDaniel, “Deep k-Nearest Neighbors: Towards Confident, Interpretable and Robust Deep Learning,” CoRR, vol. abs/1803.04765, 2018, [Daring]. Tersedia pada: http://arxiv.org/abs/1803.04765

H. Saadatfar, S. Khosravi, J. H. Joloudari, A. Mosavi, dan S. Shamshirband, “A New K-Nearest Neighbors Classifier for Big Data Based on Efficient Data Pruning,” Mathematics, vol. 8, no. 2, 2020, doi: 10.3390/math8020286.

R. Ahuja, A. Solanki, dan A. Nayyar, “Movie Recommender System Using K-Means Clustering AND K-Nearest Neighbor,” dalam 2019 9th International Conference on Cloud Computing, Data Science Engineering (Confluence), 2019, hlm. 263–268. doi: 10.1109/CONFLUENCE.2019.8776969.

Kaggle, “Getting Started on Kaggle | Data Scxience Resources,” 2022. https://www.kaggle.com/docs

Y. Liu, Y. Mu, K. Chen, Y. Li, dan J. Guo, “Daily activity feature selection in smart homes based on pearson correlation coefficient,” Neural Processing Letters, vol. 51, no. 2, hlm. 1771–1787, 2020.

D. Risqiwati, A. D. Wibawa, E. S. Pane, W. R. Islamiyah, A. E. Tyas, dan M. H. Purnomo, “Feature Selection for EEG-Based Fatigue Analysis Using Pearson Correlation,” dalam 2020 International Seminar on Intelligent Technology and Its Applications (ISITIA), 2020, hlm. 164–169. doi: 10.1109/ISITIA49792.2020.9163760.

Y. Sugianela dan T. Ahmad, “Pearson Correlation Attribute Evaluation-based Feature Selection for Intrusion Detection System,” dalam 2020 International Conference on Smart Technology and Applications (ICoSTA), 2020, hlm. 1–5. doi: 10.1109/ICoSTA48221.2020.1570613717.

Kaggle, “Churn for Bank Customers.” 2020. [Daring]. Tersedia pada: https://www.kaggle.com/mathchi/churn-for-bank-customers




DOI: https://doi.org/10.31284/p.snestik.2022.2927

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Ika Maylani, Fadlur Rochman, Norma Devi Kurniasari

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.