«Финансы и кредит»
 

Реферирование и индексирование

РИНЦ
Referativny Zhurnal VINITI RAS
Worldcat
LCCN Permalink
Google Scholar

Электронные версии в PDF

EBSCOhost
Eastview
Elibrary
Biblioclub

Преодоление несбалансированности классов при моделировании дефолта кредитного требования

Журнал «Финансы и кредит»
т. 18, вып. 11, ноябрь 2019

Получена: 17.10.2019

Получена в доработанном виде: 31.10.2019

Одобрена: 14.11.2019

Доступна онлайн: 29.11.2019

Рубрика: Банковская деятельность

Коды JEL: G21, G28

Страницы: 2534–2561

https://doi.org/10.24891/fc.25.11.2534

Роскошенко В.В. аспирант, магистр экономики, экономический факультет, МГУ имени М.В. Ломоносова, Москва, Российская Федерация 
roskoshenkoeco@mail.ru

ORCID id: отсутствует
SPIN-код: отсутствует

Предмет. Проблема несбалансированности классов в выборочных данных при моделировании дефолта кредитного требования, подходы к предварительной обработке данных, позволяющие преодолеть дисбаланс классов. Имеющиеся исследования по сопоставлению таких подходов выполнены либо в отношении небольшого числа методов, либо на специфических данных из отдельных областей деятельности. Ранее в литературе не рассмотрены подходы на основе сочетания методов предварительной обработки данных с ансамблевым решением (стэкингом).
Цели. Произвести поиск оптимального варианта по преодолению проблемы несбалансированности классов среди каждой из групп подходов для банковских данных о кредитовании физических лиц.
Методология. Использованы математическое моделирование, статистический анализ и контент-анализ источников.
Результаты. Показано, что подход EditedNearestNeighbours, будучи довольно сложным с вычислительной точки зрения, оказался оптимальным. В его основе — удаление представителей доминирующего класса, плохо удовлетворяющих своему окружению, которое определяется посредством кластеризации. Среди сочетаний подходов предварительной обработки данных и стэкинга оптимальным оказался вариант с RandomOverSampler. Последний предполагает увеличение доли миноритарного класса случайным образом и является одним из наиболее простых.
Область применения. Результаты могут быть использованы в кредитном скоринге и в любом статистическом моделировании, где требуется бинарная классификация.
Выводы. Осуществлено исчерпывающее сопоставление подходов по преодолению проблемы несбалансированности классов в выборочных данных. Были определены оптимальный подход среди подходов предварительной обработки данных, а также оптимальное сочетание подхода предварительной обработки данных с ансамблевым решением.

Ключевые слова: кредитный скоринг, логистическая регрессия, ансамбли, несбалансированность классов, бинарная классификация

Список литературы:

  1. Sun Y., Wong A.C., Kamel M.S. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 2009, vol. 23, no. 4, pp. 687–719. URL: Link
  2. García V., Mollineda R., Sánchez J. On the k-NN performance in a challenging scenario of imbalance and overlapping. Pattern Analysis and Applications, 2008, vol. 11, iss. 3-4, pp. 269–280. URL: Link
  3. Japkowicz N., Stephen S. The class imbalance problem: A systematic study. Intelligent Data Analysis, 2002, vol. 6, no. 5, pp. 429–449 URL: Link
  4. Weiss G.M., Provost F. Learning when training data are costly: The effect of class distribution on tree induction. Journal of Artificial Intelligence Research, 2003, vol. 19, pp. 315–354. URL: Link
  5. Lin Y., Lee Y., Wahba G. Support vector machines for classification in nonstandard situations. Machine Learning, 2002, vol. 46, iss. 1-3, pp. 191–202. URL: Link
  6. Wu G., Chang E. KBA: kernel boundary alignment considering imbalanced data distribution. IEEE Transactions on Knowledge and Data Engineering, 2005, vol. 17, iss. 6, pp. 786–795. URL: Link
  7. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 2002, vol. 16, pp. 321–357. URL: Link
  8. He H., Bai Y., Garcia E.A., Li S. ADASYN: Adaptive synthetic sampling approach for imbalanced learning. IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), 2008, pp. 1322–1328. URL: Link
  9. Han H., Wang W.-Y., Mao B.-H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. In: Huang D.S., Zhang X.P., Huang G.B. (eds) Advances in Intelligent Computing. ICIC 2005. Lecture Notes in Computer Science, 2005, vol. 3644, pp. 878–887. URL: Link
  10. Nguyen H.M., Cooper E.W., Kamei K. Borderline over-sampling for imbalanced data classification. International Journal of Knowledge Engineering and Soft Data Paradigms, 2011, vol. 3, iss. 1, pp. 4–21. URL: Link
  11. Last F., Douzas G., Bacao F. Oversampling for Imbalanced Learning Based on k-Means and SMOTE. URL: Link
  12. Mani I., Zhang I. kNN approach to unbalanced data distributions: a case study involving information extraction. Proceedings of Workshop on Learning from Imbalanced Datasets, 2003. URL: Link
  13. Tomek I. Two modifications of CNN. IEEE Transactions on Systems, Man, and Cybernetics, 1976, vol. SMC-6, iss. 11, pp. 769–772. URL: Link
  14. Wilson D. Asymptotic Properties of Nearest Neighbor Rules Using Edited Data. IEEE Transactions on Systems, Man, and Cybernetics, 1972, vol. SMC-2, iss. 3, pp. 408–421. URL: Link
  15. Hart P. The condensed nearest neighbor rule. IEEE Transactions on Information Theory, 1968, vol. 14, iss. 3, pp. 515–516. URL: Link
  16. Kubat M., Matwin S. Addressing the curse of imbalanced training sets: one-sided selection. Proceedings of the Fourteenth International Conference on Machine Learning, 1997, vol. 97, pp. 179–186.
  17. Smith M.R., Martinez T., Giraud-Carrier C. An instance level analysis of data complexity. Machine Learning, 2014, vol. 95, iss. 2, pp. 225–256. URL: Link
  18. Domingos P. MetaCost: a general method for making classifiers cost-sensitive. Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 1999, pp. 155–164. URL: Link
  19. Ling C.X., Sheng V.S., Yang Q. Test strategies for cost-sensitive decision trees. IEEE Transactions on Knowledge and Data Engineering, 2006, vol. 18, iss. 8, pp. 1055–1067. URL: Link
  20. Schapire R.E. The strength of weak learnability. Machine Learning, 1990, vol. 5, iss. 2, pp. 197–227. URL: Link
  21. Freund Y., Schapire R.E. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 1997, vol. 55, iss. 1, pp. 119–139. URL: Link
  22. Schapire R.E., Singer Y. Improved boosting algorithms using confidence-rated predictions. Machine Learning, 1999, vol. 37, iss. 3, pp. 297–336. URL: Link
  23. Breiman L. Bagging predictors. Machine Learning, 1996, vol. 24, iss. 2, pp. 123–140. URL: Link
  24. Aslam J.A., Popa R.A., Rivest R.L. On Estimating the Size and Confidence of a Statistical Audit. Proceedings of the USENIX Workshop on Accurate Electronic Voting Technology, 2007.
  25. Wolpert D.H. Stacked Generalization. Neural Networks, 1992, vol. 5, iss. 2, pp. 241-259. URL: Link80023-1
  26. Oza N.C., Tumer K. Classifier ensembles: Select real-world applications. Information Fusion, 2008, vol. 9, iss. 1, pp. 4–20. URL: Link
  27. Chawla N.V., Lazarevic A., Hall L.O., Bowyer K.W. SMOTEBoost: Improving prediction of the minority class in boosting. In: Lavrač N., Gamberger D., Todorovski L., Blockeel H. (eds) Knowledge Discovery in Databases: PKDD 2003. PKDD 2003. Lecture Notes in Computer Science, 2003, vol. 2838, Berlin, Springer, pp. 107–119. URL: Link
  28. Seiffert C., Khoshgoftaar T.M., Van Hulse J., Napolitano A. Rusboost: A hybrid approach to alleviating class imbalance. IEEE Transactions on Systems, Man, and Cybernetics – Part A: Systems and Humans, 2010, vol. 40, iss. 1, pp. 185–197. URL: Link
  29. Hu S., Liang Y., Ma L., He Y. MSMOTE: Improving classification performance when training data is imbalanced. Second International Workshop on Computer Science and Engineering, 2009, vol. 2, pp. 13–17. URL: Link
  30. Wang S., Yao X. Diversity analysis on imbalanced data sets by using ensemble models. IEEE Symposium on Computational Intelligence and Data Mining, 2009, pp. 324–331. URL: Link
  31. Tao D., Tang X., Li X., Wu X. Asymmetric bagging and random subspace for support vector machines-based relevance feedback in image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, vol. 28, iss. 7, pp. 1088–1099. URL: Link
  32. Chang E., Li B., Wu G., Goh K. Statistical learning for effective visual information retrieval. Proceedings 2003 International Conference on Image Processing, 2003, pp. 609–612. URL: Link
  33. Hido S., Kashima H., Takahashi Y. Roughly balanced bagging for imbalanced data. Statistical Analysis and Data Mining, 2009, vol. 2, iss. 5-6, pp. 412–426. URL: Link
  34. Chan P.K., Stolfo S.J. Toward scalable learning with non-uniform class and cost distributions: A case study in credit card fraud detection. Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, 1998, pp. 164–168. URL: Link
  35. Yan R., Liu Y., Jin R., Hauptmann A. On predicting rare classes with SVM ensembles in scene classification. 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03), 2003, vol. 3, pp. 21–24. URL: Link
  36. Liu X.-Y., Wu J., Zhou Z.-H. Exploratory undersampling for class-imbalance learning. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, vol. 39, iss. 2, pp. 539–550. URL: Link
  37. Fan W., S. Stolfo J., Zhang J., Chan P.K. Adacost: Misclassification cost-sensitive boosting. Proceedings of the Sixteenth International Conference on Machine Learning, 1999, pp. 97–105.
  38. Ting K.M. A comparative study of cost-sensitive boosting algorithms. Proceedings of the Seventeenth International Conference on Machine Learning, 2000, pp. 983–990.
  39. Sun Y., Kamel M.S., Wong A.K., Wang Y. Cost-sensitive boosting for classification of imbalanced data. Pattern Recognition, 2007, vol. 40, iss. 12, pp. 3358–3378. URL: Link
  40. Joshi M.V., Kumar V., Agarwal R.C. Evaluating boosting algorithms to classify rare classes: Comparison and improvements. Proceedings 2001 IEEE International Conference on Data Mining, 2001, pp. 257–264. URL: Link
  41. Estabrooks A., Jo T., Japkowicz N. A multiple resampling method for learning from imbalanced data sets. Computational Intelligence, 2004, vol. 20, iss. 1, pp. 18–36. URL: Link
  42. Stefanowski J., Wilk S. Selective pre-processing of imbalanced data for improving classification performance. In: Song I.Y., Eder J., Nguyen T.M. (eds) Data Warehousing and Knowledge Discovery. DaWaK 2008. Lecture Notes in Computer Science, 2008, vol. 5182, Berlin, Springer, pp. 283–292. URL: Link
  43. Batista G.E.A.P.A., Prati R.C., Monard M.C. A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations Newsletter, 2004, vol. 6, iss. 1, pp. 20–29.
  44. Fernandez A., Garcıa S., del Jesus M.J., Herrera F. A study of the behaviour of linguistic fuzzy rule based classification systems in the framework of imbalanced data-sets. Fuzzy Sets and Systems, 2008, vol. 159, iss. 18, pp. 2378–2398. URL: Link
  45. Galar M., Fernandez A., Barrenechea E. et al. A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012, vol. 42, iss. 4, pp. 463–484. URL: Link

Посмотреть другие статьи номера »

 

ISSN 2311-8709 (Online)
ISSN 2071-4688 (Print)

Свежий номер журнала

т. 25, вып. 11, ноябрь 2019

Другие номера журнала