Analisando métodos de machine learning e avaliação do risco de crédito

Felipe Fernandes Coelho, Daniel Penido de Lima Amorim, Marcos Antônio de Camargos

Resumo


Objetivo do estudo: O objetivo deste artigo é comparar a regressão logística clássica e dois métodos de machine learning para credit scoring, o random forest e o XGBoost, visando identificar qual apresenta melhor desempenho na previsão de inadimplência.

Metodologia/abordagem: O desempenho dos modelos estimados foi comparado com base em acurácia, estatística Kolmogorov-Smirnov, além de curva ROC.

Originalidade/Relevância: Foi utilizada uma base de dados exclusiva com informações de 3.844 pequenas e médias empresas, clientes de uma locadora de automóveis com atuação em todo o Brasil.

Principais resultados: Os resultados sugerem que os métodos de machine learning apresentam capacidade preditiva maior quando comparados com a regressão logística. O XGBoost teve o melhor desempenho, entre os métodos analisados.

Contribuições teóricas/metodológicas: Este artigo corrobora a utilização de variáveis não financeiras para a previsão de inadimplência e a superioridade dos métodos estatísticos mais modernos frente à abordagem clássica.


Palavras-chave


Risco de Crédito; Credit Scoring; Regressão Logística; Machine Learning; XGBoost; Random Forest

Texto completo:

PDF

Referências


Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The Journal of Finance, 23(4), 589–609. https://doi.org/10.1111/j.1540-6261.1968.tb00843.x

Altman, E. I., Sabato, G., & Wilson, N. (2010). The value of non-financial information in SME risk management. The Journal of Credit Risk, 6(2), 95–127. https://doi.org/10.21314/jcr.2010.110

Altman, E. I., & Saunders, A. (1997). Credit risk measurement: Developments over the last 20 years. Journal of Banking & Finance, 21(11-12), 1721–1742. https://doi.org/10.1016/s0378-4266(97)00036-8

Aniceto, M. C. (2016). Estudo comparativo entre técnicas de aprendizado de máquina para estimação de risco de crédito [Dissertação de Mestrado, Universidade de Brasília]. https://doi.org/10.26512/2016.03.D.20522

Araújo, E. A., & Carmona, C. U. D. M. (2009). Desenvolvimento de modelos credit scoring com abordagem de regressão de logística para a gestão da inadimplência de uma instituição de microcrédito. Contabilidade Vista & Revista, 18(3), 107–131. Recuperado de https://revistas.face.ufmg.br/index.php/contabilidadevistaerevista/article/view/335

Becker, C. (2018). Estudo comparativo entre abordagens de aprendizado de máquina em modelos de credit scoring [Monografia de Graduação, Universidade Federal do Rio Grande do Sul]. Recuperado de http://hdl.handle.net/10183/201492

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/a:1010933404324

Brito Filho, D. A., & Artes, R. (2018). Application of bayesian additive regression trees in the development of credit scoring models in Brazil. Production, 28, e20170110. https://doi.org/10.1590/0103-6513.20170110

Brito, G. A. S., & Assaf Neto, A. (2008). Modelo de classificação de risco de crédito de empresas. Revista Contabilidade & Finanças, 19(46), 18–29. https://doi.org/10.1590/S1519-70772008000100003

Camargos, M. A., Camargos, M. C. S., Silva, F. W., Santos, F. S., & Rodrigues, P. J. (2010). Fatores condicionantes de inadimplência em processos de concessão de crédito a micro e pequenas empresas do Estado de Minas Gerais. Revista de Administração Contemporânea, 14(2), 333–352. https://doi.org/10.1590/S1415-65552010000200009

Chen, T., & Guestrin, C. (2016). XGBoost. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’16. https://doi.org/10.1145/2939672.2939785

Corrar, L. J., Paulo, E., & Dias Filho, J. M. (2007). Análise multivariada: Para cursos de administração, ciências contábeis e economia. São Paulo: Atlas.

Durand, D. (1941). Risk elements in consumer installment financing. New York: National Bureau of Economic Research.

Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179–188. https://doi.org/10.1111/j.1469-1809.1936.tb02137.x

Forti, M. (2018). Técnicas de machine learning aplicadas na recuperação de crédito do mercado brasileiro. [Dissertação de Mestrado, Fundação Getúlio Vargas]. Recuperado de http://hdl.handle.net/10438/24653

Freund, Y., & Schapire, R.E. (1996). Experiments with a new boosting algorithm. ICML'96: Proceedings of the Thirteenth International Conference on Machine Learning. Recuperado de https://cseweb.ucsd.edu/~yfreund/papers/boostingexperiments.pdf

Hastie, T., Tibshirani, R., & Friedman, J. (2001). The elements of statistical learning. New York: Springer.

Gonçalves, E. B., Gouvêa, M. A., & Mantovani, D. M. N. (2013). Análise de risco de crédito com o uso de regressão logística. Revista Contemporânea De Contabilidade, 10(20), 139–160. https://doi.org/10.5007/2175-8069.2013v10n20p139

Grover, P. (2017). Gradient boosting from scratch. Recuperado de https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d

Gujarati, D. N. (2000). Econometria básica (3a ed.). São Paulo: Makron Books.

Guégan, D., & Hassani, B. (2018). Regulatory learning: How to supervise machine learning models? An application to credit scoring. The Journal of Finance and Data Science, 4(3), 157–171. https://doi.org/10.1016/j.jfds.2018.04.001

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (2005). Análise multivariada de dados (5a ed.). Porto Alegre: Bookman.

Hamori, S., & Kume, T. (2018). Artificial intelligence and economic growth. Advances in Decision Sciences, 22(1), 256–278. https://doi.org/10.47654/v22y2018i1p256-278

Hand, D. J., & Adams, N. M. (2000). Defining attributes for scorecard construction in credit scoring. Journal of Applied Statistics, 27(5), 527–540. https://doi.org/10.1080/02664760050076371

Hosmer, D.W., & Lemeshow, S. (2000). Applied logistic regression (5a ed.). Danvers: John Wiley & Sons.

Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, perspectives, and prospects. Science, 349(6245), 255–260. https://doi.org/10.1126/science.aaa8415

Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. Appears in the International Joint Conference on Articial Intelligence (IJCAI). Recuperado de http://ai.stanford.edu/~ronnyk/accEst.pdf

Lewis, E. (1992). Introduction to credit scoring. San Rafael: Athena Press.

Lugovskaya, L. (2010). Predicting default of Russian SMEs on the basis of financial and non-financial variables. Journal of Financial Services Marketing, 14(4), 301–313. https://doi.org/10.1057/fsm.2009.28

Marra, V. N. (2019). Previsão de dificuldades financeiras em empresas latino-americanas via aprendizagem de máquina. [Dissertação de Mestrado, Universidade Federal de Uberlândia]. http://dx.doi.org/10.14393/ufu.di.2019.947

Mitchell, T. M. (1997). Machine learning. New York: McGraw-Hill.

Munkhdalai, L., Munkhdalai, T., Namsrai, O.-E., Lee, J., & Ryu, K. (2019). An empirical comparison of machine-learning methods on bank client credit assessments. Sustainability, 11(3), 699. http://dx.doi.org/10.3390/su11030699

Ortiz-Molina, H., & Penas, M. F. (2007). Lending to small businesses: The role of loan maturity in addressing information problems. Small Business Economics, 30(4), 361–383. http://dx.doi.org/10.1007/s11187-007-9053-2

Pimentel, E., & Omar, N. (2006). Descobrindo conhecimentos em dados de avaliação da aprendizagem com técnicas de mineração de dados. Anais do Workshop de Informática na Escola, 1(1). Recuperado de https://www.br-ie.org/pub/index.php/wie/article/view/885

Qu, Y. (2008). Macroeconomic factors and probability of default. European Journal of Economics, Finance and Administrative Sciences, 13, 192–215.

Reed, R. D., & Marks, R. J. (1999). Neuronal smithing: Supervised learning in feedward artificial neuronal network. Cambridge: MIT Press.

Serasa Experian (2019). Inadimplência de micro e pequenas empresas cresce 6,1% em maio, revela Serasa Experian. Recuperado de https://www.serasaexperian.com.br/sala-de-imprensa/estudos-e-pesquisas/inadimplencia-de-micro-e-pequenas-empresas-cresce-61-em-maio-revela-serasa-experian/

Sharpe, W. F., Alexander, G. J., & Bailey, J. V. (1998). Investments (6a ed.). New Jersey: Prentice Hall.

Silverio, M. (2015). Aplicação de algoritmos de aprendizado de máquina no desenvolvimento de modelos de escore de crédito. [Dissertação de Mestrado, Insper]. Recuperado de http://dspace.insper.edu.br/xmlui/handle/11224/1503

Sousa, A. F., & Chaia, A. J. (2000). Política de crédito: uma análise qualitativa dos processos das empresas. Caderno de Pesquisas em Administração, 7(3), 13-25.

Thomas, L. C. (2009). Consumer credit models: Pricing, profit and portfolios. New York: Oxford University Press.

Tsai, C.-F., Hsu, Y.-F., & Yen, D. C. (2014). A comparative study of classifier ensembles for bankruptcy prediction. Applied Soft Computing, 24, 977–984. http://dx.doi.org/10.1016/j.asoc.2014.08.047

Xiaojiao, Y. (2017). Machine learning application in online leading credit risk prediction, ArXiv. Recuperado de https://arxiv.org/abs/1707.04831

Zhang, L., Priestley, J., & Ni, X. (2018). Influence of the event rate on discrimination abilities of bankruptcy prediction models. International Journal of Database Management Systems, 10(1), 01–14. http://dx.doi.org/10.5121/ijdms.2018.10101

Zhong, H., Miao, C., Shen, Z., & Feng, Y. (2014). Comparing the learning effectiveness of BP, ELM, I-ELM, and SVM for corporate credit ratings. Neurocomputing, 128, 285–295. http://dx.doi.org/10.1016/j.neucom.2013.02.054




DOI: https://doi.org/10.20397/2177-6652/2021.v21i1.2089

Métricas do artigo

Carregando Métricas ...

Metrics powered by PLOS ALM

Apontamentos

  • Não há apontamentos.




Direitos autorais 2021 Revista Gestão & Tecnologia

Licença Creative Commons
Esta obra está licenciada sob uma licença Creative Commons Atribuição - NãoComercial 4.0 Internacional.