Analisando métodos de machine learning e avaliação do risco de crédito

Autores/as

DOI:

https://doi.org/10.20397/2177-6652/2021.v21i1.2089

Palabras clave:

Risco de Crédito, Credit Scoring, Regressão Logística, Machine Learning, XGBoost, Random Forest

Resumen

Objetivo do estudo: O objetivo deste artigo é comparar a regressão logística clássica e dois métodos de machine learning para credit scoring, o random forest e o XGBoost, visando identificar qual apresenta melhor desempenho na previsão de inadimplência.

Metodologia/abordagem: O desempenho dos modelos estimados foi comparado com base em acurácia, estatística Kolmogorov-Smirnov, além de curva ROC.

Originalidade/Relevância: Foi utilizada uma base de dados exclusiva com informações de 3.844 pequenas e médias empresas, clientes de uma locadora de automóveis com atuação em todo o Brasil.

Principais resultados: Os resultados sugerem que os métodos de machine learning apresentam capacidade preditiva maior quando comparados com a regressão logística. O XGBoost teve o melhor desempenho, entre os métodos analisados.

Contribuições teóricas/metodológicas: Este artigo corrobora a utilização de variáveis não financeiras para a previsão de inadimplência e a superioridade dos métodos estatísticos mais modernos frente à abordagem clássica.

Biografía del autor/a

Felipe Fernandes Coelho, Universidade Federal de Minas Gerais

Graduado em Engenharia de Produção pela Universidade Federal de Minas Gerais, pós-graduando em Gestão com ênfase em Finanças na Fundação Dom Cabral, Coordenador de Riscos de Meios de Pagamento na Localiza.

Daniel Penido de Lima Amorim, Universidade Federal de Minas Gerais

Economista, mestre em Administração / Finanças (2020) pela Universidade Federal de Minas Gerais (UFMG). Cursou as disciplinas Econometria I e Análise de Dados em Painel (2019) no mestrado / doutorado em Economia da UFMG. Também possui especialização em Finanças (2015) pela UFMG e graduação em Economia (2013) pelo Centro Universitário UNA. Na graduação, foi selecionado com bolsa integral pelo PROUNI e premiado por mérito acadêmico ao concluir o curso. No mestrado, foi bolsista da CAPES. Tem expertise em análise de dados econômicos e financeiros, tais como aqueles sobre setores econômicos, competição entre empresas, finanças corporativas, mercados financeiros, entre outros. Dispõe de amplo conhecimento e experiência em análises econométricas, seja com dados em corte transversal, painel ou séries temporais, utilizando dos softwares EViews, Stata, R e SPSS. Iniciou a carreira na área como estagiário de pesquisa, monitor das disciplinas de Introdução à Economia, Microeconomia e Macroeconomia, bem como bolsista de iniciação científica. Durante a especialização, desenvolveu pesquisas em Economia da Saúde e Finanças. Em 2014, trabalhou no departamento de riscos financeiros do Banco Bonsucesso, provendo análises sobre a exposição ao risco de mercado do portfólio da instituição financeira e gerando demonstrativos de risco enviados ao Banco Central. Entre 2015 e 2018, trabalhou na Fundação Dom Cabral (FDC), desenvolvendo artigos científicos e relatórios de pesquisa encomendados por organizações. Na FDC, foi coautor do maior estudo econômico sobre o setor audiovisual realizado até então no Brasil. Desde 2017, atua como pesquisador membro do Grupo de Organização Industrial Empírica do Instituto de Economia da Universidade Federal do Rio de Janeiro (IE/UFRJ). Também elaborou pesquisas encomendadas por empresas de consultoria. Atualmente, trabalha como Assessor de Fiscalização Econômico-Financeira na Agência Reguladora de Serviços de Abastecimento de Água e de Esgotamento Sanitário do Estado de Minas Gerais (ARSAE-MG). Durante o estágio docente do mestrado (2018-2019), atuou na disciplina Produtos Financeiros do curso do Controladoria e Finanças da UFMG. Além disso, coorientou quatro monografias de alunos dos cursos de Economia, Controladoria e Finanças e Engenharia de Produção da UFMG, assim como duas monografias de alunos do curso de Economia do IBMEC, as quais, inclusive, resultaram em artigos científicos publicados. Tem publicado seus artigos em periódicos nacionais e internacionais. Contribui como parecerista ad hoc para periódicos como Applied Economics, Latin American Business Review, Revista Brasileira de Finanças, entre outros. Tem grande interesse por métodos econométricos recentemente propostos. Dispõe de produção científica em Economia da Saúde, Organização Industrial Empírica, Finanças Corporativas e, principalmente, em Mercados Financeiros e de Capitais.

Marcos Antônio de Camargos, Universidade Federal de Minas Gerais

Doutor e Mestre em Administração pelo CEPEAD-UFMG, Especialista em Gestão Estratégica de Finanças e Graduado em Administração pela Universidade Federal de Minas Gerais. Atualmente é Coordenador Local do Mestrado Profissional em Economia e Professor Titular da Faculdade IBMEC-MG. Na Universidade Federal de Minas Gerais (UFMG) é Pesquisador e Professor (Adjunto IV) de cursos de graduação e do Mestrado em Administração do Centro de Pós-Graduação e Pesquisas em Administração (CEPEAD). Possui experiência na área de Administração, com ênfase em Finanças, atuando com ensino (coordenação de cursos de graduação e pós-graduação), pesquisa e consultoria na área. Temas de interesse: finanças corporativas, fusões e aquisições, estrutura de capital, governança corporativa, capital de giro, mercado financeiro e de capitais, análise de investimento. Autor do livro Matemática Financeira Aplicada a Produtos Financeiros e à Aanálise de Investimentos: Uso da Calculadora HP-12C (Saraiva, 2013).

Citas

Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The Journal of Finance, 23(4), 589–609. https://doi.org/10.1111/j.1540-6261.1968.tb00843.x

Altman, E. I., Sabato, G., & Wilson, N. (2010). The value of non-financial information in SME risk management. The Journal of Credit Risk, 6(2), 95–127. https://doi.org/10.21314/jcr.2010.110

Altman, E. I., & Saunders, A. (1997). Credit risk measurement: Developments over the last 20 years. Journal of Banking & Finance, 21(11-12), 1721–1742. https://doi.org/10.1016/s0378-4266(97)00036-8

Aniceto, M. C. (2016). Estudo comparativo entre técnicas de aprendizado de máquina para estimação de risco de crédito [Dissertação de Mestrado, Universidade de Brasília]. https://doi.org/10.26512/2016.03.D.20522

Araújo, E. A., & Carmona, C. U. D. M. (2009). Desenvolvimento de modelos credit scoring com abordagem de regressão de logística para a gestão da inadimplência de uma instituição de microcrédito. Contabilidade Vista & Revista, 18(3), 107–131. Recuperado de https://revistas.face.ufmg.br/index.php/contabilidadevistaerevista/article/view/335

Becker, C. (2018). Estudo comparativo entre abordagens de aprendizado de máquina em modelos de credit scoring [Monografia de Graduação, Universidade Federal do Rio Grande do Sul]. Recuperado de http://hdl.handle.net/10183/201492

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/a:1010933404324

Brito Filho, D. A., & Artes, R. (2018). Application of bayesian additive regression trees in the development of credit scoring models in Brazil. Production, 28, e20170110. https://doi.org/10.1590/0103-6513.20170110

Brito, G. A. S., & Assaf Neto, A. (2008). Modelo de classificação de risco de crédito de empresas. Revista Contabilidade & Finanças, 19(46), 18–29. https://doi.org/10.1590/S1519-70772008000100003

Camargos, M. A., Camargos, M. C. S., Silva, F. W., Santos, F. S., & Rodrigues, P. J. (2010). Fatores condicionantes de inadimplência em processos de concessão de crédito a micro e pequenas empresas do Estado de Minas Gerais. Revista de Administração Contemporânea, 14(2), 333–352. https://doi.org/10.1590/S1415-65552010000200009

Chen, T., & Guestrin, C. (2016). XGBoost. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’16. https://doi.org/10.1145/2939672.2939785

Corrar, L. J., Paulo, E., & Dias Filho, J. M. (2007). Análise multivariada: Para cursos de administração, ciências contábeis e economia. São Paulo: Atlas.

Durand, D. (1941). Risk elements in consumer installment financing. New York: National Bureau of Economic Research.

Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179–188. https://doi.org/10.1111/j.1469-1809.1936.tb02137.x

Forti, M. (2018). Técnicas de machine learning aplicadas na recuperação de crédito do mercado brasileiro. [Dissertação de Mestrado, Fundação Getúlio Vargas]. Recuperado de http://hdl.handle.net/10438/24653

Freund, Y., & Schapire, R.E. (1996). Experiments with a new boosting algorithm. ICML'96: Proceedings of the Thirteenth International Conference on Machine Learning. Recuperado de https://cseweb.ucsd.edu/~yfreund/papers/boostingexperiments.pdf

Hastie, T., Tibshirani, R., & Friedman, J. (2001). The elements of statistical learning. New York: Springer.

Gonçalves, E. B., Gouvêa, M. A., & Mantovani, D. M. N. (2013). Análise de risco de crédito com o uso de regressão logística. Revista Contemporânea De Contabilidade, 10(20), 139–160. https://doi.org/10.5007/2175-8069.2013v10n20p139

Grover, P. (2017). Gradient boosting from scratch. Recuperado de https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d

Gujarati, D. N. (2000). Econometria básica (3a ed.). São Paulo: Makron Books.

Guégan, D., & Hassani, B. (2018). Regulatory learning: How to supervise machine learning models? An application to credit scoring. The Journal of Finance and Data Science, 4(3), 157–171. https://doi.org/10.1016/j.jfds.2018.04.001

Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (2005). Análise multivariada de dados (5a ed.). Porto Alegre: Bookman.

Hamori, S., & Kume, T. (2018). Artificial intelligence and economic growth. Advances in Decision Sciences, 22(1), 256–278. https://doi.org/10.47654/v22y2018i1p256-278

Hand, D. J., & Adams, N. M. (2000). Defining attributes for scorecard construction in credit scoring. Journal of Applied Statistics, 27(5), 527–540. https://doi.org/10.1080/02664760050076371

Hosmer, D.W., & Lemeshow, S. (2000). Applied logistic regression (5a ed.). Danvers: John Wiley & Sons.

Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, perspectives, and prospects. Science, 349(6245), 255–260. https://doi.org/10.1126/science.aaa8415

Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. Appears in the International Joint Conference on Articial Intelligence (IJCAI). Recuperado de http://ai.stanford.edu/~ronnyk/accEst.pdf

Lewis, E. (1992). Introduction to credit scoring. San Rafael: Athena Press.

Lugovskaya, L. (2010). Predicting default of Russian SMEs on the basis of financial and non-financial variables. Journal of Financial Services Marketing, 14(4), 301–313. https://doi.org/10.1057/fsm.2009.28

Marra, V. N. (2019). Previsão de dificuldades financeiras em empresas latino-americanas via aprendizagem de máquina. [Dissertação de Mestrado, Universidade Federal de Uberlândia]. http://dx.doi.org/10.14393/ufu.di.2019.947

Mitchell, T. M. (1997). Machine learning. New York: McGraw-Hill.

Munkhdalai, L., Munkhdalai, T., Namsrai, O.-E., Lee, J., & Ryu, K. (2019). An empirical comparison of machine-learning methods on bank client credit assessments. Sustainability, 11(3), 699. http://dx.doi.org/10.3390/su11030699

Ortiz-Molina, H., & Penas, M. F. (2007). Lending to small businesses: The role of loan maturity in addressing information problems. Small Business Economics, 30(4), 361–383. http://dx.doi.org/10.1007/s11187-007-9053-2

Pimentel, E., & Omar, N. (2006). Descobrindo conhecimentos em dados de avaliação da aprendizagem com técnicas de mineração de dados. Anais do Workshop de Informática na Escola, 1(1). Recuperado de https://www.br-ie.org/pub/index.php/wie/article/view/885

Qu, Y. (2008). Macroeconomic factors and probability of default. European Journal of Economics, Finance and Administrative Sciences, 13, 192–215.

Reed, R. D., & Marks, R. J. (1999). Neuronal smithing: Supervised learning in feedward artificial neuronal network. Cambridge: MIT Press.

Serasa Experian (2019). Inadimplência de micro e pequenas empresas cresce 6,1% em maio, revela Serasa Experian. Recuperado de https://www.serasaexperian.com.br/sala-de-imprensa/estudos-e-pesquisas/inadimplencia-de-micro-e-pequenas-empresas-cresce-61-em-maio-revela-serasa-experian/

Sharpe, W. F., Alexander, G. J., & Bailey, J. V. (1998). Investments (6a ed.). New Jersey: Prentice Hall.

Silverio, M. (2015). Aplicação de algoritmos de aprendizado de máquina no desenvolvimento de modelos de escore de crédito. [Dissertação de Mestrado, Insper]. Recuperado de http://dspace.insper.edu.br/xmlui/handle/11224/1503

Sousa, A. F., & Chaia, A. J. (2000). Política de crédito: uma análise qualitativa dos processos das empresas. Caderno de Pesquisas em Administração, 7(3), 13-25.

Thomas, L. C. (2009). Consumer credit models: Pricing, profit and portfolios. New York: Oxford University Press.

Tsai, C.-F., Hsu, Y.-F., & Yen, D. C. (2014). A comparative study of classifier ensembles for bankruptcy prediction. Applied Soft Computing, 24, 977–984. http://dx.doi.org/10.1016/j.asoc.2014.08.047

Xiaojiao, Y. (2017). Machine learning application in online leading credit risk prediction, ArXiv. Recuperado de https://arxiv.org/abs/1707.04831

Zhang, L., Priestley, J., & Ni, X. (2018). Influence of the event rate on discrimination abilities of bankruptcy prediction models. International Journal of Database Management Systems, 10(1), 01–14. http://dx.doi.org/10.5121/ijdms.2018.10101

Zhong, H., Miao, C., Shen, Z., & Feng, Y. (2014). Comparing the learning effectiveness of BP, ELM, I-ELM, and SVM for corporate credit ratings. Neurocomputing, 128, 285–295. http://dx.doi.org/10.1016/j.neucom.2013.02.054

Publicado

2021-03-15

Cómo citar

Coelho, F. F., Amorim, D. P. de L., & Camargos, M. A. de. (2021). Analisando métodos de machine learning e avaliação do risco de crédito. Revista Gestão & Tecnologia, 21(1), 89–116. https://doi.org/10.20397/2177-6652/2021.v21i1.2089