Avaliação experimental de um classificador para apoiar a detecção de fraudes em notas fiscais públicas de medicamentos
DOI:
https://doi.org/10.20397/2177-6652/2024.v24i1.2235Palabras clave:
Medicamentos, Corrupção, Mineração de Dados, Nota Fiscal Eletrônica Pública, InvestigaçãoResumen
Objetivo do estudo: Desenvolver e avaliar a eficácia de um classificador hierárquico customizado, no contexto de Notas Fiscais Eletrônicas Públicas de medicamentos, analisadas pelo Ministério Público (MP), Grupo de Atuação Especial de Combate ao Crime Organizado (GAECO) e Secretaria da Fazenda Estaduais.
Metodologia/abordagem: Após o desenvolvimento e a parametrização inicial do classificador proposto, foi executado um experimento controlado com notas fiscais públicas custodiadas pelo MP, respeitando o sigilo fiscal dos envolvidos.
Originalidade/relevância: O problema de descrições de Notas Fiscais incongruentes é nacional e as soluções gerais publicadas na literatura não apresentam uma altíssima precisão. Neste sentido, o trabalho apresenta a implementação de um classificador de texto capaz de identificar descrições de medicamentos, suas subclasses hierárquicas e associações presentes em Notas Fiscais Eletrônicas Públicas, cujo resultado servirá para construção de análises e investigações que apoiarão decisões estratégicas.
Principais resultados: Considerando a significância estatística, o classificador foi capaz de identificar as descrições de medicamentos e suas subclasses hierárquicas, com os seguintes resultados médios: acurácia de 99.81%, precisão de 100%, revocação ou sensibilidade de 99.64% e medida-F1 de 99.82%.
Contribuições teóricas/metodológicas: Foi esmiuçado o problema de reconhecimento incorreto de produtos em Notas Fiscais, facilitando discussões e construções de novas propostas. Além disso, foi apresentada uma solução prática baseada em Mineração de Textos, evidenciando o algoritmo que obteve a melhor eficácia para automatizar a extração das subclasses hierárquicas das descrições dos medicamentos e identificá-las, viabilizando investigações e detecção de fraudes.
Citas
Al-Anzi, F. S. & Abuzeina, D. (2017). Toward an enhanced Arabic text classification using cosine similarity and Latent Semantic Indexing. Journal of King Saud University Computer and Information Sciences, 29(2), pp. 189-195. doi: 10.1016/j.jksuci.2016.04.001.
Agência Nacional de Vigilância Sanitária, Anvisa (2011). Vocabulário Controlado de Formas Farmacêuticas, Vias de Administração e Embalagens de Medicamentos [Manual]. Agência Nacional de Vigilância Sanitária, Brasília, DF, Brasil.
Aquino, D. S. (2008). Por que o uso racional de medicamentos deve ser uma prioridade. Ciência & Saúde Coletiva, Rio de Janeiro, RJ, Brasil, 13.
Basili, V. R. & Weiss, D. M. (1984). A methodology for collecting valid software engineering data. IEEE Transactions of Software Engineering, 10(6). doi: 0098-5589/84/1100-0728$01.00.
Bass, L., Clements, P. & Kazman, R. (2003). Software architecture in practice (3a ed.). New Jersey: Addison-Wesley Longman Publishing Co.
Batista, R. de A., Bagatini, D. D. S. & Frozza, R. (2017). Classificação Automática de Códigos NCM utilizando o Algoritmo de Naïve Bayes. Revista Brasileira de Sistemas de Informação, 11(2), pp. 4-29. Recuperado de http://www.seer.unirio.br/index.php/isys/article/view/6401.
Constituição da República Federativa do Brasil, de 05 de outubro de 1988. Diário Oficial da União. Brasília, DF.
Emenda Constitucional n. 42, de 19 de dezembro de 2003. Diário Oficial da União. Brasília, DF.
Câmara de Regulação do Mercado de Medicamentos (2004). Resolução N 2, de 5 de Março de 2004. Recuperado de http://portal.anvisa.gov.br/documents/374947/2932039/Resolu%C3%A7%C3%A3o+n%C2%BA+2+de+5+de+mar%C3%A7o+de+2004+(PDF).pdf/b6d68347-a134-4465-a2f1-e5ed0cabc747.
Carvalho, R., Paiva, E., Rocha, H. & Mendes, G. (2014). Using Clustering and Text Mining to Create a Reference Price Database. Learning & Nonlinear Models. Journal of the Brazilian Society on Computational Intelligence, 12(1), pp. 38-52. Recuperado de http://abricom.org.br/wp-content/uploads/sites/4/2016/07/vol12-no1-art3.pdf.
Carvalho, R., Paiva, E., Rocha, H. & Mendes, G. (2013). Methodology for Creating the Brazilian Government Reference Price Database. X Encontro Nacional de Inteligência Artificial e Computacional (ENIAC). Recuperado de https://www.researchgate.net/publication/270820493_Methodology_for_Creating_the_Brazilian_Government_Reference_Price_Database.
Colaço Júnior, M. & Oliveira, R. N. (2018). Experimental Analysis of Stemming on Jurisprudential Documents Retrieval. Information. ICEIS 2017 19th International Conference on Enterprise Information Systems. Porto, Portugal. doi: 9. 28. 10.3390/info9020028.
Controladoria-Geral da União. Portal da Transparência – Orçamento Anual. Disponível em: http://www.portaltransparencia.gov.br/orcamento?ano=2020.
Feldman, R. & Sanger, J. (2006). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge: Cambridge University Press.
Federação de Indústrias do Estado de São Paulo (2010). Corrupção: custos econômicos e propostas de combate [Relatório]. São Paulo, SP, Brasil.
Friedman, M. (1937). The Use of Ranks to Avoid the Assumption of Normality Implicit in the Analysis of Variance. Journal of the American Statistical Association, 32(200), pp. 675-701. doi: 10.2307/2279372.
Hastie, T., Tibshirani, R. & Friedman, J. (2011). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2a ed.). New York: Springer.
Instituto Brasileiro de Geografia e Estatística. Produto Interno Bruto – PIB. Disponível em: https://www.ibge.gov.br/explica/pib.php#:~:text=O%20%20PIB%20do%20Brasil%20em,das%20Unidades%20da%20Federa%C3%A7%C3%A3o%20brasileiras.
IBM. SPSS software – Bridge the gap between data science and data understanding. Disponível em: https://www.ibm.com/analytics/spss-statistics-software.
Instituto Brasileiro de Planejamento e Tributação. Boletim do Impostômetro mostra que ICMS tem a maior fatia de impostos recolhidos no país. Disponível em: https://ibpt.com.br/noticia/2804/Boletim-do-Impostometro-mostra-que-ICMS-tem-a-maior-fatia-de-impostos-recolhidos-no-pais.
Kratcoski, P. C. & Edelbacher, M. (2018). Fraud and Corruption: Major Types, Prevention, and Control (1a ed.) (p. 3010. New York: Springer.
Levene, H. (1960). Robust tests for equality of variances. International Journal of Machine Learning and Cybernetics, pp. 278-292.
Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady, 10, pp. 707-710.
Li, B. & Han, L. (2013). Distance weighted cosine similarity measure for text classification. International Conference on Intelligent Data Engineering and Automated Learning (pp. 611-618). Heidelberg: Springer.
Machado, E. (2007). Um estudo de limpeza em base de dados desbalanceada e com sobreposição de classes (Dissertação de mestrado). Universidade de Brasília, Brasília, DF, Brasil.
Madeira, R. (2015). Aplicação de técnicas de mineração de texto na detecção de discrepâncias em documentos fiscais (Dissertação de mestrado). Fundação Getúlio Vargas, Rio de Janeiro, RJ, Brasil.
Mankiw, N. G., Romer, D. & Weil, D. N. (1992). A Contribution to the Empirics of Economic Growth. The Quarterly Journal of Economics, 107(2), pp. 407-437. doi 10.2307/2118477.
Nota Técnica n. 002 da Receita Federal do Brasil de Novembro de 2016. Recuperado em https://www.nfe.fazenda.gov.br/portal/listaConteudo.aspx?tipoConteudo=tW+YMyk/50s=.
Oliveira, R. S. (2017). Utilizando o algoritmo de levenshtein e mongodb em dados de licitações governamentais (Monografia). Universidade Federal de Mato Grosso, Cuiabá, MT, Brasil.
Pedregosa, F et al. (2011). Scikit-learn: Machine learning in Python. The Jornal of Machine Learning Research. pp. 2825-2930. Recuperado em: https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf.
Portaria n. 3.992 do Ministério da Saúde, de 28 de dezembro de 2017. Diário Oficial da União, Brasília, DF, Brasil.
Resolução Normativa n. 259 da Agência Nacional de Saúde, de 17 de junho de 2011. Diário Oficial da União. Brasília, DF.
Ribeiro, L. V. et al. (2018) Reconhecimento de entidades nomeadas em itens de produto da nota fiscal eletrônica. Revista do Tribunal de Contas do Estado de Minas Gerais, 36.
Salton, G. & Buckley, C. (1988) Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management, 24, pp. 513-523. doi 10.1016/0306-4573(88)90021-0.
Salton, G., Fox, E. A. & Wu, H. (1983). Extended Boolean information retrieval. Commun. Association for Computing Machinery 26(11), pp. 1022–1036. doi: 10.1145/182.358466.
Seward, L. E. & Doane, D. P. (2014). Estatística Aplicada à Administração e Economia (4a ed.). AMGH Editora: Rio Grande do Sul.
Secretaria de Estado da Fazenda de Sergipe. Portal da Transparência. Disponível em: http://www.transparenciasergipe.se.gov.br/.
Shapiro, S. S. & Wilk, M. B. (1965). An Analysis of Variance Test for Normality (Complete Samples). International Journal of Machine Learning and Cybernetics, 52(3/4), pp. 591-611. doi: 10.2307/2333709.
Silva, L. P. A. (2019). Orçamento temático de acesso a medicamentos: Análise de 10 anos de recursos federais destinados à assistência farmacêutica [Manual]. Instituto de Estudos Socioeconômicos, Brasília, DF, Brasil.
Skiena, S. S. (2017). Distance and network methods. The data Science Design Manual (pp. 303-339). New York: Springer.
Sulpino, F. V. (2018). Evolução do gasto com medicamentos do Sistema Único de Saúde no período de 2010 a 2016 [Relatório]. Instituto de Pesquisas Econômicas Aplicadas, Brasília, DF, Brasil.
Sulpino, F. V.; PIOLA, S.; BENEVIDES, R. (2019). Vinculação orçamentária do gasto em saúde no Brasil: resultados e argumentos a seu favor [Relatório]. Instituto de Pesquisas Econômicas Aplicadas, Brasília, DF, Brasil.
Transparência Brasil (2019). Métodos de detecção de fraude e corrupção em contratações públicas. [Manual]. Recuperado em: https://www.transparencia.org.br/downloads/publicacoes/Metodos%20Detec%C3%A7%C3%A3o%20de%20Fraude.pdf.
Transparency International (2019). Corruption Perceptions index 2019: Full source description [Relatório]. Transparency International, Berlim, Alemanha.
Travassos, G. H., Gurov, D. & Amaral, E. (2020). Introdução à Engenharia de Software Experimental [Relatório]. Universidade Federal do Rio de Janeiro, Rio de Janeiro, RJ, Brasil.
United Nations (2003). United Nations Convention Against Corruption. United Nations Office on Drugs and Crime, Vienna, Áustria.
Vijayarani, S & Janani, M. (2016). Text Mining: open Source Tokenization Tools – An Analysis. Advanced Computational Intelligence: An International Journal, 3(1), pp. 11. doi: 10.5121/acii.2016.3104.
Weiss, S., Indurkhya, N., Zhang, T. & Damerau, F. (2004). Text Mining: Predictive Methods for Analyzing Unstructured Information. doi: 10.1007/978-0-387-34555-0.
Wilcoxon, F. (1945). Individual Comparisons by Ranking Methods. Biometrics Bulletin, 1(6), pp. 80-83. doi:10.2307/3001968.
World Health Organization (1972). International Drug Monitoring, the Role of National Centers [Relatório]. World Health Organization, Genebra, Suíça.
Zhu, W. et al. (2010). Sensitivity, specificity, accuracy, associated confidence interval and ROC analysis with practical SAS implementations. NESUG proceedings: health care and life sciences. Shanghai Arch Psychiatry, 19, pp. 67. Recuperado de: https://www.semanticscholar.org/paper/1-Sensitivity-%2C-Specificity-%2C-Accuracy-%2C-Associated-Zhu-Zeng/d1e5c3097daf99db2c8dce3ac0edc3c5ade41460.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 Revista Gestão & Tecnologia
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Os direitos, inclusive os de tradução, são reservados. É permitido citar parte de artigos sem autorização prévia desde que seja identificada a fonte. A reprodução total de artigos é proibida. Em caso de dúvidas, consulte o Editor.