Editoração de dados errôneos em surveys

Karl Henkel; Jimnah de Almeida

doi:10.20397/2177-6652/2023.v23i2.2065

Autores/as

Karl Henkel Universidade Federal do Pará https://orcid.org/0000-0001-7032-2898
Jimnah de Almeida Instituto de Desenvolvimento Econômico e Social do Pará/Sistema Nacional de Emprego https://orcid.org/0000-0003-2160-6557

DOI:

https://doi.org/10.20397/2177-6652/2023.v23i2.2065

Palabras clave:

Gestão de Projetos, Dados Censitários, Dados Errôneos, Editoração de Dados, Simulação com Dados,

Resumen

Título: Editoração de dados errôneos em surveys

Objetivo: O presente trabalho descreve as principais fontes de data bias ou dados errôneos que podem ocorrer na base de dados e identifica os seus efeitos na análise estatística.

Metodologia: Os dados foram levantados por meio da aplicação de um questionário com 800 entrevistadores para a criação de um banco de dados. Estes foram digitados por codificadores diferentes com vistas a diferenciar os dados errôneos. A análise é descritiva e analítica com aplicação de métodos quantitativos. Foram executadas pesquisas experimentais para identificar suas influências.

Originalidade: Os dados foram analisados relacionado à tipo de pergunta, escala, codificação e digitação, o que representa um aspecto não investigado ainda. A aplicação dos resultados possibilita reduzir falhas na base de dados na área de pesquisa, marketing ou estatísticas oficiais.

Principais resultados: Os resultados mostram que perguntas abertas, fechadas e escalas dicotômicas ou poliatômicas geram falhas de forma diferente. A identificação de dados errôneos por dupla digitação é restritiva pelo aspecto custo-benefício, a aplicação de lógicas algorítmicas é subjetiva e a substituição destes dados por outros pode criar a caraterização de dados manipulados.

Contribuições teóricas: Dados errôneos se previne intervalos mais longas ou uso de tools com sinais de vozes no momento da digitação. A aplicação de uma amostragem probabilística estratificada para a detecção de dados errôneos gera resultados satisfatórios em bases de big data.

Palavras-chave: dados errôneos; codificação de dados; inter-rater reliabilidade; editoração de dados.

Abstract:

Title: Editing of erroneous data in surveys

Objective: This paper describes the main sources of data bias or erroneous data that occur in the database and identifies their effects on statistical analysis.

Methodology: The data were collected through the application of a questionnaire with 800 interviewers for creating a database. These were typed by different encoders in order to distinguish the erroneous data. The analysis is descriptive with application of quantitative methods. Experimental research was carried out to identify their influences.

Relevance: The data were analysed in relation to type of question, scale, coding and typing style, which is an aspect not investigated yet. The application of the results makes it possible to reduce failures in the database in the area of research, marketing or official statistics.

Main results: The results show that open-ended questions, closed questions and dichotomous or polyatomic scales generate failures differently. The identification of erroneous data by double typing is restrictive due to the cost-benefit aspect, the application of algorithmic logic is subjective and the substitution of these data by others can create the characterization of manipulated data.

Contributions: Erroneous data is prevented by longer pauses or use of tools with voice signals at the time of data entry. The application of a stratified random sample to detect erroneous data generates satisfactory results also in big data bases.

Key words: erroneous data; data codification; inter-rater reliability; data cleansing.

Resumen

Título: Edición de datos erróneos en encuestas

Objetivo: Este trabajo describe las fuentes de sesgo de datos que pueden ocurrir en la base de datos e identifica sus efectos en el análisis estadístico.

Metodología: Los datos fueron recolectados mediante la aplicación de un cuestionario con 800 entrevistadores. Estos fueron mecanografiados por diferentes codificadores para diferenciar los. El análisis es descriptivo y con la aplicación de métodos cuantitativos. Se realizó investigaciones experimentales para identificar sus influencias.

Originalidad: La investigación analiza los datos erróneos en relación con la codificación, el tipo de pregunta, la escala y estilo de mecanografía, lo que representa un aspecto que aún no ha sido investigado. La aplicación de los resultados hace que sea posible reducir las fallas de la base de datos en el ámbito de la investigación, el marketing o las estadísticas oficiales.

Principales resultados: Los resultados muestran que las preguntas abiertas y las escalas poliatómicas generan más fallas. La identificación de datos erróneos por doble tipificación es restrictiva por el aspecto coste-beneficio, la aplicación de la lógica algorítmica es subjetiva y la sustitución de estos datos puede crear la caracterización de datos manipulados.

Contribuciones: Las pausas más largas reducen los errores de datos o utilizando herramientas con señales de voz en el momento de la entrada de datos. La aplicación de una muestra aleatoria estratificada para la detección de datos erróneos genera resultados satisfactorios también en grandes bases de datos.

Palabras clave: datos erróneos; codificación de datos; confiabilidad entre codificadores; limpieza de datos.

Biografía del autor/a

Karl Henkel, Universidade Federal do Pará

CV Karl Henkel

1980 ‒ 1987 Ciência Política e Ciência de Dados na Eberhard Karls Universität Tübingen, Alemanha.

1988 ‒ 1992 Doutorado na Eberhard Karls Universität Tübingen.

1991 ‒ 1992 Professor Adjunto na Eberhard Karls Universität Tübingen.

1992 ‒ 1995 Consultor da GIZ, Alemanha; cooperação com o Instituto de Desenvolvimento Econômico e Social do Pará, IDESP, Belém.

1996 ‒ 2001 Professor Visitante na Universidade Federal do Pará, Belém.

2002 ‒ 2003 Consultor Programa PNUD, Brasil.

2004 ‒ 2005 Colaborador do Ministério do Desenvolvimento Agrário, MDA, Brasília.

2005 ‒ 2007 Professor Visitante na Universidade Federal Rural da Amazônia, Belém.

2008 ‒ atual Professor Adjunto da Universidade Federal do Pará, Belém.

2008 ‒ atual Avaliador de Cursos do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), Brasília.

Jimnah de Almeida, Instituto de Desenvolvimento Econômico e Social do Pará/Sistema Nacional de Emprego

Estudo de Economia na Universidade Federal do Pará

Especialização em Análise de Projetos pelo Centro de Treinamento CETREPS, Fortaleza e Universidade de Tübingen, Alemnaha

Instituto de Desenvolvimento Econômico e Social do Pará, Belém

Coordenadora do Departamento de Estatístico e Levantamentos

Sistema Nacional de Emprego – SINE, Belém; Estatística Regional

Citas

Azeroual, O., Saake, G., & Abuosba, M. (2019). ETL best practices for data quality checks in RIS Databases. Informatics, 6(10), 1-13. https://doi:10.3390/informatics6010010

Bishop, B. W., & Hank, C. (2018). Measuring FAIR principles to inform fitness for use. International Journal of Digital Curation, 13(1), 35-46. https://doi10.2218/ijdc.v13i1.630

Bohannon, P., Fan, W., Flaster, M., & Rastogi, R. (2005, junho). A cost-based model and effective heuristic for repairing constraints by value modification. Proceedings of the ACM International Conference on Management of Data (SIGMOD), p. 143-154, Baltimore, MD, USA.

Braga, F., Lima, E. E. C., Leiva, G. de C., & Nascimento, A. G. de O. (2008, setembro). Fontes de dados populacionais no mundo: uma análise do relatório das Nações Unidas. Proceedings of the Congreso de la Asociación Latinoamericana de Población (ALAP), p. 1-8, Córdoba, Argentina, 3.

Broeck, J. v. d., Cunningham, S. A., Eeckels, R., & Herbst, K. (2005). Data cleaning: detecting, diagnosing, and editing data abnormalities. Plos medicine, 2(10). Disponível em: <http://dx.doi.org/10.1371/journal.pmed.0020267>. Acesso em 14 dez. 2016.

Boeschoten, L., Oberski, D., & Waal, T. de (2017). Estimating classification errors under edit restrictions in composite survey-register data using multiple imputation latent class modelling (MILC). Journal of Official Statistics, 33(4), 921–962. https://doi.org/10.1515/JOS-2017-0044

Brislinger, E., & Moschner, M. (2019). Datenaufbereitung und Dokumentation. In U. Jensen, S. Netscher, & K. Weller (Eds.). Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten (pp. 97-114). Berlin: Verlag Barbara Budrich. https://doi.org/10.3224/84742233)

Chen, M., Mao, S., & Liu, Y. (2014). Big Data: a survey. Mobile Networks and Applications, 19(2), 171-209. https://doi.org/10.1007/s11036-013-0489-0

Cohen, J. (1960) A coefficient for agreement of nominal scales. Educational and Psychological Measurement, 20(1), 37-46. https://doi.org/10.1177/001316446002000104

Cunha, M., Bastos, V. H., Veiga, H., Cagy, M., Mcdowell, K., Furtado, V., Piedade, R., & Ribeiro, P. (2004). Alterações na distribuição de potência cortical em função da consolidação da memória no aprendizado de datilografia. Arquivos de Neuro-Psiquiatria, 62(3-A), 662-668. https://doi.org/10.1590/S0004-282X2004000400018

Zio, M. d., Fursova, N., Gelsema, T., Gießing, S., Guarnera, U., Petrauskienė, J., Quensel von Kalben, L., Scanu, M., Bosch, K.O.T., Loo, M. v. d., & Walsdorfer, K. (2016). Methodology for data validation 1.0. Essnet Validat Foundation. Disponível em: <https://translateyar.ir/wp-content/uploads/2019/05/Methodology-for-data-validation-1.0.pdf>. Acesso em 13 jul 2020.

Embury, S. M., Brand, S. M., Robinson, J. S., Sutherland, I., Bisby, F. A., Gray, W. A., Jones, A. C., & White, R. J. (2001). Adapting integrity enforcement techniques for data reconciliation. Information Systems, 26(8), 657-689. https://doi.org/10.1016/S0306-4379(01)00044-8

Faulbaum, F. (2014). Total survey error. In N. Baur, & J. Blasius, (Eds.). Handbuch Methoden der empirischen Sozialforschung (pp. 439-456). Berlin: Springer.

Fowler, F. J. Jr. (2008). Survey research methods. Thousand Oaks: SAGE.

González-Prieto, A., Perez, j., Diaz, J., & López-Fernández, D. (2020). Inter-coder agreement for improving reliability in software engineering qualitative research. Disponível em: https://arxiv.org/pdf/2008.00977.pdf. Acesso em 05 abril 2020.

Graber, D. A. (2004). Methodological developments in political communication research. In L. L. Kaid (Ed.). Handbook of political communication research (pp.45-68). Mahwah: Lawrence Erlbaum Associates.

Granquist, L. (2011). Improving the traditional editing process. In B. G. Cox, D. A. Binder, B. N. Chinnappa, A. Christianson, M. M. J. Colledge, & P. S. Kott (Eds.). Business Survey Methods (pp. 385-402). New York: John Wiley & Sons.

Hampel, F., Ronchetti, E., Rousseeuw, P., & Stahel, D. W. (1986). Robust Statistics. New York: John Wiley & Sons.

Hara, S., Nitanda, A., & Maehara, T. (2019). Data cleansing for models trained with SGD. Proceedings of the Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, BC, Canada, 33.

Henkel, K., & Almeida, J. de. (2003). Pesquisa quantitativa e de opinião pública sobre o ensino superior. Belém: UFPA.

Henkel, K. (2016). A validação de surveys políticos. A aplicação de teste paralelo, re-teste e avaliação externa em amostras como métodos da validação. Belém: UFPA.

Henkel, K. (2017). A categorização e a validação das respostas abertas em surveys políticos. Opinião Pública, 23(3), 786-808. https://doi.org/10.1590/1807-01912017233786

Hwang, C., Kim, H., & Jung, H. (2018). Detection and correction method of erroneous data using quantile pattern and LSTM. Journal of Information and Communication Convergence Engineering, 16(4), 242-247. https://doi.org/10.6109/jicce.2018.16.4.242

Krippendorff, K. (2004). Content analysis. Thousand Oaks: Sage.

Lau, S. H. (2018). Stress detection for keystroke dynamics. Dissertação de Mestrado, Universidade Carnegie Mellon, Pittsburgh, PA, USA

Lavalle, A., Maté, A., & Trujillo, J. (2020, março). An approach to automatically detect and visualize bias in data analytic. Proceedings of the International Workshop on Design, Optimization, Languages and Analytical Processing of Big Data (DOLAP) e 23rd International Conference on Extending Database Technology, p. 84-88, Copenhagen, Dinamarca, 22.

Lindsey, D. R. B., & Logan, G. D. (2019). Item-to-item associations in typing: evidence from spin list sequence learning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 45(3), 397-416. https://dx.doi.org/10.1037/xlm0000605

Liao, J., You, J., & Zhang, Q. (2019, abril). Research on library big data cleaning system based on big data decision analysis needs. Proceedings of the International Conference on Mechatronics Engineering and Information Technology (ICMEIT 2019), p. 377-382, Dalian, China, 3. https://doi.org/10.2991/icmeit-19.2019.62

Liua, S., Andrienko, G., Wu, Y., Cao, N., Jianga, L., Shi, C., Wang, Y. S., & Hong S. (2018). Steering data quality with visual analytics: the complexity challenge. Visual Informatics, 2(4), 191-197. https://doi.org/10.1016/j.visinf.2018.12.001

Maletic, J. I., & Marcus, A. (2000, outubro). Data cleansing. Beyond integrity analysis. Proceedings of the Conference on Information Quality IQ 2000, p. 200-209, Cambridge, MA, USA, 5.

Manrique-Vallier, D., & Reiter, J. P. (2017). Bayesian simultaneous edit and imputation for multivariate categorical data. Journal of the American Statistical Association, 112(520), 1708–1719. https://doi.org/10.1080/01621459.2016.1231612

Marsh, R. (2005). Drowning in dirty data? It’s time to sink or swim: a four-stage methodology for total data quality management. Database Marketing & Customer Strategy Management, 12(2), 105-112. https://doi.org/10.1057/palgrave.dbm.3240247

Medeiros, M. (2005). Questionários: recomendações para formatação. Brasília: IPEA.

Möhring, W. & Schlütz, D. (2019). Die Befragung in der Medien- und Kommunikationswissenschaft. In W. Möhring, & D. Schlütz (Eds.). Das Interview als soziale Situation (pp. 41-67). Wiesbaden: Springer. https://doi.org/10.1007/978-3-658-25865-8_2

Müller, H., Weis, M., Bleiholder, J., & Leser, U. (2005). Erkennen und Bereinigen von Datenfehlern in naturwissenschaftlichen Daten. Datenbank-Spektrum, 15, 26-35.

Rabin, E., & Gordon, A. M. (2004). Tactile feedback contributes to consistency of finger movement during typing. Experimental Brain Research, 155(3), 362-369. https://doi-org.ez3.periodicos.capes.gov.br/10.1007/s00221-003-1736-6

Rahm, E., & Do, H. H. (2000). Data cleaning: problems and current approaches. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 23(4), 3-13.

Rohwer, G. (2014). Deskriptive e funktionale Modelle in der statistischen Sozialforschung. In N. Braun, & N. J. Saam (Orgs.). Handbuch Modellbildung und Simulation in den Sozialwissenschaften (pp. 309-331). Berlin: Springer.

Saam, N. J. (2015). Einführung: Modellbildung und Simulation. In N. Braun, & N. Saam (Orgs.). Handbuch Modellbildung und Simulation in den Sozialwissenschaften (pp. 3-14). Berlin: Springer.

Saha, B., & Srivastava, D. (2014, abril). Data quality: the other face of big data. Proceedings of the IEEE International Conference on Data Engineering, p. 1294-1297, Chicago, IL, USA, 30.

Scheiner, J., Sicks, K., & Holz-Rau, C. (2014). Generationsübergreifende Mobilitätsbiografien – Dokumentation der Datengrundlage. Dortmund: Universität Dortmund.

Schomburg, H. (2001). Handbuch zur Durchführung von Absolventenstudien. Kassel: Universität Gesamthochschule Kassel.

Schwarz, H. (2018). Data consistency. In S. Netscher, & C. Eder (Eds.). Data processing and documentation: generating high quality research data in quantitative Social Science Research (pp. 25-33). Köln: GESIS.

Seligman, L., Rosenthal, A., Lehner, P., & Smith, A. (2002). Data integration: where does the time go. The Bulletin of the Technical Committee on Data Engineering, 25(3), 3-10.

Silva, E. D. da. (2013). Estudo da precipitação no Estado de Minas Gerais-MG. Dissertação de Mestrado, Universidade Federal de Itajuba, Minas Gerais, MG, Brasil.

Tröger P. (2018). Bedrohungen der Verlässlichkeit. In P. Tröger (Ed.). Unsicherheit und Uneindeutigkeit in Verlässlichkeitsmodellen. Wiesbaden: Springer Vieweg (pp. 83-123). https://doi.org/10.1007/978-3-658-23341-9_5

Waal, A. G. de. (2003). Processing of erroneous and unsafe data. Rotterdam: Universidade de Erasmus.

Winkler, W. E., & Chen, B. C. (2001, agosto). Extending the Fellegi-Holt model of statistical data editing. Proceedings of the Annual Meeting of the American Statistical Association, Survey Research Methods Section, Indianapolis, IN, USA.

Yip, C. (2007). Review Section: The production of knowledge: the challenge of social science research William H. Starbuck. New York: Oxford University Press, 2006. Management Learning, 38(3), 367-371. https://doi.org/10.1177/13505076070380030804

Editoração de dados errôneos em surveys

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

Karl Henkel, Universidade Federal do Pará

Jimnah de Almeida, Instituto de Desenvolvimento Econômico e Social do Pará/Sistema Nacional de Emprego

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Enviar un artículo

indexing

Palabras clave

visitors