¡NA pasa nada!: aprende a validar datos con R

María Nanton y Betsy Cohen
RLadies Buenos Aires

Mientras esperás a que comencemos…

Asegurate de haber seguido las instrucciones de configuración y que tenés los programas y paquetes que necesitás para seguir el taller:

mcnanton.github.io/RladiesBA-TallerValidacionDatos/setup.html.

Reconocimientos

La presentación “Data Validation in R - From Principles to Tools and Packages” de Dra. Catarina Constantinescu sirvió de inspiración para los contenidos de este taller. También agradecemos a las personas que, en el marco del desarrollo paquetes de validación de datos, redactaron guías, libros y tutoriales que publicaron de manera abierta.

Auspician RLadies Buenos Aires:

Codigo de conducta

Todos los espacios de participación de R-Ladies Global y RLadies Buenos Aires, incluyendo reuniones presenciales o virtuales, Twitter, Slack y listas de correo se rigen por el Código de conducta de RLadies.

Licencia

Estos materiales están publicados bajo la licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA), la cual implica:

  • Atribución: Podés compartir y adaptar el material siempre que reconozcas la autoría de forma adecuada.
  • Uso no comercial: No está permitido usar el material con fines comerciales.
  • Compartir igual: Si adaptás o transformas el material, debés distribuirlo bajo la misma licencia.

Betsabé Cohen

Mónica Alonso

Karina Bartolomé

Virginia García Alonso

Jimena Saucedo

Priscilla Minotti

María Nanton

Jesica Formoso

Introducción a la validación de datos

validate

MPJ van der Loo and E de Jonge (2021). Data Validation Infrastructure for R. Journal of Statistical Software, 97(10)

##   name items passes fails nNA error warning        expression
## 1   V1    60     56     4   0 FALSE   FALSE  !is.na(turnover)
## 2   V2    60     24    36   0 FALSE   FALSE !is.na(other.rev)
## 3   V3    60     55     5   0 FALSE   FALSE    !is.na(profit)

assertr

Fischetti T (2025). assertr: Assertive Programming for R Analysis Pipelines. R package version 3.0.1 https://docs.ropensci.org/assertr/ (website) https://github.com/ropensci/assertr

## verification [mpg >= 0] failed! (1 failure)
## 
##     verb redux_fn predicate column index value
## 1 verify       NA  mpg >= 0     NA     5    NA

data.validator

Dubel M, Przytuła P, Nowicki J, Igras K (2024). data.validator: Automatic Data Validation and Reporting. R package version 0.2.1, https://github.com/Appsilon/data.validator, https://appsilon.github.io/data.validator/.

#> Validation summary: 
#>  Number of successful validations: 1
#>  Number of validations with warnings: 1
#>  Number of failed validations: 1
#> |table_name |description                                       |type    | total_violations|
#> |:----------|:-------------------------------------------------|:-------|----------------:|
#> |mtcars     |Column drat has only positive values              |success |               NA|
#> |mtcars     |vs and am values equal 0 or 2 only                |error   |               27|
#> |mtcars     |vs and am values should equal 3 or 4              |warning |               24|

data.validator

pointblank

Iannone R, Vargas M, Choe J (2025). pointblank: Data Validation and Organization of Metadata for Local and Remote Tables. R package version 0.12.2.9000, https://github.com/rstudio/pointblank, https://rstudio.github.io/pointblank/.

pointblank

¿Conocen alguna de ellas?

¿En qué difieren estas bibliotecas?

  • Materiales de apoyo, tutoriales y artículos sobre cada una
  • Funciones específicas que cada uno provee, especialmente funciones de predicado (funciones que devuelven TRUE o FALSE en base al cumplimiento o no de una o más condiciones)
  • Tipo de reportes que generan
  • Formato de reportes generados
  • Gestión de errores y advertencias

¿Por qué creen que tiene sentido usar una biblioteca de este tipo?

¿Por qué creen que tiene sentido usar una biblioteca de este tipo?

¿Por qué creen que tiene sentido usar una biblioteca de este tipo?

Un framework para la evaluación de la calidad de los datos

“A data quality framework for observational health research data collections with software implementations in R”

Schmidt, C.O.; Struckmann, S.; Enzenbach, C.; Reineke, A.; Stausberg, J.; Damerow, S.; Huebner, M.; Schmidt, B.; Sauerbrei, W.; Richter, A. BMC Med. Res. Methodol. 2021, 21, 63. [CrossRef]

  • Integridad: ¿En qué grado los datos cumplen requisitos técnicos y estructurales?
  • Completitud: ¿En qué grado los valores esperados están presentes?
  • Consistencia: ¿En qué grado los valores de los datos están libres de rupturas de convenciones o contradicciones?
  • Exactitud: ¿Cuál es el grado de acuerdo entre distribuciones y asociaciones observadas y esperadas?

Mariño, J.; Kasbohm, E.; Struckmann, S.; Kapsner, L.A.; Schmidt, C.O. R Packages for Data Quality Assessments and Data Monitoring: A Software Scoping Review with Recommendations for Future Developments. Appl. Sci. 2022, 12, 4238. https://doi.org/10.3390/app12094238

A validar!

Para leer más

Antes de que te vayas..

Seguinos

@rladiesba
@RLadiesBA
RLadies Buenos Aires
@RLadiesBuenosAires
https://rladiesba.netlify.app/

¡No te pierdas las novedades!

¡El 2025 se viene con todo!

  • Lanzaremos el club de lectura del libro Mastering Shiny de Hadley Wickham. Sumate para aprender shiny entre todes.
  • ¿Querés presentar un capítulo del club de lectura? Inscribite en este formulario!