Depuración de las bases de datos

En esta ocasión veremos sucintamente el proceso que implica la depuración de las bases de datos.

Existen varias acciones que debemos realizar una vez que se tienen los datos en papel, las tres principales son*: i) captura, ii) limpieza, y iii) preparación de los datos. Adicionalmente, todo este proceso requiere que cada uno de los pasos sea auditado; es decir, que se realice una vigilancia y supervisión estrecha de los procesos y de las actividades aquí mencionadas para garantizar la confiabilidad y veracidad de los datos.

Una vez que hemos colectado los datos en papel, es necesario pasarlos a un formato digital que pueda ser leído y analizado por el paquete estadístico elegido. En este apartado la auditoría implica verificar que los datos hayan sido introducidos de la forma en la que se estableció; por ejemplo, aquí la talla se había puesto en metros y se corrige para dejarla en centímetros.

Recomiendo ampliamente que la captura de datos se haga con Excel, dado que es un programa fácil de utilizar, e incluso se puede utilizar el complemento de “formulario” que viene en el propio programa. Esto facilita la introducción de los datos.

Cuando se han capturados los datos en Excel, ya sea por el propio investigador o por otras personas, la parte de auditoría implica tomar muestras aleatorias de algunos de los registros y cotejarlos directamente en la hoja respectiva donde se colectaron los datos. Esto permite detectar discrepancias entre los sujetos que obtuvieron los datos y quienes los capturaron. Si en ese muestro aleatorio se detectan incongruencias en más de 5%, implica que la confiabilidad del capturista no es la óptima y se deberán tomar acciones encaminadas a garantizar la calidad en la captura de los datos.

El primer paso en la limpieza de los datos lo hacemos de manera inicial con Excel y corresponde a una forma burda de verificar nuestros datos. Esto nos sirve para que, al detectar algún error se pueda recurrir a la búsqueda del dato correcto. Por ejemplo, verificar que los identificadores no estén duplicados; para ello bastaría ordenarlos, en orden ascendente o descendente, y visualmente detectarlos con la finalidad de corregirlos acudiendo a la hoja de colección de los datos. Otro aspecto que podemos buscar en la base de datos en Excel, es determinar las celdas que han quedado vacías. Desde luego, este proceso lo haremos de una manera más refinada con las reglas de validación con las que cuenta SPSS, pero siempre es una buena práctica iniciarlo desde Excel.

La preparación de los datos para su análisis es uno de los pasos más importantes en cualquier proyecto y, tradicionalmente, uno de los que más tiempo requieren. Este paso implica realizar transformaciones de algunas variables con la intención de adaptarse a modelos estadístico específicos, o generar resúmenes de la información que hagan más sencilla su interpretación.

Tanto la validación como la preparación de los datos los veremos en apartados posteriores.

En el siguiente vídeo podrás encontrar la información vertida anteriormente.