Ir al contenido principal

Depuración de las bases de datos



En esta ocasión veremos sucintamente el proceso que implica la depuración de las bases de datos.

Existen varias acciones que debemos realizar una vez que se tienen los datos en papel, las tres principales son*: i) captura, ii) limpieza, y iii) preparación de los datos. Adicionalmente, todo este proceso requiere que cada uno de los pasos sea auditado; es decir, que se realice una vigilancia y supervisión estrecha de los procesos y de las actividades aquí mencionadas para garantizar la confiabilidad y veracidad de los datos.



Una vez que hemos colectado los datos en papel, es necesario pasarlos a un formato digital que pueda ser leído y analizado por el paquete estadístico elegido. En este apartado la auditoría implica verificar que los datos hayan sido introducidos de la forma en la que se estableció; por ejemplo, aquí la talla se había puesto en metros y se corrige para dejarla en centímetros.

Recomiendo ampliamente que la captura de datos se haga con Excel, dado que es un programa fácil de utilizar, e incluso se puede utilizar el complemento de “formulario” que viene en el propio programa. Esto facilita la introducción de los datos.

Cuando se han capturados los datos en Excel, ya sea por el propio investigador o por otras personas, la parte de auditoría implica tomar muestras aleatorias de algunos de los registros y cotejarlos directamente en la hoja respectiva donde se colectaron los datos. Esto permite detectar discrepancias entre los sujetos que obtuvieron los datos y quienes los capturaron. Si en ese muestro aleatorio se detectan incongruencias en más de 5%, implica que la confiabilidad del capturista no es la óptima y se deberán tomar acciones encaminadas a garantizar la calidad en la captura de los datos.

El primer paso en la limpieza de los datos lo hacemos de manera inicial con Excel y corresponde a una forma burda de verificar nuestros datos. Esto nos sirve para que, al detectar algún error se pueda recurrir a la búsqueda del dato correcto. Por ejemplo, verificar que los identificadores no estén duplicados; para ello bastaría ordenarlos, en orden ascendente o descendente, y visualmente detectarlos con la finalidad de corregirlos acudiendo a la hoja de colección de los datos. Otro aspecto que podemos buscar en la base de datos en Excel, es determinar las celdas que han quedado vacías. Desde luego, este proceso lo haremos de una manera más refinada con las reglas de validación con las que cuenta SPSS, pero siempre es una buena práctica iniciarlo desde Excel.

La preparación de los datos para su análisis es uno de los pasos más importantes en cualquier proyecto y, tradicionalmente, uno de los que más tiempo requieren. Este paso implica realizar transformaciones de algunas variables con la intención de adaptarse a modelos estadístico específicos, o generar resúmenes de la información que hagan más sencilla su interpretación.

Tanto la validación como la preparación de los datos los veremos en apartados posteriores.

En el siguiente vídeo podrás encontrar la información vertida anteriormente.





Comentarios

  1. Muchas gracias, sin duda siempre es bueno ayudarnos de tutoriales de excel, para hacer todo este tipo de cosas.
    saludos

    ResponderBorrar

Publicar un comentario

Entradas más populares de este blog

Operacionalización de variables y hoja para la captura de datos

Desde el momento mismo en que planeamos realizar un estudio, es indispensable que consideremos cómo será la hoja en la que vamos a capturar nuestros datos. Esto implica que debemos conocer con claridad cuáles son la variables que se van a medir en el estudio y la manera en que se llevarán a cabo las mediciones. La operacionalización de las variables corresponde a la descripción haremos de las variables desde tres aspectos fundamentales: Clasificación de las variables según su escala de medición Clasificación de las variables según su contenido , y Clasificación de las variables según sus relaciones Adicionalmente, en la operacionalización de las variables se deben establecer: a) cuál es el objetivo al medir la variable , b) cómo se va a medir , y c) la codificación que lleva implícita cada variable. Para ayudar a entender estos aspectos, utilizaré un ejemplo que plantea Martínez González (Bioestadística amigable 3a edición, 2014): Supongamos que se desea evaluar la efect...
Eventos y espacio muestral Basado en el Libro de William Mendenhall Obtenemos datos al observar eventos no controlados en la naturaleza o en situaciones controladas en el laboratorio. El término experimento se utiliza para describir cualquiera de los dos métodos de recolección de datos. Definición: Un experimento es el proceso mediante el cual se obtiene una observación (o medición). La observación o medición generada por un experimento puede o no producir un valor numérico. A continuación veamos algunos ejemplos de experimentos: • Registrar la calificación de un examen • Medir la cantidad de lluvia diaria • Entrevistar a un médico para obtener su opinión sobre una guía de práctica clínica Ejemplo Experimento : Lanza un dado y observa el número que aparece en la cara superior. Haz una lista de los eventos sencillos del experimento. Solución : Cuando el dado se lanza una vez, hay seis posibles resultados. Los eventos sencillos se presentan a continuación: Evento...
Cálculo de probabilidades de eventos sencillos Basado en el libro de William Mendenhall La probabilidad de un evento A es una medida de nuestra creencia de que el evento A ocurrirá. Una manera práctica de interpretar esta medida es con el concepto de frecuencia relativa. Recuerda que si un experimento se realiza n veces, entonces la frecuencia relativa de un suceso particular, por ejemplo A , es donde la frecuencia es el número de veces que ocurrió el evento A . Si hacemos que el número n de repeticiones del experimento se haga cada vez más grande en última instancia se genera toda la población. En ésta, la frecuencia relativa del evento A se define como la probabilidad del evento A ; esto es, Como Pr(A) se comporta como una frecuencia relativa, Pr(A) debe ser una proporción que se encuentre entre 0 y 1; Pr(A) = 0 si el evento A nunca ocurre, y Pr(A) = 1 si el evento A siempre ocurre. Cuanto más cercano sea Pr(A) a 1, es más probable es que A ocurra. Por ejemplo...