- Recursos > ¿Cómo construir una base de datos?

¿Cómo construir una base de datos?

En VIRK trabajamos de cerca con organizaciones y equipos de investigación que necesitan recolectar información o que tienen ya un conjunto amplio de datos pero que no tienen claridad sobre cómo organizarlo para poder iniciar el análisis. Aquí hemos recolectado algunos de los principales consejos que les damos para que su trabajo sea consistente y logren el objetivo deseado.

1. Definir la estructura de la información

Lo primero que es necesario hacer es un ejercicio de reflexión entorno al objetivo de su investigación. Es fundamental no perderse en la información y para ello hay que tener presente:

  • ¿Qué preguntas debe ser capaz de responder la información?
  • ¿Cuál es el objetivo de documentar todos los casos?
  • ¿Cuál es el objetivo de documentar cada uno?
  • Si pudieran generar estadísticas generales, ¿cuáles creen que serían útiles?
  • ¿Qué tipo de patrones les interesa encontrar?

Es importante distinguir entre la información constitutiva o estructural de tu conjunto de datos y la información particular o específica. La información constitutiva es la que deberán considerar traducir en campos de su base de datos.

2. Estandarizar la información

Para tener una base de datos funcional es necesario estandarizar los datos, es decir, que todos los registros se capturen siguiendo las mismas reglas.

  • Las reglas se establecen para determinar cómo se debe capturar cada dato. Por ejemplo, si se desea capturar la edad de las personas se debe definir si será con un numero (12) o con un grupo (10-15).
  • Una base de datos distingue espacios, ortografía, mayúsculas, minúsculas y puntos como caracteres distintos. Esto significa que Mujer y mujer son considerados como entradas diferentes. Es fundamental cuidar que siempre se escriban exactamente igual los datos que se quieren después leer como iguales.

Este es un ejemplo de algunos de los errores más comunes que ocurren cuando la información no se captura de forma consistente y que causan muchos problemas cuando se quiere analizar.

GéneroEdadFecha
Mujer32Jueves 31 de enero de 2019
m32 años31/01/2019
f30 – 3531 enero 2019
femenino198631 ene 2019

3. No usar estilos

Las bases de datos no son tablas de resultados. Tienen que ser limpias y simples. Algunos aspectos a tomar en cuenta son los siguientes:

  • No debemos usar diseño: los colores, las fuentes y en general los estilos de texto no son legibles como datos. Toda indicación que se desee ingresar debe convertirse en un valor en una celda.
  • En las bases de datos cada fila, columna y celda son únicas. No debemos usar celdas compartidas. Es necesario que en cada celda de encuentre el valor correspondiente (aunque se repita cientos o miles de veces a lo largo de las filas).
  • En las bases de datos no debe haber información aleatoria desperdigada entre los registros. No debe haber título en el inicio, ni la fuente al final, ni notas aclaratorias, ni imágenes. No debe haber filas vacías.
  • Cada base de datos debe tener su propia hoja de cálculo.
  • No debemos usar los márgenes como un distintivo, ni usar columnas vacías como márgenes.

Este es un ejemplo del error de utilizar celdas compartidas:

generoentidadaño
femeninoCDMX
Veracruz
CDMX
1992
masculinoCDMX
Veracruz
CDMX
1993
1994

Este es un ejemplo de cómo se vería sin celdas compartidas:

generoentidadaño
femeninoCDMX1992
femeninoVeracruz1992
femeninoVeracruz1992
masculinoCDMX1993
masculinoVeracruz1994
masculinoCDMX1994

4. Crear un glosario

En las organizaciones colaboran diferentes personas y equipos en un mismo proyecto. Para que la base de datos sea sostenible en el tiempo es fundamental que cualquier persona que se incorpore pueda interpretar y complementar la información siguiendo las mismas reglas de captura. Por ello les recomendamos construir un glosario con los conceptos clave y cómo se deben interpretar.

  • Cada columna de la base de datos debe definirse. Por ejemplo la columna «ent_nac» se refiere a «Entidad de nacimiento».
  • Definir los conceptos que se usan, Por ejemplo, si se va a utilizar una cierta categoría que agrupa «tipos de delitos» es necesario indicar qué categoría incluye a los otros. Por ejemplo «Delitos contra la vida y la integridad corporal» incluye homicido culposo, homicidio doloso, lesiones y feminicidio; mientras que «Delitos contra la libertad personal» incluye secuestro, tráfico de menores y rapto.
  • Definir las posibles entradas en una misma columna. Por ejemplo, «situación jurídica» puede ser solo «sentenciada» o «procesada»; no «Sentenciada» o «procesado», ni ningún otro término.
  • Establecer los parámetros cuando hay términos cualitativos. Por ejemplo, si van a calificar el tamaño de una reunión en el catálogo deberán establecer qué significan los términos «pequeña» (1 a 100 personas), «regular» (100 a 200 personas) y «grande» (más de 200 personas). Si van a calificar un servicio también deberán traducir qué significan los adjetivos: «muy malo» (0 – 25 puntos), «malo» (26-50 puntos), «bueno» (51-75 puntos) o «muy bueno» (76-100 puntos).

5. Consistencia

Siguiendo la idea de que diferentes personas van a colaborar en una misma de datos es necesario enfatizar que todas deben conocer cómo hacer el llenado y tener cuidado de siempre seguir las mismas reglas para cuidar la integridad de la base de datos. Para ello recomendamos:

  • Dar un breve tutorial a cualquier persona que empiece a editar la base de datos.
  • Contar con un manual – o idealmente el glosario.
  • Para encontrar errores en la consistencia de los términos algunos trucos fáciles son usar la función de «Filtro» en las columnas. Esto les permitirá ordenar en orden descendente (el error de capturar el año 2011 como 201, será evidente), o filtrar por campos únicos (para identificar el error de usar «Michoacán» y «Michoacán de Ocampo» indistintamente).
  • Para identificar campos vacíos un truco es establecer como formato la regla vacío = rojo.
  • Para reemplazar términos erróneos como «Femenino» en vez de «femenino» puedes usar la función “Buscar y sustituir”.

6. Reconocer cuando necesitas otra solución

Es fundamental identificar que se han rebasado las capacidades de tu hoja de cálculo. Algunos indicadores de que estás en problemas y requieres ayuda para idear otra solución son:

  • Cuando se requiere estar cambiando el formato o la estructura de los datos para hacer gráficas.
  • Cuando hay demasiadas personas que editan y usan los dato y se pierde el control de qué se modificó o cuál es la versión más reciente.
  • Cuando hay varias hojas de cálculo con diferentes versiones.

En VIRK nos especializamos en trabajar con datos. Podemos ayudarte en cualquier etapa del proceso, ya sea desde la concepción de tu problema de investigación, la metodología de recolección de datos, el procesamiento y análisis de la información hasta cómo comunicar los hallazgos, a través de visualizaciones de datos interactivas que tengan una clara narrativa y cualquiera pueda entender.