Tabulación de datos
La tabulación de datos es, en estadística, el conjunto de operaciones que permiten presentarlos agrupados y, a su vez, en forma de gráficos o tablas.
Por tanto, es un proceso mediante el que agrupamos los datos y los mostramos mediante gráficos o tablas para entenderlos mejor.
La tabulación es un paso esencial en el análisis descriptivo previo a otros como la inferencia. De esta forma, una vez los obtenemos, debemos prepararlos para su posterior uso, y eso lo hacemos agrupándolos mediante la tabulación.
Origen de la tabulación de datos
A principios del siglo XIX, la estadística ya estaba centrada en la recolección y clasificación de datos. William Playfair (1759-1823) fue el creador de los gráficos lineales, de barras o de sectores que conocemos hoy. Así, su utilidad es más que relevante para el análisis.
Respecto a la tabulación, este proceso se dio posteriormente como forma de síntesis de esos datos recolectados y clasificados. Su automatización se debe a Herman Hollerith (1860-1929), que creó una máquina con tarjetas perforadas.
Con el tiempo, este método ha mejorado de forma considerable, sobre todo con la aparición de la informática. Por otro lado, la creación de aplicaciones como las hojas de cálculo o la utilización de softwares específicos han permitido manejar grandes cantidades de datos.
Proceso de la tabulación de datos
El proceso de tabulación de datos dependerá del tipo de variable que utilicemos. Es decir, si es cualitativa, cuantitativa, discreta o continua. En el ejemplo veremos una aplicación práctica.
Variable cualitativa
Las variables cualitativas expresan categorías, por ejemplo, titulación cursada. La tabulación de datos de este tipo es, quizá, la más sencilla.
La tabla tendría, por un lado, el dato numérico. Por otro lado, se incluirían las frecuencias absolutas (recuento de cada valor) y las frecuencias relativas (cada absoluta dividida entre el total). Se añaden dos columnas más con las frecuencias absolutas y relativas acumuladas.
Variable cuantitativa discreta
Estamos ante variables que se pueden sumar, por tanto, se pueden calcular promedios, desviaciones típicas y otros estadísticos descriptivos de posición, dispersión o forma. Lo que proponemos es utilizar las mismas columnas que en el caso anterior.
Variable cuantitativa continua
Son variables que pueden tomar infinitos valores. En este caso, la tabulación se realiza agrupando por intervalos. Estos deben ser los suficientes para no perder demasiada información, pero no demasiados. Se pueden utilizar fórmulas para calcular el número adecuado de ellos.
Ejemplo de tabulación de datos con hoja de cálculo
Veamos, para terminar, un ejemplo realizado con una hoja de cálculo. Hemos utilizado las variables número de hijos, edad y estatura.
Como cualitativa (ordinal) tenemos el número de hijos, en este caso. Aunque se podrían sumar, no tiene sentido, ya que son tamaños de hogar diferentes. Podríamos usar también variables nominales, que no siguen un orden, como el sexo.
En el caso de las cuantitativas, la discreta sería la edad en años y la continua es la estatura en metros y centímetros. La siguiente imagen muestra los datos y nuestra propuesta de agrupación. Calculamos las frecuencias absolutas (fi) y relativas (hi), así como las acumuladas (Fi y Hi).
Podemos decir que solo dos casos tenían cuatro hijos, lo que supone un 10% del total. Que los hogares con menos de tres hijos son el 70% (con uno y dos hijos). Por ejemplo, que las personas con menos de 40 años fueron el 65%, o que los que medían 1,75 fueron cuatro (20% del total).
Como vemos, la tabulación de datos es importante para analizar la información estadística. Además, como paso posterior, se pueden utilizar diagramas de barras, líneas o sectores para una representación visual, y más clara, de estos.