Datos agrupados: ejemplos y ejercicio resuelto
Los datos agrupados son aquellos que se han clasificado en categorías o clases, tomando como criterio su frecuencia. Esto se hace con la finalidad de simplificar el manejo de grandes cantidades de datos y establecer sus tendencias.
Una vez organizados en estas clases por sus frecuencias, los datos conforman una distribución de frecuencias, de la cual se extrae información de utilidad a través de sus características.
A continuación veremos un ejemplo sencillo de datos agrupados:
Supongamos que se mide la estatura de 100 estudiantes de sexo femenino, seleccionadas de entre todos los cursos de física básica de una universidad, y se obtienen los siguientes resultados:
Los resultados obtenidos se dividieron en 5 clases, que aparecen en la columna izquierda.
La primera clase, comprendida entre 155 y 159 cm, tiene 6 estudiantes, la segunda clase 160 – 164 cm tiene 14 estudiantes, la tercera clase de 165 a 169 cm es la que tiene el mayor número de integrantes: 47. Luego sigue la clase de 170-174 cm con 28 alumnas y por último la de 175 a 179 cm con apenas 5.
El número de integrantes de cada clase es precisamente la frecuencia o frecuencia absoluta y al sumarlas todas, se obtiene el total de datos, que en este ejemplo es 100.
Índice del artículo
- 1 Características de la distribución de frecuencias
- 2 Medidas de tendencia central y de dispersión para datos agrupados
- 3 Ejercicio resuelto
- 4 Referencias
Características de la distribución de frecuencias
Frecuencia
Como hemos visto, la frecuencia es el número de veces que se repite un dato. Y para facilitar los cálculos de las propiedades de la distribución, tales como la media y la varianza, se definen las siguientes cantidades:
–Frecuencia acumulada: se obtiene sumando la frecuencia de una clase con la frecuencia acumulada anterior. La primera de todas las frecuencias coincide con la del intervalo en cuestión, y la última es el número total de datos.
–Frecuencia relativa: se calcula dividiendo la frecuencia absoluta de cada clase entre el número total de datos. Y si se multiplica por 100 se tiene la frecuencia relativa porcentual.
–Frecuencia relativa acumulada: es la suma de las frecuencias relativas de cada clase con el acumulado anterior. La última de las frecuencias relativas acumuladas debe ser igual a 1.
Para nuestro ejemplo, las frecuencias quedan así:
Límites
Los valores extremos de cada clase o intervalo se llaman límites de clase. Como podemos ver, cada clase tiene un límite menor y uno mayor. Por ejemplo, la primera clase del estudio acerca de las estaturas tiene un límite menor de 155 cm y uno mayor de 159 cm.
Este ejemplo tiene límites que están claramente definidos, sin embargo es posible definir límites abiertos: si en vez de definir los valores exactos, se dijese “estatura menor a 160 cm”, “estatura menor a 165 cm” y así sucesivamente.
Fronteras
La estatura es una variable continua, por lo que se puede considerar que la primera clase en realidad comienza en 154.5 cm, ya que al redondear este valor al entero más cercano, se obtiene 155 cm.
Esta clase abarca todos los valores hasta 159.5 cm, porque a partir de este, las estaturas se redondean a 160.0 cm. Una estatura de 159.7 cm ya pertenece a la siguiente clase.
Las fronteras de clase reales de este ejemplo son, en cm:
- 154.5 – 159.5
- 159.5 – 164.5
- 164.5 – 169.5
- 169.5 – 174.5
- 174.5 – 179.5
Amplitud
La amplitud de una clase se obtiene restando las fronteras. Para el primer intervalo de nuestro ejemplo se tiene 159.5 – 154.5 cm = 5 cm.
El lector puede comprobar que para los demás intervalos del ejemplo la amplitud también resulta de 5 cm. Sin embargo, es de hacer notar que se pueden construir distribuciones con intervalos de distinta amplitud.
Marca de clase
Es el punto de medio del intervalo y se obtiene mediante el promedio entre el límite superior y el límite inferior.
Para nuestro ejemplo, la primera marca de clase es (155 + 159)/2 = 157 cm. El lector puede comprobar que las restantes marcas de clase son: 162, 167, 172 y 177 cm.
Determinar las marcas de clase es importante, pues son necesarias para encontrar la media aritmética y la varianza de la distribución.
Medidas de tendencia central y de dispersión para datos agrupados
Las medidas de tendencia central más utilizadas son la media, la mediana y la moda, y describen precisamente la tendencia de los datos a agruparse alrededor de cierto valor central.
Media
Es una de las principales medidas de tendencia central. En los datos agrupados se puede calcular la media aritmética mediante la fórmula:
-X es la media
-fi es la frecuencia de la clase
-mi es la marca de clase
-g es el número de clases
-n es el número total de los datos
Mediana
Para la mediana hay que identificar el intervalo donde se encuentra la observación n/2. En nuestro ejemplo esta observación es la número 50, porque hay un total de 100 datos. Dicha observación está en el intervalo 165-169 cm.
Después hay que interpolar para encontrar el valor numérico que corresponde a esa observación, para lo cual se emplea la fórmula:
Donde:
-c = ancho del intervalo donde se encuentra la mediana
-BM = la frontera inferior del intervalo al que pertenece la mediana
-fm = cantidad de observaciones que contiene el intervalo de la mediana
-n/2 = mitad del total de datos
-fBM = número total de observaciones antes del intervalo de la mediana
Moda
Para la moda se identifica la clase modal, aquella que contiene la mayoría de las observaciones, cuya marca de clase es conocida.
Varianza y desviación estándar
La varianza y la desviación estándar son medidas de dispersión. Si denotamos la varianza con s2 y a la desviación estándar, que es la raíz cuadrada de la varianza como s, para datos agrupados tendremos respectivamente:
Y
Ejercicio resuelto
Para la distribución de estaturas de las estudiantes universitarias propuesta al comienzo, calcular los valores de:
a) Media
b) Mediana
c) Moda
d) Varianza y desviación estándar.
Solución a
Construyamos la siguiente tabla para facilitar los cálculos:
Sustituyendo valores y llevando a cabo la sumatoria directamente:
X = (6 x 157 + 14 x 162 + 47 x 167 + 28 x 172+ 5 x 177) /100 cm =
=167.6 cm
Solución b
El intervalo al que pertenece la mediana es 165-169 cm porque es el intervalo con mayor frecuencia.
Identifiquemos cada uno de estos valores en el ejemplo, con la ayuda de la tabla 2:
c = 5 cm (ver el apartado de amplitud)
BM = 164.5 cm
fm = 47
n/2 = 100/2 = 50
fBM = 20
Sustituyendo en la fórmula:
El intervalo que contiene la mayoría de las observaciones es el 165-169 cm, cuya marca de clase es de 167 cm.
Solución d
Ampliamos la tabla anterior añadiendo dos columnas adicionales:
Aplicamos la fórmula:
Y desarrollamos la sumatoria:
s2 = (6 x 112.36 + 14 x 31.36 + 47 x 0.36 + 28 x 19.36 + 5 x 88.36) / 99 = = 21.35 cm2
Por lo tanto:
s = √21.35 cm2 = 4.6 cm
Referencias
- Berenson, M. 1985. Estadística para administración y economía. Interamericana S.A.
- Canavos, G. 1988. Probabilidad y Estadística: Aplicaciones y métodos. McGraw Hill.
- Devore, J. 2012. Probability and Statistics for Engineering and Science. 8th. Edition. Cengage.
- Levin, R. 1988. Estadística para Administradores. 2da. Edición. Prentice Hall.
- Spiegel, M. 2009. Estadística. Serie Schaum. 4 ta. Edición. McGraw Hill.
- Walpole, R. 2007. Probabilidad y Estadística para Ingeniería y Ciencias. Pearson.