Análisis de la varianza

3 min

Los análisis de la varianza, o ANOVA (analysis of variance), son técnicas de análisis multivariante de dependencia, utilizadas para determinar si existen diferencias significativas entre las medias de tres o más grupos poblacionales.

Por tanto, con este análisis averiguaremos si existen diferencias entre determinados grupos cuando modificamos una o varias características. Para conocerlas, utilizamos el valor del promedio de los datos.

Su uso es muy frecuente en campos como la economía o la medicina.

Supuestos previos del análisis de varianza

Existen una serie de requisitos previos para realizar el ANOVA que conviene conocer. Estos son esenciales para que los resultados sean adecuados.

  • En primer lugar, la población debe seguir una distribución normal. Por tanto, estamos ante un tipo de contraste paramétrico, ya que se conocen los parámetros poblacionales de la media y la desviación típica.
  • Además, las muestras utilizadas deben ser independientes entre sí. Esto quiere decir que una modificación en una de ellas no tiene que afectar al valor de las otras.
  • Por otro lado, las varianzas de las poblaciones objeto de estudio deben ser iguales. Esto se llama homocedasticidad.

Clasificación de los modelos de análisis de la varianza

Para los modelos del análisis de la varianza se pueden utilizar las tres clasificaciones que mostramos a continuación:

  • Modelo de efectos fijos: Las poblaciones son normales y solo se diferencian en el valor de sus respectivas medias.
  • Modelo de efectos aleatorios: En este caso, los datos tienen una jerarquía y las diferencias poblacionales dependen de esta.
  • Modelo de efectos mixtos: Estaríamos ante un modelo que es mezcla de los dos anteriores.

Ejemplo de ANOVA: conceptos importantes

Existen ecuaciones matemáticas de cierta complejidad para realizar el ANOVA. Sin embargo, en Economipedia optamos por la economía sencilla y, por eso, y aprovechando la tecnología, vamos a mostrar cómo se podría hacer en una hoja de cálculo.

Imaginemos que queremos saber si existen diferencias significativas entre los lectores de Economipedia, en función de la afinidad de su titulación con la economía.

Advertencia: Los datos que utilizaremos son ficticios.

Debemos ir a Datos, Análisis de datos y elegiremos el análisis de varianza de un factor.

El rango sería la matriz de los tres grupos. Puede ser más interesante incluir los encabezados después y dar el formato deseado. En nuestro caso, con el logo y el color azul.

Vemos que hay algunos conceptos como los grados de libertad y la probabilidad o significación. El primero se calcula de forma automática y es el número de grupos menos uno. El segundo nos indica si las diferencias son o no significativas.

Normalmente se parte de un nivel de confianza aceptado. En economía suele ser el 95% (0.95), que se relaciona con una significación del 0.05 (1-0.095). De esta forma, si esa probabilidad o p valor está por debajo de la significación aceptada, las diferencias son significativas.

En este caso, parece que la titulación no influye en el número de lectores (significación>0.05). Por tanto, el análisis de la varianza parece indicar que Economipedia interesa a todo el mundo, no solo a lectores especializados. Por supuesto son datos ficticios ¿o no?