Detectar outliers mediante la distribución normal

3 min

Detectar outliers mediante la distribución normal es un proceso que implica definir un umbral de desviación típica y con el que se pretende encontrar valores extremos de una muestra.

En otras palabras, detectar outliers mediante la distribución normal es encontrar valores considerados extremos de un conjunto de datos a través de la fórmula de la normal tipificada.

  • Los valores extremos se denominan outliers en inglés.
  • Los valores internos se denominan insiders en inglés.

Detectar los outliers de forma visual puede ser una opción cuando se tienen muy pocos datos. Cuando se trabaja con bases de datos es muy poco practico tener que encontrar los outliers de forma manual. Para solucionar este problema, podemos calcular cuáles son los valores que están considerados extremos mediante la comparación con un umbral de desviaciones.

Para el caso de la distribución normal se considera que un valor es extremo cuando está 3 desviaciones típicas alejado de la media. Dado que la distribución normal tiene 2 colas, tenemos que tener en cuenta de que puede alejarse tanto por el lado negativo como el lado positivo.

Fórmula para detectar outliers mediante la distribución normal

Un conjunto de observaciones puede expresarse de la forma anterior, siendo x el valor medio sobre el cual oscilan los valores y sigma la dispersión de la oscilación de dichos valores. En otras palabras, sigma es la distancia de las observaciones respecto al valor medio.

El factor multiplicativo determina si se trata de un outlier o de un insider. Si z toma los valores de 3 o -3, entonces, según la distribución normal, la observación y será un outlier.

Para conocer el valor de z utilizamos la ecuación anterior:

  • Si z >= 3 o z =< -3, entonces, según la distribución normal, podemos decir que y es un valor extremo o outlier.
  • Si z < 3 o z < -3, entonces, según la distribución normal, podemos decir que y es un valor interno o insider.

Normal estándar

¿La ecuación anterior os resulta familiar?

Exacto, es la expresión de una observación que sigue una distribución normal una vez estandarizada o tipificada. Se denomina de esta forma porque al dividirse por la desviación estándar o típica se está expresando la diferencia del numerador en términos de desviaciones.

Por este motivo, podemos asociar valores de desviaciones a z y así poder comprarlo con el umbral de 3 desviaciones.

Ejemplo

Encuentra los valores extremos de las siguientes observaciones según la distribución normal:

Representamos las observaciones en un gráfico:

De entrada ya podemos ver que el valor que está más alejado del resto puede ser muy probablemente un outlier.

Primero calculamos la media y la desviación típica:

x = media = 5,8

sigma = desviación típica = 10,51

Luego sustituimos los valores en la fórmula y calculamos el valor de z para cada observación: 

Los valores anteriores son los factores multiplicativos de sigma, es decir, z. Cualquiera que sea mayor que 3 o menor que -3 será un valor extremo.

Podemos ver que el valor de z que supera 3 desviaciones típicas es el que corresponde a la observación 49.

Por tanto, el valor extremo u outlier del conjunto de datos sería 49.