Distribución hipergeométrica: fórmulas, ecuaciones, modelo
La distribución hipergeométrica es una función estadística discreta, adecuada para calcular la probabilidad en experimentos aleatorios con dos resultados posibles. La condición que se requiere para aplicarla es que se trate de poblaciones pequeñas, en las cuales las extracciones no se reemplazan y las probabilidades no son constantes.
Por lo tanto, cuando se elige un elemento de la población para saber el resultado (verdadero o falso) de cierta característica, ese mismo elemento no puede elegirse de nuevo.
Ciertamente, el próximo elemento elegido tiene así mayor probabilidad de obtener un resultado verdadero, si el elemento anterior tuvo resultado negativo. Esto significa que la probabilidad va variando, en la medida que se extraen elementos de la muestra.
Las aplicaciones principales de la distribución hipergeométrica son: control de calidad en procesos con poca población y el cálculo de probabilidades en los juegos de azar.
En cuanto a la función matemática que define la distribución hipergeométrica, esta consta de tres parámetros, que son:
– Número de elementos de población (N)
– Tamaño de la muestra (m)
– Cantidad de eventos en la población completa con un resultado favorable (o desfavorable) de la característica estudiada (n).
Índice del artículo
Fórmulas y ecuaciones
La fórmula de la distribución hipergeométrica da la probabilidad P de que x casos favorables de cierta característica ocurran. La manera de escribirla matemáticamente, en función de los números combinatorios es:
En la expresión anterior N, n y m son parámetros y x la variable propiamente dicha.
–Población total es N.
-Número de resultados positivos de cierta característica binaria respecto de la población total es n.
-Cantidad de elementos de la muestra es m.
En este caso, X es una variable aleatoria que toma el valor x y P(x) indica la probabilidad de ocurrencia de x casos favorables de la característica estudiada.
Variables estadísticas importantes
Otras variables estadísticas para la distribución hipergeométrica son:
– Media μ = m*n/N
– Varianza σ^2 = m*(n/N)*(1-n/N)*(N-m)/(N-1)
– Desviación típica σ que es la raíz cuadrada de la varianza.
Modelo y propiedades
Para llegar al modelo de la distribución hipergeométrica, se parte de la probabilidad de obtener x casos favorables en una muestra de tamaño m. Dicha muestra contiene elementos que cumplen con la propiedad en estudio y elementos que no.
Recordemos que n representa el número de casos favorables en la población total de N elementos. Entonces la probabilidad se calcularía así:
P(x)=(# de maneras de obtener x # de maneras fallidas)/(# total de formas de seleccionar)
Expresando lo anterior en forma de números combinatorios, se llega al siguiente modelo de distribución de probabilidades:
Propiedades principales de la distribución hipergeométrica
Son las siguientes:
– La muestra siempre debe ser pequeña, aunque la población sea grande.
– Los elementos de la muestra se van extrayendo de a uno, sin incorporarlos nuevamente a la población.
– La propiedad a estudiar es binaria, es decir sólo puede tomar dos valores: 1 o 0, o bien cierto o falso.
En cada paso de extracción de elementos, la probabilidad cambia dependiendo de los resultados previos.
Aproximación mediante la distribución binomial
Otra propiedad de la distribución hipergeométrica es que puede aproximarse por la distribución binomial, denotada como Bi, siempre y cuando la población N sea grande y al menos 10 veces mayor que la muestra m. En este caso quedaría así:
P(N,n,m;x) = Bi(m, n/N,x)
Aplicable siempre y cuando N sea grande y N > 10m
Ejemplos
Ejemplo 1
Supongamos una máquina que produce tornillos y los datos acumulados indican que el 1% salen con defectos. Entonces en una caja de N=500 tornillos el número de defectuosos será:
n = 500 * 1/100 = 5
Probabilidades mediante la distribución hipergeométrica
Supongamos que de esa caja (es decir de esa población) tomamos una muestra de m=60 tornillos.
La probabilidad que ningún tornillo (x=0) de la muestra salga defectuoso es 52,63%. A este resultado se llega al usar la función de distribución hipergeométrica:
P(500, 5, 60; 0)= 0,5263
La probabilidad que x=3 tornillos de la muestra salgan defectuosos es: P(500, 5, 60; 3)=0,0129.
Por su parte, la probabilidad de que x=4 tornillos de los sesenta de la muestra salgan defectuosos es: P(500, 5, 60; 4)=0,0008.
Finalmente, la probabilidad que x=5 tornillos en esa muestra salgan con defecto es: P(500, 5, 60; 5)=0.
Pero si se quiere saber la probabilidad de que en esa muestra existan más de 3 tornillos defectuosos, entonces hay que obtener la probabilidad acumulada, sumando:
P(3)+P(4)+P(5)= 0,0129+0,0008+0=0,0137.
Este ejemplo está ilustrado en la figura 2, obtenida mediante el uso de GeoGebra un software libre de amplio uso en escuelas, institutos y universidades.
Ejemplo 2
Un mazo de baraja española tiene 40 cartas, de las cuales 10 tienen oro y las restantes 30 no lo tienen. Supongamos que de ese mazo se extraen al azar 7 cartas, las cuales no se reincorporan al mazo.
Si X es el número de oros presentes en las 7 cartas extraídas, entonces la probabilidad que se tengan x oros en una extracción de 7 cartas está dado por la distribución hipergeométrica P(40,10,7;x).
Veamos esto así: para calcular la probabilidad de tener 4 oros en una extracción de 7 cartas usamos la fórmula de la distribución hipergeométrica con los siguientes valores:
Y el resultado es: 4,57% de probabilidad.
Pero si se quiere saber la probabilidad de obtener más de 4 cartas, entonces habrá que sumar:
P(4)+P(5)+P(6)+P(7)=5,20%
Ejercicios resueltos
El siguiente conjunto de ejercicios tiene la finalidad de ilustrar y asimilar los conceptos que se han presentado en este artículo. Es importante que el lector intente resolverlos por cuenta propia, antes de mirar la solución.
Ejercicio 1
Una fábrica de profilácticos ha encontrado que de cada 1000 preservativos producidos por cierta máquina, 5 salen defectuosos. Para efectuar el control de calidad se toman al azar 100 condones y el lote se rechaza si hay por lo menos uno o más defectuoso. Responder:
a) ¿Qué posibilidad hay que un lote de 100 sea descartado?
b) ¿Es eficiente este criterio de control de calidad?
Solución
En este caso van a aparecer números combinatorios muy grandes. El cálculo se dificulta, a menos que se disponga de un paquete informático adecuado.
Pero debido a que se trata de una población grande y la muestra es diez veces menor que la población total, se puede hacer uso de la aproximación de la distribución hipergeométrica por la distribución binomial:
P(1000,5,100;x) = Bi(100, 5/1000,x) = Bi(100, 0.005,x) = C(100,x)*0.005^x (1-0.005)^(100-x)
En la expresión anterior C(100,x) es un número combinatorio. Entonces la probabilidad de haya más de uno defectuoso se calculará así:
P(x>=1) = 1 – Bi(0) = 1- 0.6058 = 0.3942
Se trata de una excelente aproximación, si se le compara con el valor obtenido al aplicar la distribución hipergeométrica: 0.4102
Se puede decir que, con probabilidad del 40% un lote de 100 profilácticos deberá ser descartado, lo cual resulta poco eficiente.
Pero, siendo un poco menos exigente en el proceso de control de calidad y desecháramos el lote de 100 solamente si hay dos o más defectuosos, entonces la probabilidad de descartar el lote caería a apenas 8%.
Ejercicio 2
Una máquina de tacos plásticos funciona de tal forma que de cada 10 piezas, una sale deformada. En una muestra de 5 piezas que posibilidad hay que una sola pieza salga defectuosa.
Solución
Población: N=10
Número n de defectuosas por cada N: n=1
Tamaño de la muestra: m=5
P(10, 1, 5; 1) = C(1,1)*C(9,4)/C(10,5)= 1*126/252 = 0.5
Por lo tanto hay un 50% de probabilidad de que en una muestra de 5, un taco salga deforme.
Ejercicio 3
En una reunión de jóvenes bachilleres hay 7 damas y 6 caballeros. Entre las chicas, 4 estudian humanidades y 3 ciencias. En el grupo de chicos, 1 estudia humanidades y 5 ciencias. Calcular lo siguiente:
a) Eligiendo al azar tres chicas: ¿qué probabilidad hay que todas estudien humanidades?.
b) Si se escogen al azar tres asistentes a la reunión de amigos: ¿Qué posibilidad hay que tres de ellos, sin importar sexo, estudien ciencias los tres, o humanidades también los tres?.
c) Ahora seleccione dos amigos al azar y llame x a la variable aleatoria “número de los que estudian humanidades”. Entre los dos elegidos, determine la media o valor esperado de x y la varianza σ^2.
Solución a
La población es el número total de chicas: N=7. Las que estudian humanidades son n=4, del total. La muestra al azar de chicas será de m=3.
En ese caso la probabilidad que las tres sean cursantes de humanidades está dada por la función hipergeométrica:
P(N=7, n=4, m=3, x=3) = C(4, 3) C(3, 0) / C(7, 3) = 0.1143
Entonces hay 11.4% de probabilidad que tres chicas elegidas al azar estudien humanidades.
Solución b
Los valores a utilizar ahora son:
-Población: N=14
-Cantidad que estudia letras es: n=6 y la
-Tamaño de la muestra: m=3.
-Número de amigos que estudian humanidades: x
De acuerdo a esto, x=3 significa que los tres estudian humanidades, pero x=0 significa que ninguno estudia humanidades. La probabilidad que los tres estudien lo mismo viene dada por la suma:
P(14, 6, 3, x=0) + P(14, 6, 3, x=3) = 0.0560 + 0.1539 = 0.2099
Luego, tenemos un 21% de probabilidad que tres asistentes a la reunión, elegidos al azar, estudien lo mismo.
Solución c
Aquí tenemos los siguientes valores:
N= 14 población total de amigos, n=6 número total en la población que estudia humanidades, el tamaño de la muestra es m=2.
La esperanza es:
E(x) = m*(n/N) = 2 * (6/14) = 0.8572
Y la varianza:
σ(x)^2 = m*(n/N)*(1-n/N)*(N-m)/(N-1) = 2*(6/14)*(1-6/14)*(14-2)/(14-1)=
= 2*(6/14)*(1-6/14)*(14-2)/(14-1) = 2*(3/7)*(1-3/7)*(12)/(13) = 0.4521
Referencias
- Distribuciones de probabilidad discreta. Recuperado de: biplot.usal.es
- Estadística y probabilidad. Distribución hipergeométrica. Recuperado de: proyectodescartes.org
- CDPYE-UGR. Distribución hipergeométrica. Recuperado de: ugr.es
- Geogebra. Geogebra clásico, cálculo de probabilidad. Recuperado de geogebra.org
- Proba fácil. Ejercicios resueltos de distribución hipergeométrica. Recuperado de: probafacil.com
- Minitab. Distribución hipergeométrica. Recuperado de: support.minitab.com
- Universidad de Vigo. Principales distribuciones discretas. Recuperado de: anapg.webs.uvigo.es
- Vitutor. Estadística y combinatoria. Recuperado de: vitutor.net
- Weisstein, Eric W. Hypergeometric Distribution. Recuperado de: mathworld.wolfram.com
- Wikipedia. Distribución hipergeométrica. Recuperado de: es.wikipedia.com