Estadística

Muestreo doble: explicación, ejemplos, ejercicio resuelto


¿Qué es el muestreo doble?

El muestreo doble es una técnica que se usa en estadística inferencial cuando se desea conocer mayor detalle y certeza sobre una variable particular, la cual caracteriza a cierta población.

La segunda muestra de población se lleva a cabo generalmente después de haberse tomado y analizado una primera muestra, cuyo análisis no arrojó una conclusión estadísticamente significativa sobre alguna de las variables de estudio.

Por esta razón al muestreo doble en Estadística, también se le conoce como muestreo en dos fases. La utilidad de la segunda muestra radica en que ayuda a determinar con mayor precisión la estimación de razones y regresiones de cierta variable auxiliar, misma que surge a la luz del análisis de una primera muestra.

Otro uso que se le da al muestreo doble es el de recabar información para la realización de un muestreo por estratos.

Ejemplos

A continuación se describirán diversas situaciones en las que se justifica un muestreo doble.

Control de calidad en la elaboración de piezas

El método de muestreo doble se usa frecuentemente en control de calidad industrial y por lo general se realiza en dos fases.

Por ejemplo, supóngase una máquina industrial que elabora ciertas piezas. Por más que se ajuste la máquina, ninguna pieza es idéntica a otra, ya que en sus dimensiones y peso pueden presentarse pequeñas variaciones. Se trata de determinar si un lote de piezas fabricadas por dicha máquina cumple el criterio de tolerancia para que el mismo sea aceptado o rechazado.

En primer lugar, se toma una muestra aleatoria de piezas con la que se desea chequear si una de las variables, por ejemplo, el largo de la pieza, está dentro de la tolerancia.

En caso de que el largo promedio esté por debajo o por encima del grado de tolerancia deseada para dicha variable, en esta primera muestra, entonces se infiere que el lote es defectuoso y el mismo ha de ser desechado. En este caso no se requiere tomar nuevas muestras.

Por el contrario, si el valor promedio está dentro del rango de tolerancia, pero la desviación estándar de la muestra es lo suficientemente grande como para que la suma o la resta al valor promedio quede fuera del margen, entonces será necesario recabar una segunda muestra mayor.

Esta segunda muestra debe incluir a la muestra original para rehacer los cálculos y así poder tomar una decisión definitiva respecto a la variable investigada. De esta manera  puede saberse si el lote es defectuoso o no.

Disminución de costos de muestreo

En muchas ocasiones, la información acerca de una de las variables que se desea estudiar es de difícil acceso. Pero puede existir una variable auxiliar con mayor facilidad para la recolección de datos.

En este caso se toman dos muestras, una grande para la variable auxiliar, menos costosa, y una muestra menor, contenida en la muestra mayor de la variable más costosa.

Este método es aplicable siempre que se determine que hay una correlación entre ambas variables, que generalmente es una relación de proporcionalidad.

Un ejemplo de esta situación aparece en las ciencias forestales, donde se desea determinar el porcentaje de árboles afectado por una planta parásita (la tiña).

Como se trata de regiones muy extensas y de difícil acceso, es inviable en tiempo y costos el estudio de la población completa de árboles. Se siguen entonces estos pasos:

Paso 1: toma de muestras

Un muestreo preliminar consistiría en el uso de fotografía aérea y el bosque se subdivide en lotes. De acá se eligen al azar unos cuantos lotes y se estima, mediante el análisis de las imágenes de los lotes elegidos, cuantos árboles están afectados por la tiña, ya que el colorido de los árboles se ve afectado por el parásito.

Paso 2: trabajo de campo

Pero el análisis fotográfico puede ser poco preciso, por lo que se procede a elegir, preferiblemente al azar, unos pocos lotes de la primera muestra para hacer un trabajo de campo.

Paso 3: comparación

Luego se compara el resultado de campo con el fotográfico para la intercepción de los dos conjuntos de lotes. Esta comparación puede llevarse a cabo, por ejemplo, realizando un gráfico en el que el eje horizontal es el valor obtenido para cada lote mediante fotografía y en el eje vertical el valor obtenido por lote mediante trabajo de campo.

Este método gráfico permite identificar visualmente si existe o no correlación entre ambos resultados y determinar, mediante un análisis de regresión, el coeficiente de proporcionalidad o ratio entre ambas muestras.

Luego de la muestra mayor, es decir la muestra fotográfica, se toma el valor promedio de árboles infectados y su desviación estándar. Pero como se determinó el coeficiente de proporcionalidad y su error con las muestras de campo, entonces es posible corregir el resultado de la muestra mayor (la fotográfica).

Luego este resultado puede extrapolarse a la población completa de árboles.

Ventajas y desventajas del muestreo doble

En los ejemplos descritos se evidencia la ventaja en costos, ya que el reemplazar una variable de fácil acceso por otra de difícil acceso, se ahorra tiempo y dinero.

Una desventaja es que, en el caso de doble muestreo para control de calidad, se corre el riesgo de pasar por buenos lotes de productos que están fuera de tolerancia.

Ejercicio

Se quiere estimar el número de árboles enfermos en un bosque de 162 hectáreas. Como el bosque es muy extenso se subdivide en 100 parcelas de igual área. Se eligen al azar 18 parcelas y mediante un estudio fotográfico se estiman que en esas 18 parcelas hay 8,5 árboles enfermos con un error estándar de más o menos 4,5 árboles.

De estas 18 parcelas se eligen al azar 8 parcelas en las que se lleva a cabo el estudio de campo. Para esas ocho parcelas el estudio fotográfico arroja como resultado 10 árboles enfermos con un error de más o menos 5,3 árboles.

Por otra parte, para esas mismas ocho parcelas el estudio de campo arroja 12,4 árboles enfermos con un error de más menos 6,3 árboles.

Se pide:

  • a) Determinar el coeficiente de proporcionalidad entre el estudio de campo mediante regresión lineal.
  • b) Estimar el número de árboles enfermos mediante el método fotográfico en las cien parcelas.
  • c) Aplicar la corrección con el coeficiente de proporcionalidad obtenido, para estimar el número real de árboles enfermos en la totalidad del bosque.

Solución

Se realiza un gráfico del número de árboles por conteo fotográfico vs conteo de campo para los ocho lotes seleccionados para ambos estudios.

Se ajusta una línea de tendencia y se determina su pendiente. En este caso se obtiene que el coeficiente de proporcionalidad es 1,23. Es decir, si X es el número por conteo fotográfico, se estima entonces que el conteo de campo será Y = 1,23 X.

El número de árboles enfermos según el conteo fotográfico en los 18 lotes seleccionados será:

18 x 8,5 = 153

Pero como todo el bosque fue divido en 100 parcelas de igual área, el número de árboles enfermos estimado por el método fotográfico es: (100/18) x 153 = 850.

Se aplica ahora el factor de corrección obtenido de la comparación entre el estudio de campo y fotográfico:

Número real estimado de árboles enfermos en el bosque = 1,23 x 850 = 1046.

Referencias

  1. Double Sampling for Ratio Estimation, PennState College. Recuperado de psu.edu
  2. Double, Multiple and Sequential Sampling, NC State University. Recuperado de ncsu.edu
  3. Simple Random Sampling. Recuperado de investopedia.com
  4. What is double sampling? Recuperado de: nist.gov
  5. Sampling. Recuperado de: en.wikipedia.org
  6. Multistage Sampling. Recuperado de: en.wikipedia.org