Minería de datos
La minería de datos es el proceso de búsqueda en grandes bases de datos para encontrar información útil que sirva para la toma de decisiones. También se utiliza el término en inglés «data mining».
Se puede entender como la tecnología y software utilizado para encontrar patrones de comportamiento dentro de la base de datos. La base fundamental de esto es que esos patrones ayuden a la toma de decisiones. Por ejemplo, podría ayudar a empresas, a conocer los patrones de comportamiento de sus clientes. De manera que le facilitaría el establecimiento de estrategias para incrementar las ventas o reducir costes.
Ventajas de la minería de datos
La ventaja fundamental de este proceso de análisis de datos es la gran cantidad de escenarios empresariales a los que se puede aplicar, a modo de ejemplo tenemos:
- Predicción: Pronóstico de las ventas de la compañía.
- Probabilidad: Selección de los mejores clientes para un contacto directo ya sea vía telefónica o correo electrónico.
- Análisis de secuencias: Análisis de los productos que los clientes han comprado y comprobar la interrelación entre ellos.
Etapas de la minería de datos
Dentro de un proceso de minería de datos podemos encontrar cinco fases:
- Objetivo y recolección de datos: Lo primero de todo es centrarnos en qué tipo de información queremos obtener. Imaginemos el ejemplo que un supermercado quiere conocer a qué hora del día es donde más asistencia de clientes hay. Este sería el objetivo y la información que quiere obtener el comercio en este caso.
- Procesamiento y gestión de los datos: Una vez que sabemos los datos que queremos recopilar ponemos a trabajar a los datos. Esta quizás sea la fase más complicada del proceso. Pues requiere seleccionar la muestra representativa sobre la que se va a realizar el análisis. Una vez escogida la muestra se debe analizar qué tipo de variables o modelo de regresión se va a realizar sobre la muestra.
- Selección del modelo: Está muy relacionado con la anterior fase. Se trata de crear un modelo o Algoritmo que nos arroje el mejor resultado posible. Para ello hay que hacer un análisis exhaustivo de las variables a incluir en el modelo. Esto se convierte en una tarea complicada, ya que dependerá del tipo de información a analizar. Por ello, los mineros de datos llevan a cabo distintos exámenes del algoritmo como: regresión lineal, árbol de decisión, series temporales, red neuronal, etc.
- Análisis y revisión de resultados: Básicamente es analizar los resultados para comprobar si arrojan una explicación lógica. Explicación que facilite la toma de decisiones con base en la información suministrada por los resultados.
- Actualización del modelo: El último paso del proceso sería la actualización del modelo. Es muy importante que se vaya haciendo con el paso del tiempo para que no quede obsoleto. Las variables del modelo podrían pasar a ser no significativas y por tanto se requiere un control periódico del mismo.