Modelos de Minería de Datos
La minería de datos, es una manera de organizar todos los datos que se encuentran en nuestro
poder, para de esta manera filtrarlos y lograr decir que tenemos información en nuestras manos
(información valiosa y de calidad). Esta información debe ser tratada con un modelo específico,
para de esta manera poder obtener los resultados esperados o las conclusiones a las cuales
podemos llamar conocimiento, es decir, hay que analizar la información que logramos recolectar
para poder obtener conocimiento y evitar realizar un trabajo mediocre.
Los modelos se clasifican como Predictivos y Descriptivos.
Los modelos Predictivos: Se tiene una variable con valor desconocido, y la finalidad es determinarlo. Esta variable se llama respuesta, variable dependiente u objetivo, mientras que aquellas utilizadas para hacer la predicción son los predictores o variables independientes.
Los modelos Predictivos requieren ser <<entrenados>>, utilizando un conjunto de datos.
de entrenamiento cuyo valor de variable objetivo es conocido. La idea es que el modelo entregue resultados en base un aprendizaje, en otras palabras, que vaya ajustando a la realidad conocida.
A este tipo de modelos se les conoce también como modelos de aprendizaje supervisado, debido a que los valores estimados o calculados son comparados con los resultados conocidos y, por lo tanto, se tiene una clara medida de éxito o falla de la predicción, algunos algoritmos que se utilizan en estos modelos son los de clasificación y las regresiones. El aprendizaje supervisado se utiliza en problemas en los se tiene conocimiento del resultado al que se quiere llegar, por ejemplo, para la detección de aquellos clientes que son más propensos a la fuga de la empresa.
Los modelos Descriptivos en los cuales no se cuenta con resultados conocidos para poder guiar a los algoritmos, y por ello se conocen como modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo a las observaciones o datos entregados, y se recurre muchas veces a argumentos heurísticos para evaluar la calidad de los resultados. Algunos algoritmos que se utilizan en estos modelos son los de clustering y las reglas de asociación.
El aprendizaje no supervisado es usado en los casos en que no se tiene conocimiento previo del resultado al que se va a llegar, por ejemplo, al segmentar a los clientes en grupos que no hayan sido definidos previamente. Luego de que el modelo ya ha sido entrenado, se utiliza una muestra de datos independiente de aquella utilizada para la fase de construcción y entrenamiento del modelo, con la intensión de evaluar la capacidad de predicción de éste.
A este tipo de modelos se les conoce también como modelos de aprendizaje supervisado, debido a que los valores estimados o calculados son comparados con los resultados conocidos y, por lo tanto, se tiene una clara medida de éxito o falla de la predicción, algunos algoritmos que se utilizan en estos modelos son los de clasificación y las regresiones. El aprendizaje supervisado se utiliza en problemas en los se tiene conocimiento del resultado al que se quiere llegar, por ejemplo, para la detección de aquellos clientes que son más propensos a la fuga de la empresa.
Los modelos Descriptivos en los cuales no se cuenta con resultados conocidos para poder guiar a los algoritmos, y por ello se conocen como modelos de aprendizaje no supervisado, donde el modelo se va ajustando de acuerdo a las observaciones o datos entregados, y se recurre muchas veces a argumentos heurísticos para evaluar la calidad de los resultados. Algunos algoritmos que se utilizan en estos modelos son los de clustering y las reglas de asociación.
El aprendizaje no supervisado es usado en los casos en que no se tiene conocimiento previo del resultado al que se va a llegar, por ejemplo, al segmentar a los clientes en grupos que no hayan sido definidos previamente. Luego de que el modelo ya ha sido entrenado, se utiliza una muestra de datos independiente de aquella utilizada para la fase de construcción y entrenamiento del modelo, con la intensión de evaluar la capacidad de predicción de éste.
Métodos de Minería de Datos
Árboles de Clasificación
El árbol de decisión desarrollado por Breiman et al. (1984) trata de identificar que variable independiente puede hacer que sucesivamente una decisión hecha a partir de los datos haga dividir al grupo original de ldatos en pares de subgrupos y una variable dependiente. Es importante tener en cuenta que, a diferencia de la regresión que devuelve un subconjunto de las variables, a través de los árboles de clasificación se puede clasificar, en cambio, a los facturores que afectan a la tasa de retención.
Ricardo Blanco dice al respecto
"Un Árbol de Decisión es un conjunto de decisiones organizadas en un estructura jerárquica, de tal manera que la decisión fina a tomar se puede determinar siguiendo las condiciones que cumplen desde la raíz del árbol hasta alguna de sus hojas. Los árboles de decisión se utilizan desde hace siglos, y son especialmente apropiados para expresar procedimientos médicos, legales, comerciales, estratégicos, matemáticos, lógicos, etc."
Redes Neuronales
Según Chong Ho Yu et al. (2010), las redes neuronales, tal como su nombre lo indica, tratan de imitar a las neuronas interconectadas de los cerebros animales con el fin de hacer que el algoritmo sea capaz de realizar un aprendizaje complejo y extraer así patrones y detectar tendencias. Este esfuerzo se basa en la premisa de que las estructuras de datos del mundo real son complejos y por lo tanto, requieren el aprendizaje de sistemas complejos. De este modo, una red neuronal entrenada puede ser vista como un <<experto>> en la categoría de información que ha sido dada analizar. Este sistema experto puede proporcionar proyecciones y dar nuevas soluciones a un problema del tipo <<Que pasa si...? >>.
Aplicación de la Minería de Datos
En la actualidad, según Hernandez et al. (2004), la minería de datos se está aplicando en diferentes campos de manera satisfactoria. La siguiente tabla es un resumen de los diversos ámbitos en los cuales esta práctica está contribuyendo activamente.
Redes Bayesianas y Neuronales
Una red bayesiana es un grafo dirigido acíclico, donde los nodos representan las variables del
problema que se desea resolver. El conocimiento del problema se representa mediante la
instanciación de aquellos nodos cuyo valor es conocido, propagándose tal conocimiento a través
de la red mediante ciertas reglas probabilísticas.
Así, consideramos que los cinco estimadores antes enumerados son indicios de que efectivamente
estamos ante una multipalabra. Una vez conocido el valor alcanzado por cada uno de estos nodos
para una candidata dada, la red bayesiana propagará tal información hacia el resto de la red, que en
nuestro caso se corresponde con un único nodo que representa nuestra creencia en que un
determinado bigrama sea o no una multipalabra. En la Figura se puede apreciarse el aspecto de
la sencilla red bayesiana que hemos utilizado en nuestros experimentos. Existirá una de estas redes
bayesianas para cada candidata a multipalabra que consideremos.
Red bayesiana para el reconocimiento de multipalabras
Entre los diferentes algoritmos de Minería de datos, los modelos gráficos probabilísticos (en particular las Redes Bayesianas) constituyen una metodología elegante y potente basada en la probabilidad y la estadística que permite construir modelos de probabilidad conjunta manejables que representan las dependencias relevantes entre un conjunto de variables (cientos de variables en aplicaciones prácticas). Los modelos resultantes permiten realizar inferencia probabilística de una manera eficiente. Por ejemplo, una Red Bayesiana podría representar la relaciones probabilísticas entre campos sinópticos de larga escala y registros de observaciones locales, proporcionando una nueva metodología de downscaling probabilístico: p. ej. permite clacular P(observación|predicción de larga escala). Por ejemplo, en la siguiente figura los puntos rojos representan nodos de la rejilla de un GCM, mientras que los puntos azules corresponden a estaciones con registros de observaciones (los enlaces muestran las dependencias importantes aprendidas de forma automática a partir de los datos).
Formalmente, una Red Bayesiana es una grafo dirigido acíclico cuyos nodos representan variables y
los arcos que los unen codifican dependencias condicionales entre las variables.
Por otra parte, las redes neuronales son modelos no lineales, inspirados en el funcionamiento del cerebro, que fueron diseñados para resolver una gran variedad de problemas. Los perceptrones multi-capa son algoritmos de regresión que construyen un modelo determinista y=f(x), relacionando un conjunto de predictores, x, y predictandos, y (figura inferior izquierda). Las redes auto-organizativas (SOM) son redes competitivas diseñadas para problemas de agrupación (clustering) y visualización (figura inferior derecha).
Árboles de Decisión:
Un árbol de decisión es un mapa de los posibles resultados de una serie de decisiones relacionadas.
Permite que un individuo o una organización comparen posibles acciones entre sí según sus costos,
probabilidades y beneficios. Se pueden usar para dirigir un intercambio de ideas informal o trazar un
algoritmo que anticipe matemáticamente la mejor opción.
Un árbol de decisión, por lo general, comienza con un único nodo y luego se ramifica en
resultados posibles. Cada uno de esos resultados crea nodos adicionales, que se ramifican en
otras posibilidades. Esto le da una forma similar a la de un árbol.
Hay tres tipos diferentes de nodos: nodos de probabilidad, nodos de decisión y nodos terminales.
Un nodo de probabilidad, representado con un círculo, muestra las probabilidades de ciertos
resultados. Un nodo de decisión, representado con un cuadrado, muestra una decisión que se
tomará, y un nodo terminal muestra el resultado definitivo de una ruta de decisión.
Video:
https://youtu.be/krV7Zd0954c
Algoritmos Genéticos
Los Algoritmos Genéticos (AGs) son métodos adaptativos que pueden usarse para resolver problemas de búsqueda y optimización. Están basados en el proceso genético de los organismos vivos. A lo largo de las generaciones, las poblaciones evolucionan en la naturaleza de acorde con los principios de la selección natural y la supervivencia de los más fuertes, postulados por Darwin. Por imitación de este proceso, los Algoritmos Genéticos son capaces de ir creando soluciones para problemas del mundo real. La evolución de dichas soluciones hacia valores óptimos del problema depende en buena medida de una adecuada codificación de las mismas.
Un algoritmo genético consiste en una función matemática o una rutina de software que toma como entradas a los ejemplares y retorna como salidas cuales de ellos deben generar descendencia para la nueva generación.
Versiones más complejas de algoritmos genéticos generan un ciclo iterativo que directamente toma a la especie (el total de los ejemplares) y crea una nueva generación que reemplaza a la antigua una cantidad de veces determinada por su propio diseño. Una de sus características principales es la de ir perfeccionando su propia heurística en el proceso de ejecución, por lo que no requiere largos períodos de entrenamiento especializado por parte del ser humano, principal defecto de otros métodos para solucionar problemas, como los Sistemas Expertos.
Clustering (Agrupamiento)
Técnica en la que el aprendizaje realizado es no supervisado. Desde un punto de vista práctico.
El clustering juega un papel muy importante en aplicaciones de minería de datos, tales como
exploración de datos científicos, recuperación de la información y minería de texto, aplicaciones
sobre bases de datos espaciales (tales como GIS o datos procedentes de astronomía),
aplicaciones Web, marketing, diagnóstico médico, análisis de ADN en biología computacional y muchas otras.
De forma general, las técnicas de Clustering son las que utilizando algoritmos matemáticos se
encargan de agrupar objetos. Usando la información que brindan las variables que pertenecen
a cada objeto se mide la similitud entre los mismos, y una vez hecho esto se colocan en clases
que son muy similares internamente (entre los miembros de la misma clase) y a la vez diferente
entre los miembros de las diferentes clases.
entre los miembros de las diferentes clases.
Aprendizaje Autónomo
Esta técnica de inteligencia artificial es utilizada para inferir conocimiento del resultado de la
aplicación de alguna de las otras técnicas antes mencionadas.
aplicación de alguna de las otras técnicas antes mencionadas.
El proceso de extracción de conocimiento o Knowledge Discovery in Databases, es el proceso no
común utilizado para identificar patrones que puedan ser útiles de algún modo usando como
base datos obtenidos. Se utiliza en rubros como la inteligencia artificial, sistemas de gestión de
bases de datos, sistemas de apoyo a la toma de decisiones, entre otros.
común utilizado para identificar patrones que puedan ser útiles de algún modo usando como
base datos obtenidos. Se utiliza en rubros como la inteligencia artificial, sistemas de gestión de
bases de datos, sistemas de apoyo a la toma de decisiones, entre otros.
Existen varias etapas de este proceso ya que es un proceso complejo para obtener los patrones
necesarios, igualmente la complejidad de cada paso dependerá de lo abstracto que sea el problema.
necesarios, igualmente la complejidad de cada paso dependerá de lo abstracto que sea el problema.
Normalmente se consideran las siguientes etapas del proceso:
- Selección de datos: Es la etapa inicial, es dónde se define qué datos serán recolectados, qué tipo de extracción tendrán, qué atributos de entrada y salida habrá, la justificación sobre por qué obtener los datos que se pretende conseguir, junto con las fuentes que puedan ser útiles.
- Data Warehouse:Se diseña el esquema de un almacén de datos que consiga unificar de manera eficiente toda la información recogida.
- Implantación del almacén de datos:Se instala la estructura o sistema que permita navegar entre los datos y así discernir qué información puede ser utilizada para analizar a profundidad.
- Limpieza de datos:Se seleccionan, limpian y transforman los datos que se analizarán.
- Selección de técnica:Teniendo los datos ya limpios se selecciona la técnica de minería de datos más apropiada para el fin que ya se definió en el primer paso.
- Interpretación:Se evalúan diferentes aspectos de los datos procesados; coherencia, apego a la realidad, utilidad, aplicación en casos hipotéticos, etc. Teniendo los datos ya procesados junto con las evaluaciones correctas, se “traducen” a los términos contextuales correspondientes al proceso y se extrapolan a los casos que ya se tengan contemplados.
- Difusión:Se dan a conocer los resultados y se ponen en práctica.
Diagrama de los pasos en el proceso KDD, anteriormente descritas.
No hay comentarios:
Publicar un comentario