![]()
Asignatura:
InformáticaII- Profesora: Griselda González
Dirección de
artículo: http://en.wikipedia.org/wiki/Data_mining
Traducción realizada por Raquel Rojas.
Definición
Búsqueda de Datos puede ser definido como "La extracción de información implícita, previamente desconocida y útil de la data" ] o "la ciencia de extraer información útil de una base de datos". Aunque la búsqueda de Datos es usada usualmente en relación al análisis de datos, la misma, al igual que inteligencia artificial es un término que es usado con muchos sentidos en muchos contextos. Esta usualmente asociada a los negocios y las necesidades de encontrar los gustos del público que tienen las grandes empresas. La búsqueda de Datos es el proceso de analizar los datos para buscar patrones o relaciones; y la organización de estos patrones de información. Como por ejemplo las estadísticas.
Un ejemplo simple de esta Búsqueda de Datos es su
uso en tiendas de venta de ropa. Si una tienda cataloga las compras de un
cliente y nota que esta persona compra muchas camisas de algodón, el sistema de
búsqueda de datos hará la co-relación entre ese cliente y las camisas de
algodón. El departamento de ventas mirará la información y comenzara a mandar
correo sobre camisas al cliente o tratara de que este compre más variedad de
productos. En este caso, el sistema de búsqueda de datos utilizado por la
tienda descubrió información nueva sobre el cliente que era previamente
desconocida para la empresa. Otro ejemplo de su uso es el de las cadenas de
supermercados en Los Estados Unidos. A través de un intenso análisis de las
transacciones de las compras hechas en un período de tiempo los analistas se
dieron cuenta de que la cerveza y los pañales eran comprados al mismo tiempo.
Aunque explicar esta interrelación es difícil, ayuda a implementar técnicas de
mercadeo. (e.j. poner los pañales mas caros cerca de
la cerveza mas cara) Esta técnica es conocida como Análisis de Cesta de
Mercado.
En análisis estadísticos, donde no existe un modelo teórico, la búsqueda de datos es examinado vía métodos de regresión en los cuales el espacio de 2k relaciones posibles entre un final variable y el potencial de las variables de k es buscado. Con la llegada de la computación paralela se hizo posible (cuando K es menos que 40) examinar todos los modelos 2k. Este proceso es llamado regresión exhaustiva. Algunas de las primeras aplicaciones de esta regresión exhaustiva fue el estudio de las plantas
Usado en el contexto técnico del análisis, el termino "minería" es neutral. Sin embargo a veces tiene un uso mas peyorativo que implica la imposición de patrones (particularmente relaciones causales) sobre datos donde no existen Esta imposición de correlaciones irrelevantes o triviales es llamada "datos de Rastreo" en la literatura estadística. Otro término para el mismo uso de las estadísticas es” Data fishing” o “Pesca de datos”.
Datos de Rastreo implica buscar los datos para cualquier relaciones, cuando algo es encontrado se busca una explicación interesante. El problema es que las grandes cantidades de datos invariablemente muestran relaciones peculiares y aplicables a esa data. Por tanto cualquier conclusión puede ser sospechosa. Aun así, algún trabajo de exploración de los datos es necesario en cualquier análisis estadístico para entender los datos así que a veces la línea entre buena práctica estadística y “datos de rastreo” es borrosa.
Una manera de evaluar la veracidad de un modelo hecho vía la técnica de busca de datos es validación cruzada, una técnica que produce un estimado margen de error basado en la re-búsqueda. En términos simples la idea detrás de “validación cruzada” es que al dividir la data en 2 o más subdivisiones esto hace que una subdivisión evalúe la generalidad del modelo de la otra subdivisión. Una subdivisión de data usada para construir un modelo es un set de entrenamiento; La subdivisión de evaluación de data es llamada el set de prueba. Las técnicas de validación cruzada incluyen el “método de resistencia”, y el “método de excluir a uno”
Otro problema al usar búsqueda de datos es que puede conducir a descubrir co- relaciones que no existen. "Siempre hay un grupo considerable de gente que examina los últimos mil números que han aparecido en una ruleta en busca de un patrón que se repita. Desgraciadamente lo han encontrado”. Sin embargo, cuando es hecho correctamente, determinar correlaciones en los análisis al invertir a probado ser muy efectivo y los análisis de correlación han sido muy útiles en administración de riesgos (gestión de riesgo)
La mayoría de los esfuerzos hechos en la búsqueda de datos están enfocados en desarrollar modelos detallados sobre un set de data gigantesco. Otros especialistas han descrito un método que se trata de encontrar las diferencias mínimas entre los elementos de un set de data, con el objetivo de desarrollar modelos más simples que representen la datos importante
Términos de Privacidad
También hay problemas de privacidad asociados con la búsqueda de datos – específicamente en relación a la fuente de la data analizada. Por ejemplo si un empleador tiene acceso a records médicos, pueden excluir a personas con diabetes o quienes han tenido un ataque al corazón. Al dejarlos afuera el empleador tendría menos costo de seguro médico pero esto crearía problemas legales y éticos.
La búsqueda de datos por parte del gobierno o con fines de resguardar la seguridad nacional o la ley también ha creado controversia en relación a la privacidad ciudadana.
Hay muchos usos legítimos de la “búsqueda de datos”. Por ejemplo un modelo sobre la prescripción de medicinas tomadas por un determinado grupo de gente podría ser usado para encontrar las combinaciones de pastillas que causan relaciones de alergia. Cualquier combinación puede ocurrir en 1 de las 1000 personas y seria un trabajo enorme examinar todos los datos para descubrir tal interacción. Un proyecto que incluya farmacias podría reducir el número de reacciones a las medicinas y podría salvar vidas. Desafortunadamente, existe la posibilidad del abuso de tal base de datos
Esencialmente,
la búsqueda de datos provee información que podría no ser definida de otra
manera. Debe ser interpretada correctamente y si incluye personas existen
problemas legales de privacidad, y ética.
Traducción
de Babel Fish
La explotación minera de los datos se puede definir como “la extracción no trivial de implícito, previamente del desconocido, y de la información potencialmente útil de datos” [1] y “de la ciencia de extraer la información útil de modems o de bases de datos grandes” [2]. Aunque se utiliza generalmente en lo referente al análisis de los datos, explotación minera de los datos, como la inteligencia artificial, es un término del paraguas y se utiliza con el significado variado en una amplia gama de contextos. Se asocia generalmente a una necesidad del negocio o de la otra organización de identificar tendencias. La explotación minera de los datos implica el proceso de analizar datos para demostrar patrones o relaciones; el clasificar con cantidades grandes de datos; y seleccionando los pedazos de información o de los patrones relativos que ocurren e.g., seleccionando la información estadística de un ciertos datos
Un ejemplo simple de la explotación minera de los datos es su uso en un departamento de las ventas al por menor. Si un almacén sigue las compras de un cliente y nota que un cliente compra muchos de las camisas de seda, el sistema que mina de los datos hará una correlación entre ese cliente y las camisas de la seda. El departamento de las ventas mirará esa información y puede comenzar la comercialización del correo directo de las camisas de seda a ese cliente, o puede procurar alternativomente conseguir al cliente comprar una gama de productos más amplia. En este caso, el sistema que minaba de los datos usado por la tienda al por menor descubrió la nueva información sobre el cliente que era previamente desconocido a la compañía. Otro (aunque es hipotético) ejemplo ampliamente utilizado es el de una cadena norteamericana muy grande de supermercados. Con el análisis intensivo de las transacciones y de las mercancías compradas durante tiempo, los analistas encontraron que las cervezas y los pañales fueron comprados a menudo juntos. Aunque explicar esta interrelación pudo ser difícil, aprovecharse de ella, por otra parte, no debe ser duro (e.g. la colocación alto-beneficia los pañales al lado de alto-beneficia las cervezas). Esta técnica se refiere a menudo como análisis de la cesta de mercado.
En los análisis estadísticos, en los cuales no hay modelo teórico subyacente, la explotación minera de los datos se aproxima a menudo vía métodos stepwise de la regresión en donde el espacio de las relaciones posibles 2k entre una sola variable del resultado y variables explicativas potenciales de k se busca elegante. Con el advenimiento de computar paralelo, llegó a ser posible (cuando k es menos que aproximadamente 40) examinar todos los modelos 2k. Este procedimiento se llama todos los subconjuntos o regresión exhaustiva. Algunos de los primeros usos de la regresión exhaustiva implicaron el estudio de los datos de la planta. [3]
Utilizado en el contexto técnico del almacenamiento y del análisis de los datos, el término “datos que minan” es neutral. Sin embargo, tiene a veces un uso más pejorative que implique patrones imponentes (y particularmente relaciones causales) en los datos donde existe ninguno. Esta imposición de la correlación inaplicable, engañosa o trivial de la cualidad se critica más correctamente como “datos que dragan” en la literatura estadística. Otro término para este uso erróneo de la estadística es pesca de los datos.
Utilizado en este último sentido, los datos que dragan implican la exploración de los datos para cualquier relación, y entonces cuando uno se encuentra el subir con una explicación interesante. (Esto también se refiere como “overfitting el modelo”.) El problema es que los modems grandes suceden invariable tener algunas relaciones emocionantes peculiares a ésa los datos. Por lo tanto cualquier conclusión alcanzada es probable ser altamente sospechada. A pesar de esto, un cierto trabajo exploratorio de los datos se requiere siempre en cualquier análisis estadístico aplicado para conseguir una sensación para los datos, tan a veces la línea entre la buena práctica estadística y los datos que dragan son menos que claros.
Un acercamiento común a evaluar la aptitud de un modelo generado vía técnicas que minan de los datos se llama validación cruzada. La validación cruzada es una técnica que produce una estimación del error de la generalización basada en resampling. En términos simples, la idea general detrás de la validación cruzada está ésa que divide los datos en dos u o más los subconjuntos de datos separados permite que un subconjunto sea utilizado para evaluar el generalizeability del modelo aprendido de los otros subconjuntos de datos. Un subconjunto de datos usado para construir un modelo se llama un sistema del entrenamiento; el subconjunto de datos de la evaluación se llama el sistema de la prueba. Las técnicas comunes de la validación cruzada incluyen el método del holdout, k-doblan la validación cruzada, y dejar-uno-hacia fuera el método.
Otra trampa de usar la explotación minera de los datos es que puede conducir a descubrir las correlaciones que pueden no existir. “Ha habido siempre un número considerable de la gente que ocupado ellos mismos examinando los mil números pasados que han aparecido en una rueda del roulette, en busca de un cierto patrón de repetición. Tristemente bastante, lo han encontrado generalmente.” [4]. Sin embargo, cuando está hecha correctamente, la determinación de correlaciones en análisis de inversión ha demostrado ser muy provechosa para las operaciones estadísticas del arbitraje (tales como pares que negocian estrategias), y además el análisis de la correlación ha demostrado para ser muy útil en la gerencia de riesgo. De hecho, encontrar correlaciones en los mercados financieros, cuando está hecho correctamente, no es igual que encontrando patrones falsos en ruedas del roulette.
La mayoría de los esfuerzos que minan de los datos se centran en desarrollar modelos altamente detallados de un cierto modem grande. Otros investigadores han descrito una otra método que implica el encontrar de las diferencias mínimas entre los elementos en un modem, con la meta de los modelos más simples que se convertían que representan datos relevantes. [5]
Hay también preocupaciones de la aislamiento
asociadas a la explotación minera de los datos - específicamente con respecto a la fuentte de los datos analizados. Por ejemplo, si un patrón tiene acceso a los expedientes médicos, pueden defender hacia fuera pueblan quiénes tienen diabetes o para haber tenido un ataque del corazón. Defender hacia fuera a tales empleados cortará los costes para el seguro, pero crea problemas éticos y legales.http://en.wikipedia.org/wiki/Data_mining