Asignatura: InformáticaII- Profesora: Griselda González

Dirección de artículo: http://en.wikipedia.org/wiki/Data_mining

Traducción realizada por Raquel Rojas.

Definición

Búsqueda de Datos puede ser definido como "La extracción de información implícita, previamente desconocida y útil de la data" ^] o "la ciencia de extraer información útil de una base de datos". Aunque la búsqueda de Datos es usada usualmente en relación al análisis de datos, la misma, al igual que inteligencia artificial es un término que es usado con muchos sentidos en muchos contextos. Esta usualmente asociada a los negocios y las necesidades de encontrar los gustos del público que tienen las grandes empresas. La búsqueda de Datos es el proceso de analizar los datos para buscar patrones o relaciones; y la organización de estos patrones de información. Como por ejemplo las estadísticas.

Un ejemplo simple de esta Búsqueda de Datos es su uso en tiendas de venta de ropa. Si una tienda cataloga las compras de un cliente y nota que esta persona compra muchas camisas de algodón, el sistema de búsqueda de datos hará la co-relación entre ese cliente y las camisas de algodón. El departamento de ventas mirará la información y comenzara a mandar correo sobre camisas al cliente o tratara de que este compre más variedad de productos. En este caso, el sistema de búsqueda de datos utilizado por la tienda descubrió información nueva sobre el cliente que era previamente desconocida para la empresa. Otro ejemplo de su uso es el de las cadenas de supermercados en Los Estados Unidos. A través de un intenso análisis de las transacciones de las compras hechas en un período de tiempo los analistas se dieron cuenta de que la cerveza y los pañales eran comprados al mismo tiempo. Aunque explicar esta interrelación es difícil, ayuda a implementar técnicas de mercadeo. (e.j. poner los pañales mas caros cerca de la cerveza mas cara) Esta técnica es conocida como Análisis de Cesta de Mercado.

En análisis estadísticos, donde no existe un modelo teórico, la búsqueda de datos es examinado vía métodos de regresión en los cuales el espacio de 2^k relaciones posibles entre un final variable y el potencial de las variables de k es buscado. Con la llegada de la computación paralela se hizo posible (cuando K es menos que 40) examinar todos los modelos 2^k. Este proceso es llamado regresión exhaustiva. Algunas de las primeras aplicaciones de esta regresión exhaustiva fue el estudio de las plantas

Datos de Rastreo

Usado en el contexto técnico del análisis, el termino "minería" es neutral. Sin embargo a veces tiene un uso mas peyorativo que implica la imposición de patrones (particularmente relaciones causales) sobre datos donde no existen Esta imposición de correlaciones irrelevantes o triviales es llamada "datos de Rastreo" en la literatura estadística. Otro término para el mismo uso de las estadísticas es” Data fishing” o “Pesca de datos”.

Datos de Rastreo implica buscar los datos para cualquier relaciones, cuando algo es encontrado se busca una explicación interesante. El problema es que las grandes cantidades de datos invariablemente muestran relaciones peculiares y aplicables a esa data. Por tanto cualquier conclusión puede ser sospechosa. Aun así, algún trabajo de exploración de los datos es necesario en cualquier análisis estadístico para entender los datos así que a veces la línea entre buena práctica estadística y “datos de rastreo” es borrosa.

Una manera de evaluar la veracidad de un modelo hecho vía la técnica de busca de datos es validación cruzada, una técnica que produce un estimado margen de error basado en la re-búsqueda. En términos simples la idea detrás de “validación cruzada” es que al dividir la data en 2 o más subdivisiones esto hace que una subdivisión evalúe la generalidad del modelo de la otra subdivisión. Una subdivisión de data usada para construir un modelo es un set de entrenamiento; La subdivisión de evaluación de data es llamada el set de prueba. Las técnicas de validación cruzada incluyen el “método de resistencia”, y el “método de excluir a uno”

Otro problema al usar búsqueda de datos es que puede conducir a descubrir co- relaciones que no existen. "Siempre hay un grupo considerable de gente que examina los últimos mil números que han aparecido en una ruleta en busca de un patrón que se repita. Desgraciadamente lo han encontrado”. Sin embargo, cuando es hecho correctamente, determinar correlaciones en los análisis al invertir a probado ser muy efectivo y los análisis de correlación han sido muy útiles en administración de riesgos (gestión de riesgo)

La mayoría de los esfuerzos hechos en la búsqueda de datos están enfocados en desarrollar modelos detallados sobre un set de data gigantesco. Otros especialistas han descrito un método que se trata de encontrar las diferencias mínimas entre los elementos de un set de data, con el objetivo de desarrollar modelos más simples que representen la datos importante

Términos de Privacidad

También hay problemas de privacidad asociados con la búsqueda de datos – específicamente en relación a la fuente de la data analizada. Por ejemplo si un empleador tiene acceso a records médicos, pueden excluir a personas con diabetes o quienes han tenido un ataque al corazón. Al dejarlos afuera el empleador tendría menos costo de seguro médico pero esto crearía problemas legales y éticos.

La búsqueda de datos por parte del gobierno o con fines de resguardar la seguridad nacional o la ley también ha creado controversia en relación a la privacidad ciudadana.

Hay muchos usos legítimos de la “búsqueda de datos”. Por ejemplo un modelo sobre la prescripción de medicinas tomadas por un determinado grupo de gente podría ser usado para encontrar las combinaciones de pastillas que causan relaciones de alergia. Cualquier combinación puede ocurrir en 1 de las 1000 personas y seria un trabajo enorme examinar todos los datos para descubrir tal interacción. Un proyecto que incluya farmacias podría reducir el número de reacciones a las medicinas y podría salvar vidas. Desafortunadamente, existe la posibilidad del abuso de tal base de datos

Esencialmente, la búsqueda de datos provee información que podría no ser definida de otra manera. Debe ser interpretada correctamente y si incluye personas existen problemas legales de privacidad, y ética.

Traducción de Babel Fish

Definición

La explotación minera de los datos se puede definir como “la extracción no trivial de implícito, previamente del desconocido, y de la información potencialmente útil de datos” ^[1] y “de la ciencia de extraer la información útil de modems o de bases de datos grandes” ^[2]. Aunque se utiliza generalmente en lo referente al análisis de los datos, explotación minera de los datos, como la inteligencia artificial, es un término del paraguas y se utiliza con el significado variado en una amplia gama de contextos. Se asocia generalmente a una necesidad del negocio o de la otra organización de identificar tendencias. La explotación minera de los datos implica el proceso de analizar datos para demostrar patrones o relaciones; el clasificar con cantidades grandes de datos; y seleccionando los pedazos de información o de los patrones relativos que ocurren e.g., seleccionando la información estadística de un ciertos datos

Un ejemplo simple de la explotación minera de los datos es su uso en un departamento de las ventas al por menor. Si un almacén sigue las compras de un cliente y nota que un cliente compra muchos de las camisas de seda, el sistema que mina de los datos hará una correlación entre ese cliente y las camisas de la seda. El departamento de las ventas mirará esa información y puede comenzar la comercialización del correo directo de las camisas de seda a ese cliente, o puede procurar alternativomente conseguir al cliente comprar una gama de productos más amplia. En este caso, el sistema que minaba de los datos usado por la tienda al por menor descubrió la nueva información sobre el cliente que era previamente desconocido a la compañía. Otro (aunque es hipotético) ejemplo ampliamente utilizado es el de una cadena norteamericana muy grande de supermercados. Con el análisis intensivo de las transacciones y de las mercancías compradas durante tiempo, los analistas encontraron que las cervezas y los pañales fueron comprados a menudo juntos. Aunque explicar esta interrelación pudo ser difícil, aprovecharse de ella, por otra parte, no debe ser duro (e.g. la colocación alto-beneficia los pañales al lado de alto-beneficia las cervezas). Esta técnica se refiere a menudo como análisis de la cesta de mercado.

En los análisis estadísticos, en los cuales no hay modelo teórico subyacente, la explotación minera de los datos se aproxima a menudo vía métodos stepwise de la regresión en donde el espacio de las relaciones posibles 2k entre una sola variable del resultado y variables explicativas potenciales de k se busca elegante. Con el advenimiento de computar paralelo, llegó a ser posible (cuando k es menos que aproximadamente 40) examinar todos los modelos 2k. Este procedimiento se llama todos los subconjuntos o regresión exhaustiva. Algunos de los primeros usos de la regresión exhaustiva implicaron el estudio de los datos de la planta. ^[3]

Datos que dragan

Utilizado en el contexto técnico del almacenamiento y del análisis de los datos, el término “datos que minan” es neutral. Sin embargo, tiene a veces un uso más pejorative que implique patrones imponentes (y particularmente relaciones causales) en los datos donde existe ninguno. Esta imposición de la correlación inaplicable, engañosa o trivial de la cualidad se critica más correctamente como “datos que dragan” en la literatura estadística. Otro término para este uso erróneo de la estadística es pesca de los datos.

Utilizado en este último sentido, los datos que dragan implican la exploración de los datos para cualquier relación, y entonces cuando uno se encuentra el subir con una explicación interesante. (Esto también se refiere como “overfitting el modelo”.) El problema es que los modems grandes suceden invariable tener algunas relaciones emocionantes peculiares a ésa los datos. Por lo tanto cualquier conclusión alcanzada es probable ser altamente sospechada. A pesar de esto, un cierto trabajo exploratorio de los datos se requiere siempre en cualquier análisis estadístico aplicado para conseguir una sensación para los datos, tan a veces la línea entre la buena práctica estadística y los datos que dragan son menos que claros.

Un acercamiento común a evaluar la aptitud de un modelo generado vía técnicas que minan de los datos se llama validación cruzada. La validación cruzada es una técnica que produce una estimación del error de la generalización basada en resampling. En términos simples, la idea general detrás de la validación cruzada está ésa que divide los datos en dos u o más los subconjuntos de datos separados permite que un subconjunto sea utilizado para evaluar el generalizeability del modelo aprendido de los otros subconjuntos de datos. Un subconjunto de datos usado para construir un modelo se llama un sistema del entrenamiento; el subconjunto de datos de la evaluación se llama el sistema de la prueba. Las técnicas comunes de la validación cruzada incluyen el método del holdout, k-doblan la validación cruzada, y dejar-uno-hacia fuera el método.

Otra trampa de usar la explotación minera de los datos es que puede conducir a descubrir las correlaciones que pueden no existir. “Ha habido siempre un número considerable de la gente que ocupado ellos mismos examinando los mil números pasados que han aparecido en una rueda del roulette, en busca de un cierto patrón de repetición. Tristemente bastante, lo han encontrado generalmente.” ^[4]. Sin embargo, cuando está hecha correctamente, la determinación de correlaciones en análisis de inversión ha demostrado ser muy provechosa para las operaciones estadísticas del arbitraje (tales como pares que negocian estrategias), y además el análisis de la correlación ha demostrado para ser muy útil en la gerencia de riesgo. De hecho, encontrar correlaciones en los mercados financieros, cuando está hecho correctamente, no es igual que encontrando patrones falsos en ruedas del roulette.

La mayoría de los esfuerzos que minan de los datos se centran en desarrollar modelos altamente detallados de un cierto modem grande. Otros investigadores han descrito una otra método que implica el encontrar de las diferencias mínimas entre los elementos en un modem, con la meta de los modelos más simples que se convertían que representan datos relevantes. ^[5]

Preocupaciones de la aislamiento

Hay también preocupaciones de la aislamiento

asociadas a la explotación minera de los datos - específicamente con respecto a la fuentte de los datos analizados. Por ejemplo, si un patrón tiene acceso a los expedientes médicos, pueden defender hacia fuera pueblan quiénes tienen diabetes o para haber tenido un ataque del corazón. Defender hacia fuera a tales empleados cortará los costes para el seguro, pero crea problemas éticos y legales.

El gobierno que minaba de los datos o los modems comerciales para los propósitos de la seguridad nacional o de aplicación de ley también ha levantado preocupaciones de la aislamiento. ^[6]

Hay muchas aplicaciones legítimas de la explotación minera de los datos. Por ejemplo, una base de datos de las drogas de la prescripción tomadas por un grupo de gente se podía utilizar para encontrar combinaciones de las drogas que exhibían interacciones dañosas. Puesto que cualquier combinación particular puede ocurrir en solamente 1 fuera de 1000 personas, los datos muchos necesitarían ser examinados para descubrir tal interacción. Un proyecto que implicaba farmacias podía reducir el número de las reacciones de la droga y potencialmente ahorrar vidas. Desafortunadamente, hay también un potencial enorme para el abuso de tal base de datos.

Esencialmente, la explotación minera de los datos da la información que no estaría disponible de otra manera. Debe ser interpretada correctamente para ser útil. Cuando los datos recogidos implican a gente individual, hay muchas preguntas referentes aislamiento, legalidad, y a los éticas.

http://en.wikipedia.org/wiki/Data_mining

Definition

Data Mining can be defined as "The nontrivial extraction of implicit, previously unknown, and potentially useful information from data" ^[1] and "The science of extracting useful information from large data sets or databases" ^[2]. Although it is usually used in relation to analysis of data, data mining, like artificial intelligence, is an umbrella term and is used with varied meaning in a wide range of contexts. It is usually associated with a business or other organization's need to identify trends. Data mining involves the process of analysing data to show patterns or relationships; sorting through large amounts of data; and picking out pieces of relative information or patterns that occur e.g., picking out statistical information from some data

A simple example of data mining is its use in a retail sales department. If a store tracks the purchases of a customer and notices that a customer buys a lot of silk shirts, the data mining system will make a correlation between that customer and silk shirts. The sales department will look at that information and may begin direct mail marketing of silk shirts to that customer, or it may alternatively attempt to get the customer to buy a wider range of products. In this case, the data mining system used by the retail store discovered new information about the customer that was previously unknown to the company. Another widely used (though hypothetical) example is that of a very large North American chain of supermarkets. Through intensive analysis of the transactions and the goods bought over a period of time, analysts found that beers and diapers were often bought together. Though explaining this interrelation might be difficult, taking advantage of it, on the other hand, should not be hard (e.g. placing the high-profit diapers next to the high-profit beers). This technique is often referred to as Market Basket Analysis.

In statistical analyses, in which there is no underlying theoretical model, data mining is often approximated via stepwise regression methods wherein the space of 2^k possible relationships between a single outcome variable and k potential explanatory variables is smartly searched. With the advent of parallel computing, it became possible (when k is less than approximately 40) to examine all 2^k models. This procedure is called all subsets or exhaustive regression. Some of the first applications of exhaustive regression involved the study of plant data.^[3]