Asignatura: InformáticaII- Profesora: Griselda González

 

 

Dirección de artículo: http://en.wikipedia.org/wiki/Data_mining

Traducción realizada por Raquel Rojas.

 

Definición

Búsqueda de Datos puede ser definido como "La extracción de información  implícita, previamente desconocida y útil de la data" ] o "la ciencia de extraer  información útil de una base de datos". Aunque la búsqueda de Datos es usada usualmente en relación al análisis de datos, la  misma, al igual que inteligencia artificial es un término que es usado con muchos sentidos en muchos contextos. Esta usualmente asociada a los negocios y las necesidades de encontrar los gustos del público que tienen las grandes empresas. La búsqueda de Datos es el proceso de analizar los datos para buscar patrones o relaciones; y la organización de estos patrones de información. Como por ejemplo las estadísticas.

Un ejemplo simple de esta Búsqueda de Datos es su uso en tiendas de venta de ropa. Si una tienda cataloga las compras de un cliente y nota que esta persona compra muchas camisas de algodón, el sistema de búsqueda de datos hará la co-relación entre ese cliente y las camisas de algodón. El departamento de ventas mirará la información y comenzara a mandar correo sobre camisas al cliente o tratara de que este compre más variedad de productos. En este caso, el sistema de búsqueda de datos utilizado por la tienda descubrió información nueva sobre el cliente que era previamente desconocida para la empresa. Otro ejemplo de su uso es el de las cadenas de supermercados en Los Estados Unidos. A través de un intenso análisis de las transacciones de las compras hechas en un período de tiempo los analistas se dieron cuenta de que la cerveza y los pañales eran comprados al mismo tiempo. Aunque explicar esta interrelación es difícil, ayuda a implementar técnicas de mercadeo. (e.j. poner los pañales mas caros cerca de la cerveza mas cara) Esta técnica es conocida como Análisis de Cesta de Mercado.

En análisis estadísticos, donde no existe un modelo teórico, la búsqueda de datos es examinado vía métodos de regresión en los cuales el espacio de 2k  relaciones posibles entre un final variable y el potencial de las variables de k es buscado. Con la llegada de la computación paralela se hizo posible  (cuando K es menos que 40) examinar todos los modelos 2k. Este proceso es llamado regresión exhaustiva. Algunas de las primeras aplicaciones de esta   regresión exhaustiva fue el estudio de las plantas

 

Datos de Rastreo

Usado en el contexto técnico del análisis, el termino "minería" es neutral. Sin embargo a veces tiene un uso mas peyorativo que implica la imposición de  patrones (particularmente relaciones causales) sobre datos donde no existen  Esta imposición de correlaciones irrelevantes o triviales es llamada "datos de Rastreo" en la literatura estadística. Otro término para el mismo uso de las estadísticas es” Data fishing” o “Pesca de datos”.

Datos de Rastreo implica buscar los datos para cualquier relaciones, cuando algo es encontrado se busca una explicación interesante. El problema es que las grandes cantidades de datos invariablemente muestran relaciones peculiares y aplicables a esa data. Por tanto cualquier conclusión puede ser sospechosa. Aun así, algún trabajo de exploración de los datos es necesario en cualquier análisis estadístico para entender los datos así que a veces la línea entre buena práctica estadística y “datos de rastreo” es borrosa.

Una manera de evaluar la veracidad de un modelo hecho vía la técnica de busca de datos es validación cruzada, una técnica que produce un estimado margen de error basado en la re-búsqueda.  En términos simples la idea detrás de “validación cruzada” es que al dividir la data en 2 o más subdivisiones esto hace que una subdivisión evalúe la generalidad del modelo de la otra subdivisión.  Una subdivisión de data usada para construir un modelo es un   set de entrenamiento; La subdivisión de evaluación de data es llamada el set de prueba. Las técnicas de validación cruzada incluyen el “método de resistencia”, y el “método de excluir a uno” 

Otro problema al usar búsqueda de datos es que puede conducir a descubrir co- relaciones que no existen. "Siempre hay un grupo considerable de gente que examina los últimos mil números que han aparecido en una ruleta en busca de un patrón que se repita. Desgraciadamente lo han encontrado”. Sin embargo, cuando es hecho correctamente, determinar correlaciones en los análisis al invertir a probado ser muy efectivo y los análisis de correlación han  sido muy útiles en administración de riesgos (gestión de riesgo)

La mayoría de los esfuerzos hechos en la búsqueda de datos están enfocados en desarrollar modelos detallados sobre un set de data gigantesco. Otros especialistas han descrito un método que se trata de encontrar las diferencias mínimas entre los elementos de un set de data, con el objetivo de desarrollar modelos más simples que representen la datos importante

Términos de Privacidad

También hay  problemas de privacidad asociados con la búsqueda de datos – específicamente en relación a la fuente de la data analizada.  Por ejemplo si un   empleador tiene acceso a records médicos, pueden excluir a personas con diabetes o quienes han tenido un ataque al corazón. Al dejarlos afuera el empleador tendría menos costo de seguro médico pero esto crearía problemas legales y éticos.

La búsqueda de datos por parte del gobierno o con fines de resguardar la seguridad nacional o la ley también ha creado controversia en relación a la privacidad ciudadana.

Hay muchos usos legítimos de la “búsqueda de datos”. Por ejemplo un modelo sobre la prescripción de medicinas tomadas por un determinado grupo de gente podría ser usado para encontrar las combinaciones de pastillas que causan relaciones de alergia.  Cualquier combinación puede ocurrir en 1 de las  1000 personas y seria un  trabajo enorme examinar todos los datos para descubrir tal interacción. Un proyecto que incluya farmacias podría reducir el número de reacciones a las medicinas y podría salvar vidas. Desafortunadamente, existe la posibilidad del abuso de tal base de datos

Esencialmente, la búsqueda de datos provee información que podría no ser definida de otra manera. Debe ser interpretada correctamente y si incluye personas existen problemas legales de privacidad, y ética.

 

 

Traducción de Babel Fish  

 

Definición

La explotación minera de los datos se puede definir como “la extracción no trivial de implícito, previamente del desconocido, y de la información potencialmente útil de datos” [1] y “de la ciencia de extraer la información útil de modems o de bases de datos grandes” [2]. Aunque se utiliza generalmente en lo referente al análisis de los datos, explotación minera de los datos, como la inteligencia artificial, es un término del paraguas y se utiliza con el significado variado en una amplia gama de contextos. Se asocia generalmente a una necesidad del negocio o de la otra organización de identificar tendencias. La explotación minera de los datos implica el proceso de analizar datos para demostrar patrones o relaciones; el clasificar con cantidades grandes de datos; y seleccionando los pedazos de información o de los patrones relativos que ocurren e.g., seleccionando la información estadística de un ciertos datos

Un ejemplo simple de la explotación minera de los datos es su uso en un departamento de las ventas al por menor. Si un almacén sigue las compras de un cliente y nota que un cliente compra muchos de las camisas de seda, el sistema que mina de los datos hará una correlación entre ese cliente y las camisas de la seda. El departamento de las ventas mirará esa información y puede comenzar la comercialización del correo directo de las camisas de seda a ese cliente, o puede procurar alternativomente conseguir al cliente comprar una gama de productos más amplia. En este caso, el sistema que minaba de los datos usado por la tienda al por menor descubrió la nueva información sobre el cliente que era previamente desconocido a la compañía. Otro (aunque es hipotético) ejemplo ampliamente utilizado es el de una cadena norteamericana muy grande de supermercados. Con el análisis intensivo de las transacciones y de las mercancías compradas durante tiempo, los analistas encontraron que las cervezas y los pañales fueron comprados a menudo juntos. Aunque explicar esta interrelación pudo ser difícil, aprovecharse de ella, por otra parte, no debe ser duro (e.g. la colocación alto-beneficia los pañales al lado de alto-beneficia las cervezas). Esta técnica se refiere a menudo como análisis de la cesta de mercado.

En los análisis estadísticos, en los cuales no hay modelo teórico subyacente, la explotación minera de los datos se aproxima a menudo vía métodos stepwise de la regresión en donde el espacio de las relaciones posibles 2k entre una sola variable del resultado y variables explicativas potenciales de k se busca elegante. Con el advenimiento de computar paralelo, llegó a ser posible (cuando k es menos que aproximadamente 40) examinar todos los modelos 2k. Este procedimiento se llama todos los subconjuntos o regresión exhaustiva. Algunos de los primeros usos de la regresión exhaustiva implicaron el estudio de los datos de la planta. [3]

Datos que dragan

Utilizado en el contexto técnico del almacenamiento y del análisis de los datos, el término “datos que minan” es neutral. Sin embargo, tiene a veces un uso más pejorative que implique patrones imponentes (y particularmente relaciones causales) en los datos donde existe ninguno. Esta imposición de la correlación inaplicable, engañosa o trivial de la cualidad se critica más correctamente como “datos que dragan” en la literatura estadística. Otro término para este uso erróneo de la estadística es pesca de los datos.

Utilizado en este último sentido, los datos que dragan implican la exploración de los datos para cualquier relación, y entonces cuando uno se encuentra el subir con una explicación interesante. (Esto también se refiere como “overfitting el modelo”.) El problema es que los modems grandes suceden invariable tener algunas relaciones emocionantes peculiares a ésa los datos. Por lo tanto cualquier conclusión alcanzada es probable ser altamente sospechada. A pesar de esto, un cierto trabajo exploratorio de los datos se requiere siempre en cualquier análisis estadístico aplicado para conseguir una sensación para los datos, tan a veces la línea entre la buena práctica estadística y los datos que dragan son menos que claros.

Un acercamiento común a evaluar la aptitud de un modelo generado vía técnicas que minan de los datos se llama validación cruzada. La validación cruzada es una técnica que produce una estimación del error de la generalización basada en resampling. En términos simples, la idea general detrás de la validación cruzada está ésa que divide los datos en dos u o más los subconjuntos de datos separados permite que un subconjunto sea utilizado para evaluar el generalizeability del modelo aprendido de los otros subconjuntos de datos. Un subconjunto de datos usado para construir un modelo se llama un sistema del entrenamiento; el subconjunto de datos de la evaluación se llama el sistema de la prueba. Las técnicas comunes de la validación cruzada incluyen el método del holdout, k-doblan la validación cruzada, y dejar-uno-hacia fuera el método.

Otra trampa de usar la explotación minera de los datos es que puede conducir a descubrir las correlaciones que pueden no existir. “Ha habido siempre un número considerable de la gente que ocupado ellos mismos examinando los mil números pasados que han aparecido en una rueda del roulette, en busca de un cierto patrón de repetición. Tristemente bastante, lo han encontrado generalmente.” [4]. Sin embargo, cuando está hecha correctamente, la determinación de correlaciones en análisis de inversión ha demostrado ser muy provechosa para las operaciones estadísticas del arbitraje (tales como pares que negocian estrategias), y además el análisis de la correlación ha demostrado para ser muy útil en la gerencia de riesgo. De hecho, encontrar correlaciones en los mercados financieros, cuando está hecho correctamente, no es igual que encontrando patrones falsos en ruedas del roulette.

La mayoría de los esfuerzos que minan de los datos se centran en desarrollar modelos altamente detallados de un cierto modem grande. Otros investigadores han descrito una otra método que implica el encontrar de las diferencias mínimas entre los elementos en un modem, con la meta de los modelos más simples que se convertían que representan datos relevantes. [5]

Preocupaciones de la aislamiento

Hay también preocupaciones de la aislamiento

 asociadas a la explotación minera de los datos - específicamente con respecto a la fuentte de los datos analizados. Por ejemplo, si un patrón tiene acceso a los expedientes médicos, pueden defender hacia fuera pueblan quiénes tienen diabetes o para haber tenido un ataque del corazón. Defender hacia fuera a tales empleados cortará los costes para el seguro, pero crea problemas éticos y legales.

El gobierno que minaba de los datos o los modems comerciales para los propósitos de la seguridad nacional o de aplicación de ley también ha levantado preocupaciones de la aislamiento. [6]

Hay muchas aplicaciones legítimas de la explotación minera de los datos. Por ejemplo, una base de datos de las drogas de la prescripción tomadas por un grupo de gente se podía utilizar para encontrar combinaciones de las drogas que exhibían interacciones dañosas. Puesto que cualquier combinación particular puede ocurrir en solamente 1 fuera de 1000 personas, los datos muchos necesitarían ser examinados para descubrir tal interacción. Un proyecto que implicaba farmacias podía reducir el número de las reacciones de la droga y potencialmente ahorrar vidas. Desafortunadamente, hay también un potencial enorme para el abuso de tal base de datos.

Esencialmente, la explotación minera de los datos da la información que no estaría disponible de otra manera. Debe ser interpretada correctamente para ser útil. Cuando los datos recogidos implican a gente individual, hay muchas preguntas referentes aislamiento, legalidad, y a los éticas.

 

 

 

 

http://en.wikipedia.org/wiki/Data_mining

Definition

Data Mining can be defined as "The nontrivial extraction of implicit, previously unknown, and potentially useful information from data" [1] and "The science of extracting useful information from large data sets or databases" [2]. Although it is usually used in relation to analysis of data, data mining, like artificial intelligence, is an umbrella term and is used with varied meaning in a wide range of contexts. It is usually associated with a business or other organization's need to identify trends. Data mining involves the process of analysing data to show patterns or relationships; sorting through large amounts of data; and picking out pieces of relative information or patterns that occur e.g., picking out statistical information from some data

A simple example of data mining is its use in a retail sales department. If a store tracks the purchases of a customer and notices that a customer buys a lot of silk shirts, the data mining system will make a correlation between that customer and silk shirts. The sales department will look at that information and may begin direct mail marketing of silk shirts to that customer, or it may alternatively attempt to get the customer to buy a wider range of products. In this case, the data mining system used by the retail store discovered new information about the customer that was previously unknown to the company. Another widely used (though hypothetical) example is that of a very large North American chain of supermarkets. Through intensive analysis of the transactions and the goods bought over a period of time, analysts found that beers and diapers were often bought together. Though explaining this interrelation might be difficult, taking advantage of it, on the other hand, should not be hard (e.g. placing the high-profit diapers next to the high-profit beers). This technique is often referred to as Market Basket Analysis.

In statistical analyses, in which there is no underlying theoretical model, data mining is often approximated via stepwise regression methods wherein the space of 2k possible relationships between a single outcome variable and k potential explanatory variables is smartly searched. With the advent of parallel computing, it became possible (when k is less than approximately 40) to examine all 2k models. This procedure is called all subsets or exhaustive regression. Some of the first applications of exhaustive regression involved the study of plant data.[3]

[edit]

Data dredging

Used in the technical context of data warehousing and analysis, the term "data mining" is neutral. However, it sometimes has a more pejorative usage that implies imposing patterns (and particularly causal relationships) on data where none exist. This imposition of irrelevant, misleading or trivial attribute correlation is more properly criticized as "data dredging" in the statistical literature. Another term for this misuse of statistics is data fishing.

Used in this latter sense, data dredging implies scanning the data for any relationships, and then when one is found coming up with an interesting explanation. (This is also referred to as "overfitting the model".) The problem is that large data sets invariably happen to have some exciting relationships peculiar to that data. Therefore any conclusions reached are likely to be highly suspect. In spite of this, some exploratory data work is always required in any applied statistical analysis to get a feel for the data, so sometimes the line between good statistical practice and data dredging is less than clear.

One common approach to evaluating the fitness of a model generated via data mining techniques is called cross validation. Cross validation is a technique that produces an estimate of generalization error based on resampling. In simple terms, the general idea behind cross validation is that dividing the data into two or or more separate data subsets allows one subset to be used to evaluate the generalizeability of the model learned from the other data subset(s). A data subset used to build a model is called a training set; the evaluation data subset is called the test set. Common cross validation techniques include the holdout method, k-fold cross validation, and the leave-one-out method.

Another pitfall of using data mining is that it may lead to discovering correlations that may not exist. "There have always been a considerable number of people who busy themselves examining the last thousand numbers which have appeared on a roulette wheel, in search of some repeating pattern. Sadly enough, they have usually found it." [4]. However, when properly done, determining correlations in investment analysis has proven to be very profitable for statistical arbitrage operations (such as pairs trading strategies), and furthermore correlation analysis has shown to be very useful in risk management. Indeed, finding correlations in the financial markets, when done properly, is not the same as finding false patterns in roulette wheels.

Most data mining efforts are focused on developing highly detailed models of some large data set. Other researchers have described an alternate method that involves finding the minimal differences between elements in a data set, with the goal of developing simpler models that represent relevant data. [5]

[edit]

Privacy concerns

There are also privacy concerns associated with data mining - specifically regarding the source of the data analyzed. For example, if an employer has access to medical records, they may screen out people who have diabetes or have had a heart attack. Screening out such employees will cut costs for insurance, but it creates ethical and legal problems.

Data mining government or commercial data sets for national security or law enforcement purposes has also raised privacy concerns. [6]

There are many legitimate uses of data mining. For example, a database of prescription drugs taken by a group of people could be used to find combinations of drugs exhibiting harmful interactions. Since any particular combination may occur in only 1 out of 1000 people, a great deal of data would need to be examined to discover such an interaction. A project involving pharmacies could reduce the number of drug reactions and potentially save lives. Unfortunately, there is also a huge potential for abuse of such a database.

Essentially, data mining gives information that would not be available otherwise. It must be properly interpreted to be useful. When the data collected involves individual people, there are many questions concerning privacy, legality, and ethics.

 

 

Hosted by www.Geocities.ws

1