Universidad Yacambú

Estudios Virtuales

Licenciatura en Documentación e Información

Informática II

 

DATA MINING

Prof.: Griselda González

Alumna: Alexandra Ramírez – C.I. 12.383.107

  

Data Mining, also known as Knowledge-Discovery in Databases (KDD), is the process of automatically searching large volumes of data for patterns. Data Mining is a fairly recent and contemporary topic in computing. However, Data Mining applies many older computational techniques from statistics, machine learning and pattern recognition.

 

Definition

Data Mining can be defined as " The nontrivial extraction of implicit, previously unknown, and potentially useful information from data" and " The science of extracting useful information from large data sets or databases " Although it is usually used in relation to analysis of data, data mining, like artificial intelligence, is an umbrella term and is used with varied meaning in a wide range of contexts. It is usually associated with a business or other organization's need to identify trends. Data mining involves the process of analysing data to show patterns or relationships; sorting through large amounts of data; and picking out pieces of relative information or patterns that occur e.g., picking out statistical information from some data.

 

A simple example of data mining is its use in a retail sales department. If a store tracks the purchases of a customer and notices that a customer buys a lot of silk shirts, the data mining system will make a correlation between that customer and silk shirts. The sales department will look at that information and may begin direct mail marketing of silk shirts to that customer, or it may alternatively attempt to get the customer to buy a wider range of products. In this case, the data mining system used by the retail store discovered new information about the customer that was previously unknown to the company. Another widely used (though hypothetical) example is that of a very large North American chain of supermarkets. Through intensive analysis of the transactions and the goods bought over a period of time, analysts found that beers and diapers were often bought together. Though explaining this interrelation might be difficult, taking advantage of it, on the other hand, should not be hard (e.g. placing the high-profit diapers next to the high-profit beers). This technique is often referred to as Market Basket Analysis.

 

In statistical analyses, in which there is no underlying theoretical model, data mining is often approximated via stepwise regression methods wherein the space of 2k possible relationships between a single outcome variable and k potential explanatory variables is smartly searched. With the advent of parallel computing, it became possible (when k is less than approximately 40) to examine all 2k models. This procedure is called all subsets or exhaustive regression. Some of the first applications of exhaustive regression involved the study of plant data.

 

Notable uses of data mining

Data mining has been cited as the method by which the U.S. Army unit Able Danger supposedly had identified the 9/11 attack leader, Mohamed Atta, and three other 9/11 hijackers as possible members of an al Qaeda cell operating in the U.S. more than a year before the attack.

 

   See also: Able Danger, wikinews: U.S. Army intelligence had detected 9/11 terrorists year before, says officer.

 

   As is the case for economic models which successfully predict 10 of the last 3 recessions, one must of course know which other names came up on the "possible members" list before being confident this was not an exercise in data dredging

 

 

 

MINERÍA DE DATOS

 

La minería de Datos, también conocida como el Descubrimiento - Conocimiento en Bases de datos (KDD), es el proceso automáticamente para buscar los volúmenes grandes de datos para el modelo. La minería de Datos es un tema bastante reciente y contemporáneo en la informática. Sin embargo, la Minería de Datos aplica muchas técnicas más viejas computacionales de la estadística, de aprender de las máquinas y del reconocimiento de modelo.

 

Definición

La minería de Datos puede ser definida como la extracción no trivial de contenido de información antes desconocida, y potencialmente útil de datos, también se puede definir como la ciencia de extraer la información útil de datos grandes en bases de datos.   Aunque esto por lo general es usado en relación con el análisis de datos, la minería de datos como la inteligencia artificial, es un término del paraguas y es usado con el significado variado en una amplia gama de contextos. Esto por lo general es asociado con un negocio o la necesidad de otra organización de identificar tendencias. La minería de datos implica el proceso de analizar datos para mostrar el modelo o relaciones; las cantidades grandes que revisan de datos; y el elegir de los pedazos de información relativa o el modelo que ocurre por ejemplo, eligiendo la información estadística de algunos datos

 

Un ejemplo simple de minería de datos es su empleo en un departamento de venta al público. Si una tienda rastrea las compras de un cliente y nota que un cliente compra muchas camisas de seda, el sistema de minería de datos hará una correlación entre aquel cliente y las camisas de seda. El departamento de ventas mirará aquella información y puede comenzar el control de comercialización de correo directo de camisas de seda a aquel cliente, o esto o bien puede intentar conseguir al cliente para comprar una más amplia gama de productos. En este caso, el sistema de minería de datos usado a menudo por la tienda descubrió la información nueva sobre el cliente que era antes desconocido a la empresa. El otro extensamente usado (aunque hipotético) es el de una cadena norteamericana muy grande de supermercados. Con el análisis intensivo de las transacciones y de las mercancías compradas durante tiempo, los analistas encontraron que las cervezas y los pañales a menudo eran comprados juntos. Aunque la explicación de esta interrelación pudiera ser difícil, el aprovechamiento de ello, no debería ser difícil (por ejemplo la colocación de los pañales de beneficio alto al lado de las cervezas). Esta técnica se refiere a menudo como análisis de la cesta de mercado.

 

En los análisis estadísticos, en los cuales no hay modelo teórico subyacente, la minería de datos a menudo se aproxima a métodos de regresión graduales en el que el espacio de las relaciones posibles 2K entre una variable de resultado sola y el potencial de k variables explicativas que cuidadosamente son buscadas. Con la llegada de la informática paralela, esto se hizo posible (cuando la k es menos que aproximadamente 40) para examinar todos los Modelos 2K. Llaman a este procedimiento todos los subconjuntos o la regresión exhaustiva. Algunos de los primeros usos de regresión exhaustiva implicaron el estudio de datos de planta.

 

 

Aplicaciones notables de la minería de datos

La minería de datos ha sido citada como el método por el que la unidad de ejército estadounidense detecto el Peligro Capaz supuestamente había identificado a líder del ataque de 9/11, Mohamed Atta, y tres otros secuestradores del  9/11 como miembros posibles de una célula de Qaeda del al que funcionaba en los ESTADOS UNIDOS un año antes del ataque

 

 

 

 

Infografía

Texto Original: extraído de:  http://en.wikipedia.org/wiki/Data_mining

 

Hosted by www.Geocities.ws

1