Universidad Yacambú
Estudios
Virtuales
Licenciatura
en Documentación e Información
Informática II
DATA MINING
Prof.:
Griselda González
Alumna:
Alexandra Ramírez – C.I. 12.383.107
Data Mining, also known as Knowledge-Discovery in Databases (KDD), is the process
of automatically searching large volumes of data for patterns. Data Mining is a fairly
recent and contemporary topic in computing. However, Data Mining applies many older computational
techniques from statistics, machine learning and pattern
recognition.
Definition
Data Mining can be defined as " The nontrivial extraction of implicit, previously
unknown, and potentially useful information from data" and " The science of extracting
useful information from large data sets or databases
" Although it is usually used
in relation to analysis of data, data mining, like artificial intelligence, is an umbrella term
and is used
with varied meaning in a wide range of contexts.
It is usually
associated with a business or other
organization's need to identify trends.
Data mining involves the process of
analysing data to show patterns or relationships;
sorting through large amounts of
data; and picking out pieces of relative
information or patterns that occur
e.g., picking out statistical information from some data.
A simple example of data mining is its use in a retail sales department. If a store tracks the purchases of
a customer and notices that a customer buys a lot of silk
shirts, the data mining system will
make a correlation between that customer
and silk shirts. The sales department will look at that
information and may begin direct mail marketing of silk shirts
to that customer,
or it may alternatively attempt to get the
customer to buy a wider range
of products. In this case, the data mining system used
by the retail store discovered new information about the customer that
was previously unknown to the
company. Another widely used (though
hypothetical) example is that of
a very large North American chain of supermarkets. Through intensive analysis of the transactions
and the goods
bought over a period of time, analysts found that beers and
diapers were often bought together.
Though explaining this interrelation might be difficult, taking advantage of it, on
the other hand, should not
be hard (e.g. placing the high-profit diapers next to the
high-profit beers). This technique
is often referred to as Market Basket Analysis.
In statistical analyses, in which there is no underlying
theoretical model, data mining is often
approximated via stepwise regression methods wherein the space of
2k possible relationships between a single outcome variable
and k potential explanatory variables is smartly searched. With the advent
of parallel computing, it became
possible (when k is less than
approximately 40) to
examine all 2k models. This procedure is called all
subsets or exhaustive regression. Some of the
first applications of exhaustive regression
involved the study of plant
data.
Notable uses of data mining
Data mining has been cited as the
method by which the U.S. Army
unit Able Danger supposedly had identified the 9/11 attack leader, Mohamed Atta, and three
other 9/11 hijackers as possible members of an al Qaeda
cell operating in the U.S. more than
a year before the attack.
• See also: Able Danger,
wikinews: U.S. Army intelligence had detected 9/11 terrorists year before, says officer.
• As is the case for economic models which successfully predict 10 of the last 3 recessions, one must of course know which other names came up on the "possible members" list before being confident this was not an exercise in data dredging.
La minería de Datos, también conocida
como el Descubrimiento - Conocimiento en Bases de datos (KDD), es el proceso
automáticamente para buscar los volúmenes grandes de datos para el modelo. La
minería de Datos es un tema bastante reciente y contemporáneo en la
informática. Sin embargo,
La minería de Datos puede ser definida como la extracción no trivial de contenido de información antes desconocida, y potencialmente útil de datos, también se puede definir como la ciencia de extraer la información útil de datos grandes en bases de datos. Aunque esto por lo general es usado en relación con el análisis de datos, la minería de datos como la inteligencia artificial, es un término del paraguas y es usado con el significado variado en una amplia gama de contextos. Esto por lo general es asociado con un negocio o la necesidad de otra organización de identificar tendencias. La minería de datos implica el proceso de analizar datos para mostrar el modelo o relaciones; las cantidades grandes que revisan de datos; y el elegir de los pedazos de información relativa o el modelo que ocurre por ejemplo, eligiendo la información estadística de algunos datos
Un ejemplo simple de minería de datos es su empleo en un departamento de venta al público. Si una tienda rastrea las compras de un cliente y nota que un cliente compra muchas camisas de seda, el sistema de minería de datos hará una correlación entre aquel cliente y las camisas de seda. El departamento de ventas mirará aquella información y puede comenzar el control de comercialización de correo directo de camisas de seda a aquel cliente, o esto o bien puede intentar conseguir al cliente para comprar una más amplia gama de productos. En este caso, el sistema de minería de datos usado a menudo por la tienda descubrió la información nueva sobre el cliente que era antes desconocido a la empresa. El otro extensamente usado (aunque hipotético) es el de una cadena norteamericana muy grande de supermercados. Con el análisis intensivo de las transacciones y de las mercancías compradas durante tiempo, los analistas encontraron que las cervezas y los pañales a menudo eran comprados juntos. Aunque la explicación de esta interrelación pudiera ser difícil, el aprovechamiento de ello, no debería ser difícil (por ejemplo la colocación de los pañales de beneficio alto al lado de las cervezas). Esta técnica se refiere a menudo como análisis de la cesta de mercado.
En los análisis estadísticos, en los cuales no hay modelo teórico subyacente, la minería de datos a menudo se aproxima a métodos de regresión graduales en el que el espacio de las relaciones posibles 2K entre una variable de resultado sola y el potencial de k variables explicativas que cuidadosamente son buscadas. Con la llegada de la informática paralela, esto se hizo posible (cuando la k es menos que aproximadamente 40) para examinar todos los Modelos 2K. Llaman a este procedimiento todos los subconjuntos o la regresión exhaustiva. Algunos de los primeros usos de regresión exhaustiva implicaron el estudio de datos de planta.
Aplicaciones notables de la minería de datos
La minería de datos ha sido
citada como el método por el que la unidad de ejército estadounidense detecto
el Peligro Capaz supuestamente había
identificado a líder del ataque de 9/11, Mohamed Atta, y tres otros secuestradores del 9/11 como miembros posibles de una célula de Qaeda del al que funcionaba en los ESTADOS UNIDOS un año
antes del ataque
Infografía
Texto Original: extraído de: http://en.wikipedia.org/wiki/Data_mining