UNIVERSIDAD YACAMBU
ESTUDIOS VIRTUALES
INFORMATICA APLICADA
ELABORADO POR: LUISA OCHOA
C.I: 7.142.068
TRADUCCION DE
TEXTO
Traducir
un texto en ingles sin modificar su sentido original.
TEXTO
SELECCIONADO EN INGLES
Data
Mining
Data
Mining is an
analytic process designed to explore data (usually large amounts of data -
typically business or market related) in search of consistent patterns and/or
systematic relationships between variables, and then to validate the findings
by applying the detected patterns to new subsets of data. The ultimate goal of
data mining is prediction - and predictive data mining is the most common type of data mining and one
that has the most direct business applications. The process of data mining
consists of three stages: (1) the initial exploration, (2) model building or
pattern identification with validation/verification, and (3) deployment (i.e., the application of the model to new
data in order to generate predictions).
Stage 1: Exploration. This stage usually starts with data preparation which may involve
cleaning data, data transformations, selecting subsets of records and - in case
of data sets with large numbers of variables ("fields") - performing
some preliminary feature selection operations to bring the number of variables to
a manageable range (depending on the statistical methods which are being
considered). Then, depending on the nature of the analytic problem, this first
stage of the process of data mining may involve anywhere between a simple
choice of straightforward predictors for a regression model, to elaborate
exploratory analyses using a wide variety of graphical and statistical methods
(see Exploratory Data Analysis (EDA)) in order to identify the most
relevant variables and determine the complexity and/or the general nature of
models that can be taken into account in the next stage.
Stage 2: Model building and validation. This stage involves considering various models
and choosing the best one based on their predictive performance (i.e.,
explaining the variability in question and producing stable results across
samples). This may sound like a simple operation, but in fact, it sometimes
involves a very elaborate process. There are a variety of techniques developed
to achieve that goal - many of which are based on so-called "competitive
evaluation of models," that is, applying different models to the same data
set and then comparing their performance to choose the best. These techniques -
which are often considered the core of predictive data mining - include: Bagging (Voting, Averaging), Boosting, Stacking (Stacked Generalizations), and Meta-Learning.
Stage 3: Deployment. That final stage involves using the model selected as best in the
previous stage and applying it to new data in order to generate predictions or
estimates of the expected outcome.
The
concept of Data Mining is becoming increasingly popular as a business
information management tool where it is expected to reveal knowledge structures
that can guide decisions in conditions of limited certainty. Recently, there
has been increased interest in developing new analytic techniques specifically
designed to address the issues relevant to business Data Mining (e.g., Classification Trees), but Data Mining is still based on the
conceptual principles of statistics including the traditional Exploratory Data Analysis (EDA) and modeling and it shares with
them both some components of its general approaches and specific techniques.
TRADUCCION EN
ESPAÑOL
Data Mining
La minería de datos es un proceso analítico diseñado para explorar los datos (por lo general grandes cantidades de datos - por lo general relacionados con el negocio o el mercado) en la búsqueda de patrones uniformes y/o sistemáticas de las relaciones entre las variables y, a continuación, a fin de validar los resultados mediante la aplicación de los detectados a las nuevas pautas de subconjuntos De los datos. El objetivo final de la minería de datos es la predicción - la predicción y la minería de datos es el tipo más común de minería de datos y uno que tiene la mayoría de las aplicaciones de negocio directo. El proceso de minería de datos consta de tres etapas: (1) la exploración inicial, (2) la creación de modelos o patrones de identificación con la validación o verificación, y (3) el despliegue (es decir, la aplicación del modelo a los nuevos datos con el fin de generar Predicciones).
Fase 1: Exploración. Esta etapa generalmente comienza con la preparación de datos que puedan implicar la limpieza de datos, transformación de datos, la selección de subconjuntos de los registros y, en caso de los conjuntos de datos con un gran número de variables ( "campos") - realizando tareas de selección preliminar característica de las operaciones Llevar el número de variables a una serie manejable (en función de los métodos estadísticos que se están considerando). Luego, dependiendo de la naturaleza del problema analítico, de esta primera etapa del proceso de minería de datos puede incluir en cualquier lugar entre una simple elección de los predictores de un sencillo modelo de regresión, de elaborar análisis exploratorios usando una gran variedad de gráficas y de los métodos estadísticos (véase Análisis Exploratorio de Datos (EDA)) a fin de identificar los elementos más pertinentes de las variables y determinar la complejidad y / o el carácter general de los modelos que se pueden tomar en cuenta en la próxima etapa.
Fase 2: Modelo de la construcción y validación. Esta etapa implica considerar varios modelos y elegir la mejor predicción sobre la base de su rendimiento (es decir, que explica la variabilidad de la producción de que se trate y estable a través de los resultados de las muestras). Esto puede sonar como una simple operación, pero de hecho, a veces implica un proceso muy elaborado. Hay una variedad de técnicas desarrolladas para lograr ese objetivo de muchas de las cuales se basan en la llamada "evaluación de los modelos de la competencia", es decir, la aplicación de diferentes modelos de la misma serie de datos y, a continuación, comparan sus resultados para elegir el mejor. Estas técnicas, que a menudo se considera el núcleo de la minería de datos de predicción son: Bolsas (Voting, promediado), Impulso, de apilamiento (Stacked Generalizations), y Meta - Learning.
Fase 3: Despliegue. Esa fase final consistirá en utilizar el modelo seleccionado como el mejor en la etapa anterior y su aplicación a los nuevos datos con el fin de generar predicciones o estimaciones de los resultados previstos.
El concepto de Data Mining es cada vez más populares como una herramienta de gestión de la información empresarial en el que se espera que revelen las estructuras de conocimiento que puede orientar las decisiones en condiciones de certeza limitado. Recientemente, ha habido un creciente interés en el desarrollo de nuevas técnicas de análisis específicamente diseñados para abordar las cuestiones pertinentes a las empresas Data Mining (por ejemplo, Árboles de Clasificación), Data Mining, pero aún se basan en principios conceptuales de las estadísticas incluidas las tradicionales de análisis de datos exploratorio (EDA ) Y la creación de modelos y comparte con ellos algunos de los componentes tanto de sus planteamientos generales y técnicas específicas.