Buenas tardes, estimados participantes:

UNIVERSIDAD YACAMBU

ESTUDIOS VIRTUALES

INFORMATICA APLICADA

ELABORADO POR: LUISA OCHOA

C.I: 7.142.068

TRADUCCION DE TEXTO

Traducir un texto en ingles sin modificar su sentido original.

TEXTO SELECCIONADO EN INGLES

Data Mining

Data Mining is an analytic process designed to explore data (usually large amounts of data - typically business or market related) in search of consistent patterns and/or systematic relationships between variables, and then to validate the findings by applying the detected patterns to new subsets of data. The ultimate goal of data mining is prediction - and predictive data mining is the most common type of data mining and one that has the most direct business applications. The process of data mining consists of three stages: (1) the initial exploration, (2) model building or pattern identification with validation/verification, and (3) deployment (i.e., the application of the model to new data in order to generate predictions).

Stage 1: Exploration. This stage usually starts with data preparation which may involve cleaning data, data transformations, selecting subsets of records and - in case of data sets with large numbers of variables ("fields") - performing some preliminary feature selection operations to bring the number of variables to a manageable range (depending on the statistical methods which are being considered). Then, depending on the nature of the analytic problem, this first stage of the process of data mining may involve anywhere between a simple choice of straightforward predictors for a regression model, to elaborate exploratory analyses using a wide variety of graphical and statistical methods (see Exploratory Data Analysis (EDA)) in order to identify the most relevant variables and determine the complexity and/or the general nature of models that can be taken into account in the next stage.

Stage 2: Model building and validation. This stage involves considering various models and choosing the best one based on their predictive performance (i.e., explaining the variability in question and producing stable results across samples). This may sound like a simple operation, but in fact, it sometimes involves a very elaborate process. There are a variety of techniques developed to achieve that goal - many of which are based on so-called "competitive evaluation of models," that is, applying different models to the same data set and then comparing their performance to choose the best. These techniques - which are often considered the core of predictive data mining - include: Bagging (Voting, Averaging), Boosting, Stacking (Stacked Generalizations), and Meta-Learning.

Stage 3: Deployment. That final stage involves using the model selected as best in the previous stage and applying it to new data in order to generate predictions or estimates of the expected outcome.

The concept of Data Mining is becoming increasingly popular as a business information management tool where it is expected to reveal knowledge structures that can guide decisions in conditions of limited certainty. Recently, there has been increased interest in developing new analytic techniques specifically designed to address the issues relevant to business Data Mining (e.g., Classification Trees), but Data Mining is still based on the conceptual principles of statistics including the traditional Exploratory Data Analysis (EDA) and modeling and it shares with them both some components of its general approaches and specific techniques.

TRADUCCION EN ESPAÑOL

Data Mining

Data MiningLa minería de datos es un proceso analítico diseñado para explorar los datos (por lo general grandes cantidades de datos - por lo general relacionados con el negocio o el mercado) en la búsqueda de patrones uniformes y/o sistemáticas de las relaciones entre las variables y, a continuación, a fin de validar los resultados mediante la aplicación de los detectados a las nuevas pautas de subconjuntos De los datos. El objetivo final de la minería de datos es la predicción - la predicción y la minería de datos es el tipo más común de minería de datos y uno que tiene la mayoría de las aplicaciones de negocio directo. El proceso de minería de datos consta de tres etapas: (1) la exploración inicial, (2) la creación de modelos o patrones de identificación con la validación o verificación, y (3) el despliegue (es decir, la aplicación del modelo a los nuevos datos con el fin de generar Predicciones).

Stage 1: Exploration.Fase 1: Exploración. Esta etapa generalmente comienza con la preparación de datos que puedan implicar la limpieza de datos, transformación de datos, la selección de subconjuntos de los registros y, en caso de los conjuntos de datos con un gran número de variables ( "campos") - realizando tareas de selección preliminar característica de las operaciones Llevar el número de variables a una serie manejable (en función de los métodos estadísticos que se están considerando). Luego, dependiendo de la naturaleza del problema analítico, de esta primera etapa del proceso de minería de datos puede incluir en cualquier lugar entre una simple elección de los predictores de un sencillo modelo de regresión, de elaborar análisis exploratorios usando una gran variedad de gráficas y de los métodos estadísticos (véase Análisis Exploratorio de Datos (EDA)) a fin de identificar los elementos más pertinentes de las variables y determinar la complejidad y / o el carácter general de los modelos que se pueden tomar en cuenta en la próxima etapa.

Stage 2: Model building and validation.Fase 2: Modelo de la construcción y validación. Esta etapa implica considerar varios modelos y elegir la mejor predicción sobre la base de su rendimiento (es decir, que explica la variabilidad de la producción de que se trate y estable a través de los resultados de las muestras). Esto puede sonar como una simple operación, pero de hecho, a veces implica un proceso muy elaborado. Hay una variedad de técnicas desarrolladas para lograr ese objetivo de muchas de las cuales se basan en la llamada "evaluación de los modelos de la competencia", es decir, la aplicación de diferentes modelos de la misma serie de datos y, a continuación, comparan sus resultados para elegir el mejor. Estas técnicas, que a menudo se considera el núcleo de la minería de datos de predicción son: Bolsas (Voting, promediado), Impulso, de apilamiento (Stacked Generalizations), y Meta - Learning.

Stage 3: Deployment.Fase 3: Despliegue. Esa fase final consistirá en utilizar el modelo seleccionado como el mejor en la etapa anterior y su aplicación a los nuevos datos con el fin de generar predicciones o estimaciones de los resultados previstos.

El concepto de Data Mining es cada vez más populares como una herramienta de gestión de la información empresarial en el que se espera que revelen las estructuras de conocimiento que puede orientar las decisiones en condiciones de certeza limitado. Recientemente, ha habido un creciente interés en el desarrollo de nuevas técnicas de análisis específicamente diseñados para abordar las cuestiones pertinentes a las empresas Data Mining (por ejemplo, Árboles de Clasificación), Data Mining, pero aún se basan en principios conceptuales de las estadísticas incluidas las tradicionales de análisis de datos exploratorio (EDA ) Y la creación de modelos y comparte con ellos algunos de los componentes tanto de sus planteamientos generales y técnicas específicas.