INVESTIGACIÓN EN INTERNET
TEMA
TEXT CATEGORIZATION
Subtemas:
Automated text categorization
Preparado por: Nardys Canache y Neida Briceño.
INVESTIGACIÓN INTERNET |
1.- Machine
Learning In Automated Text Categorization. The
automated categorization (or classification) of texts into predefined
categories has witnessed a booming interest in the last 10 years, due to the
increased availability of documents in digital form and the ensuing need to
organize them. In the research community the dominant approach to this
problem is based on machine learning techniques: a general inductive process
automatically builds a classifier by learning, from a set of preclassified
documents, the characteristics of the categories. Traducción. La clasificación automatizada (o clasificación) de textos en categorías predefinidas ha atestiguado un interés en auge a los 10 años pasados, debido a la disponibilidad aumentada de documentos en forma digital y la necesidad consiguiente de organizarlos. En la comunidad de investigación, el acercamiento dominante a este problema es basado de estudio de técnicas en máquina: un proceso general inductivo automáticamente construye un clasificador por aprendiendo, de un juego de documentos preclasificados, las características de las categorías. |
2.-
Learning for Text Categorization.
The enormous growth of on-line information, has
led to a comparable growth in the need for methods that help users organize
such information. One area in particular that has seen much recent research
activity is the use of automated learning techniques to categorize text
documents. Such methods are useful for addressing problems including, but
not limited to: keyword tagging, word sense disambiguation, information
filtering and routing, sentence parsing, clustering of related documents and
classification of documents into pre-defined topics.
Traducción El crecimiento enorme de la información en línea, ha conducido a un crecimiento comparable en la necesidad de los métodos que ayudan a usuarios a organizar tal información. Un área en el detalle que ha considerado mucha actividad reciente de la investigación es el uso de las técnicas automatizadas el aprender de categorizar documentos del texto. Tales métodos son útiles para tratar problemas incluyendo, pero no limitado: el marcar con etiqueta de la palabra clave, desambiguación del sentido de la palabra, información que se filtra y que encamina, oración que analiza, arracimando de documentos relacionados y clasificación de documentos en asuntos predefinidos. |
3.- Automated Text Categorization. Automated
Text Categorization (ATC) is the task of building software tools capable of
classifying text (or hypertext) documents under predefined categories or
subject codes. ATC has witnessed a booming interest in recent times, due to
the availability of ever larger numbers of text documents in digital form
and to the ensuing need to organize them for easier use. The dominant
approach is nowadays one of building text classifiers automatically by
learning the characteristics of the categories from a training set of
pre-classified documents. State-of-the-art machine learning methods have
recently been applied to the task, leading to systems of increased
sophistication and effectiveness, and stably placing ATC at the crossroads
of information retrieval and machine learning. This has encouraged the
application of ATC techniques to novel domains, such as Web page
categorization under hierarchical catalogues, and spoken document
categorization. It also lead to the progressive adoption of automatic or
semi-automatic (i.e. interactive) classification systems in applicative
contexts where manual work was the rule. It is to be expected that progress
in ATC will bring about systems of increased cost-effectiveness and will
also constitute an important testbed for the technologies that are applied
to ATC.
Traducción
Clasificación Automatizada Del
Texto. La clasificación automatizada del texto (ATC) es la tarea de las
herramientas del softwares capaces de clasificar documentos del texto (o
hipertexto) bajo categorías o códigos sujetos predefinidos. El ATC ha
atestiguado un interés que crecía en las épocas recientes, debido a la
disponibilidad de números siempre más grandes de los documentos del texto en
forma digital y a la necesidad que sobrevenía de organizarlos para un uso
más fácil. El acercamiento dominante es hoy en día uno de clasificadores del
texto del edificio automáticamente aprendiendo las características de las
categorías de un sistema del entrenamiento de documentos preclasificados.
Los métodos avanzados el aprender de máquina se han aplicado recientemente a
la tarea, conduciendo a los sistemas de la sofisticación y de la eficacia
creciente, y poniendo estable el ATC en la encrucijada de la recuperación de
información y de aprender en máquina. Esto ha animado el uso de las técnicas
del ATC a los dominios de la categorización, tales como clasificación del
Web pagina debajo de catálogos jerárquicos, y la clasificación hablada del
documento. También conduce a la adopción progresiva (es decir de los
sistemas) de clasificación interactiva automáticos o semiautomáticos en
contextos aplicativos donde estaba la regla el trabajo manual. Debe esperar
que el progreso en el ATC causara sistemas de la rentabilidad creciente y
también constituirá un banco de pruebas importante para las tecnologías que
se aplican al ATC. http://mason.gmu.edu/~kersch/JIIS/Special_Issues/TextCategory.html |
4.-
Feature Preparation in Text Categorization.
Text categorization is a conventional classification problem
applied to the textual domain. It solves the problem of assigning text
content to predefined categories. As the volume of text content grows
continuously on-line and in corporate domains, text categorization, acting
as a way to organize the text content, becomes interesting not only from an
academic but also from an industrial point of view. A growing number of
statistical classification methods have been applied to text categorization
Traducción:
La clasificación de
texto es un problema de clasificación convencional aplicado al dominio
textual. Esto soluciona el problema de asignación del contenido de texto a
categorías predefinido. Como el volumen de contenido de texto cultiva
dominios continuamente en línea y en corporativos, clasificación de texto,
actuando como un camino organizar el contenido de texto, se hace interesante
no sólo de un académico pero también de un punto industrial de vista
(opinión). Un número creciente de métodos de clasificación estadística ha
sido aplicado a la clasificación de texto. http://64.233.161.104/search?q=cache:33aVyvvEIrcJ:www.oracle.com/technology/ products/text/pdf/feature_preparation.pdf+%22text+categorization%22&hl=es |
5.-
Text
Categorization with support vector machines:
Learning with Many Relevant. The goal of text categorization is the
classification of documents into a fixed number of predefined categories.
Each document can be in multiple, exactly one, or no category at all. Using
machine learning, the objective is to learn classifiers from examples which
perform the category assignments automatically. This is a supervised
learning problem. since categories may overlap, each category is treated as
a separate binary classification problem Traducción:
El objetivo de clasificación de
texto es la clasificación de documentos en un número fijo de categorías
predefinidas. Cada documento puede estar en múltiple, exactamente un, o
ninguna categoría en absoluto. Usando el estudio de máquina, el objetivo es
de aprender clasificadores de los ejemplos que realizan las asignaciones de
categoría automáticamente. Esto es un problema de estudio supervisado. Ya
que las categorías pueden traslapar, cada categoría es tratada como un
problema de clasificación separado binario
http://www.cs.cornell.edu/People/tj/publications/joachims_98a.pdf |
6.-
Practical Text Mining Solutions.
Costs and Benefits of
Automatic Text Categorization Automatic text categorization technologies
have matured to the point of being useful for many applications - assigning
documents to taxonomy topics, for example. In this half-day workshop, we
will take a pragmatic look at the promises and realities of text
categorization tools and technology. We will highlight the tradeoffs between
control and automation and the implications for different types of
applications. Traducción:
Gastos y las Ventajas de
clasificación automática de texto tecnologías de clasificación de texto
automáticas tienen madurado al punto de siendo usos útiles para muchos -
asignación de documentos a taxonomía temas, por ejemplo. En este taller de
media jornada, tomaremos mirar pragmático las promesas y la realidad de
instrumentos clasificación de texto y la tecnología, nosotros destacará las
compensaciones entre control y automatización y las implicaciones para tipos
diferentes de usos |
7.-
Do
Thesauri Enhance Rule-Based Categorization for OCR Text?
A
rule-based automatic text categorizer was tested to see if two types of
thesaurus expansion, called query expansion and Junker expansion
respectively, would improve categorization. Thesauri used were
domain-specific to an OCR test collection focused on a single topic. Results
show that neither type of expansion significantly improved categorization.
Automatic text categorizers are measured in terms of their “effectiveness.”
Effectiveness is typically defined using the contingency table model. In
this model, it is assumed that each document in a collection has been
assigned at least one category by an expert and that the expert’s decision
is correct
Traducción
En la
categorización automática de texto es medido en términos de su "eficacia".
La eficacia es típicamente enfocado (concentrado). el modelo de mesa de
contingencia. En este modelo, es asumido que cada documento en una colección
tiene utilización definida al menos una categoría por un experto y que la
decisión del experto es sido asignado.
http://64.233.179.104/search?q=cache:9pI8rJpjKXgJ:www.isri.unlv.edu/publications/isripub/ |
8.-
Automatic Text Categorization and Its Application to Text
Traducción
Clasificación
automática del texto y su uso a la recuperación del texto |
9.- Text
Categorization and Análisis. Automatic text categorization is the
primary language retrieval technology in content filtering for children.
Text categorization is the sorting of text into groups, such as pornography,
hate speech, violence, and unobjectionable content. A text categorizer looks
at a Web page and decides into which of these groups a piece of text should
fall. Applications of text categorization include filtering of e-mail, chat,
or Web access; text indexing; and data mining.
The
automation of text categorization requires some input from people. The idea
is to mimic what people do. Two parts of the task need to be automated. One
is the categorization decision itself. The categorization decision says, for
example, what we should do with a Web page. The second part to be automated
is rule creation. We want to determine automatically the rules to apply.
Traducción
La clasificación
automática de texto es la tecnología de recuperación de lengua primaria en
el contenido la filtración para niños. La clasificación de texto es la
clasificación de texto en grupos, como la pornografía, el discurso de odio,
la violencia, y el contenido inobjetable. La caracterización de texto
observa a una página de Web y decide en el que de estos grupos un pedazo de
texto debería caerse. Los usos de clasificación de texto incluyen la
filtración del correo electrónico, la charla, o el acceso de Web; incluir en
un índice de texto; y minería de datos. La automatización de clasificación
de texto requiere alguna entrada de la gente. La idea es de imitar lo que la
gente hace. Dos partes de la tarea tienen que ser automatizadas. Uno es la
decisión de clasificación sí mismo. La decisión de clasificación dice, por
ejemplo, que nosotros deberíamos hacer con una página de Web. La segunda
parte para ser automatizada es la creación de regla. Queremos determinar
automáticamente las reglas de aplicarse.
http://books.nap.edu/openbook/0309083265/html/5.html |
10.-
Automatic document classification
and indexing in high volume application.
In this paper a system for analysis and automatic indexing of imaged
documents for high-volume applications is described. This system, named
STRETCH (STorage and RETrieval by Content of imaged documents), is based on
an Archiving and Retrieval Engine, which overcomes the bottleneck of
document profiling bypassing some limitations of existing pre-defined
indexing schemes. The engine exploits a structured document representation
and can activate appropriate methods to characterize and automatically index
heterogeneous documents with variable layout. The originality of STRETCH
lies principally in the possibility for unskilled.
Traducción
En este papel un sistema para el
análisis y el incluir en un índice automático de documentos imagen para usos
de volumen grande es descrito. Este sistema, la EXTENSIÓN llamada (el
ALMACENAJE Y LA RECUPERACIÓN por el Contenido de documentos imagen), es
basado en un Archivar y el Motor de Recuperación, que vence el
embotellamiento de documento la evitación copiadora algunas limitaciones de
existir esquemas de incluir en un índice predefinidos. El motor explota una
representación de documento estructurada y puede activar métodos apropiados
de caracterizar y automáticamente incluir en un índice (indexar) documentos
heterogéneos con la disposición variable. La originalidad de EXTENSIÓN
miente(está) principalmente en la posibilidad para inexperto (no
cualificado). http://64.233.179.104/search?q=cache:IM-tPr7IrX0J:www.softlab.ntua.gr/ facilities/public/AD/Text%2520Categorization/
%22text+categorization+automatic%22&hl=es |
11.-
Automatic Categorization Of Magazine Articles. Automatic text
categorization is an important research area and has a potential for many
text-based applications including text routing and filtering. Typical text
classifiers learn from example texts that are manually categorized. In this
paper we discuss the categorization of magazine articles with broad subject
descriptors. We especially focus upon the following aspects of text
classification: effective selection of feature words and proper names that
reflect the main topics of the text, and training of text classifiers. The
c²
test, which is sometimes used for selecting terms that are highly related to
a text class, is applied in a novel way when constructing a category weight
vector. Despite a limited number of training examples, combining an
effective feature selection with the
c²
learning algorithm for training the text classifier results in a
satisfactory categorization of new magazine articles.
Traducción
La clasificación automática de
texto es un área de investigación importante y tiene un potencial para
muchos usos basados por texto que incluyen la encaminamiento de texto y la
filtración. Clasificadores típicos de texto aprenden de los textos, ejemplo
que son clasificados a mano. En este papel hablamos de la clasificación de
artículos de revista con amplios descriptores sustanciales. Sobre todo
enfocamos en los aspectos siguientes de clasificación de texto: la selección
eficaz de palabras de rasgo y los nombres propios que reflejan los temas
principales del texto, y la educación (el entrenamiento) de clasificadores
de texto. El ² la prueba, que a veces es usada para seleccionar los
términos (las condiciones) que sumamente son relacionados con una clase de
texto, es aplicado de un modo nuevo construyendo un peso de categoría
vector. A pesar de un número limitado de ejemplos que se entrenan,
combinando una selección de rasgo eficaz con el ² el estudio del algoritmo
para entrenar el clasificador de texto termina en una clasificación
satisfactoria de artículos nuevos de revista.
|
12.-
Automatic Text Categorization: Case Study
The
organization of text in categories allow the user to limit the target of a
search submitted to IRS, to explore the collection and to find relevant
information to they need with poor knowledge about the keywords of a theme. Traducción
La
clasificación de texto es un proceso de clasificar documentos con respeto a
un grupo de un o categorías más existentes según temas o el presente
(regalo) de conceptos en su contenido. El uso más común de ello está en
sistemas de la recuperación de información (IRS) al incluir en un índice de
documento. La organización de texto en categorías permite al usuario limitar
el objetivo de una búsqueda sometida a IRS, para explorar la colección y
encontrar la información relevante a ellos necesitan con el conocimiento
pobre sobre las palabras clave de un tema. http://csdl.computer.org/comp/proceedings/sbrn/2002/1709/00/17090150.pdf |
13.-
Automatic Text Categorization Using Neural Networks
Traducción
Este papel presenta los resultados
obtenidos de una serie de experimentos en la clasificación de texto
automática de artículos de MEDLINE. El objetivo principal de esta
investigación debe construir redes de los nervios y entrenarlos en la
asignación de frases en Red basadas en la frecuencia de término de palabras
solas del título y el extracto. Los experimentos comparan el funcionamiento
de una red de propagación contraria contra una propagación trasera de la red
de nervios. Los resultados obtenidos por usando un juego de 2,344 documentos
MEDLINE son presentados y hablados. http://www.informatics.buffalo.edu/faculty/ruiz/publications/sigcr97/sigcrfinal2.html |
14.-
Text
Representation for Automatic Text Categorization
Today's learning-based ATC systems are able to reach nearly human-being
performance in effectiveness for thematic classification, i.e. applications
in which categories are defined in terms of theme or topic (e.g. economics,
arts, etc.). However, there are a number of applications in which this model
is not so successful, mainly due to the fact that classification should not
be based on the semantics of a set of selected words, but also on other
stylistic text properties. These applications include genre detection,
authorship identification, pornographic Web content detection, spam e-mail
filtering, etc. Also, there are a number of approaches for increasing ATC
effectiveness focusing on a better modeling of text semantics, including the
utilization of less shallow text processing techniques (e.g. using phrases
or concepts instead of terms for representing/indexing text documents,
applying Information Extraction techniques for the identification of better
representation concepts, etc.).
Traducción
La
clasificación Automática de Texto (ATC), la asignación automática de
documentos de texto a clases predefinidas, es una lengua la tarea de la
ingeniería muy relevante a un número de usos, incluyendo el contenido
automático y la dirección de conocimiento en corporaciones y el Internet, el
acceso a la información y la filtración, etc. Con primeros trabajos que
remontan a los años 60, y el trabajo aumentado en el pasado decenio, hay
actualmente un modelo ATC sólido basado en la Información la Recuperación y
la Máquina Aprendiendo técnicas.
Hoy de día la
clasificación automática de texto son sistemas capaz de alcanzar con
eficacia la clasificación temática en usos de las categorías que son
definidas en términos de tema o el tema (por ejemplo la economía, artes,
etc.) . Sin embargo, hay un número de usos en los que este modelo no es tan
acertado, principalmente debido al hecho que la clasificación no debería ser
basada en la semántica de un juego de palabras seleccionadas, pero también
sobre otras propiedades de texto estilísticas.
Estos usos
incluyen la detección de género, la identificación de paternidad literario,
la detección pornográfica contenta de Web, la filtración del correo
electrónico, etc. También, hay un número de accesos para aumentar la
eficacia ATC que enfoca a un mejor modelado de semántica de texto, la
inclusión la utilización de texto bajo procesos técnicos (por ejemplo usando
frases o conceptos en vez de términos (condiciones) para representa /
incluye en un índice documentos de texto, aplicando la Información técnicas
de Extracción para la identificación de mejores conceptos de representación,
etc.). |
15.-
Automatic text categorization in terms of gente and author.
The rapid expansion of the World Wide Web (WWW) in recent years has resulted
in the creation of large volumes of text in electronic form. NLP
applications such as information retrieval and information extraction have
been developed to treat this information automatically. Since the Internet
is a very heterogeneous domain, these applications usually involve text
categorization tasks with the following desiderata:
Traducción
La extensión
rápida del World Wide Web (el WWW) en años recientes ha causado la
creación de volúmenes grandes de texto en la forma electrónica. NLP usos
como la recuperación de documentos y la extracción de la información han
sido desarrollados para tratar esta información automáticamente. Ya que el
Internet es un dominio muy heterogéneo, estos usos por lo general implican
tareas de clasificación de texto con desiderata siguiente: - Coste mínimo
computacional, - Capacidad de manejar verdadero - mundo (o sin restricción)
texto, - Facilidad de adaptación a un cierto dominio o uso o generalidad
para cubrir una amplia gama de dominios o uso. |
16.-
Automatic Text Categorization using the Importance of Sentences assigning Traducción
Clasificación Automática de Texto que usa la Importancia de Oraciones.
La clasificación automática de texto es un problema de
automáticamente para asignar categorías predefinidas de texto a documentos.
Para clasificar documentos de texto, debemos extraer rasgos buenos de ellos.
En la investigación anterior, un documento de texto comúnmente es
representado por la frecuencia de término y la frecuencia de documento
invertido de cada rasgo. Ya que hay una diferencia entre oraciones
importantes y oraciones sin importancia en un documento, los rasgos de
oraciones más importantes deberían ser considerados más que otros rasgos.
http://acl.ldc.upenn.edu/C/C02/C02-1103.pdf
|
17.-
Clasificación Automática de Texto que usa la Importancia de Oraciones La
clasificación automática de texto es un problema de automáticamente para
asignar categorías predefinidas de texto a documentos. Para clasificar
documentos de texto, debemos extraer rasgos buenos de ellos. En la
investigación anterior, un documento de texto comúnmente es representado por
la frecuencia de término y la frecuencia de documento invertido de cada
rasgo. Ya que hay una diferencia entre oraciones importantes y oraciones sin
importancia en un documento, los rasgos de oraciones más importantes
deberían ser considerados más que otros rasgos. |
18.-
Classification.
Classification (or categorization) is the process of assigning objects to a
set of predefined categories, where an object can belong to zero or more
categories. In this review we focus on text categorization, which is
the process of organizing a set of documents into categories. Example
applications include classifying web documents, news articles and
bookmarks. Text categorization has been extensively studied by the machine
learning community, as it is a classic example of a supervised learning
problem. This involves a computer "learning" a categorization function from
labeled training data provided by a supervisor. The function takes a
document and returns a set of categories to which it is likely to belong. It
is hoped that the categorizer's approximation of the function will improve
with the amount of training data supplied to it. There are many different
techniques and algorithms which have been used for text categorization.
Examples include:
|
19.-
Cross
Lingual Text Categorization.
Text
Categorization is an important but usually rather inconspicuous part of
document management and (more gererally) Knowledge Management. It is used in
many information-providing institutions, either in the form of a
hierarchical mono classification (“Where does thes document belong in our
topic hierarchy”) or as a multi-classification, assigning zero or more
keywords to the document, with the purpose of enhancing and simplifying
retrieval.
Automatic Text
Categorization techniques based on manually constructed class profiles have
shown that a high accuracy can be achieved, but the cost of manual profile
construction and maintenance is quite high. Automatic Text Categorization
systems based on supervised learning can reach a similar accuracy, so that
the semi automatic classification of monolingual documents is becoming
standard practice.
Traducción La clasificación de Texto es una parte importante pero por lo general bastante discreta de dirección de documento (y más gererally) la Dirección de Conocimiento. Esto es usado en muchas instituciones que proporcionan información, cualquiera en forma de una clasificación jerárquica mono (" Donde el documento pertenece en nuestra jerarquía de tema ") o como una multi-clasificación,
asignando el cero o más palabras
clave al documento, con el objetivo de realzar y la simplificación de la
recuperación. Técnicas de Clasificación Automática de Texto basadas en
perfiles de clase a mano construidos han mostrado que una exactitud alta
puede ser alcanzada, pero el coste de construcción de perfil manual y el
mantenimiento es bastante alto. Sistemas de Clasificación Automáticos de
Texto basados en el estudio supervisado pueden alcanzar una exactitud
similar, para que la clasificación semiautomática de documentos monolingües
se haga la práctica estándar. |
20.- Automatic
Categorization of
Text Within A Relational Database System.
This
paper describes a new approach to managing a stream of documents by
integrating a text categorization framework into a relational data base
management system. The document set discussed is also unique in that it is
based on informally structured submissions to a forum in learning
mathematics. The system has been tested using a K-Nearest Neighbour learner
built into the framework. The framework was integrated into a postgreSQL
database through the use of procedural trigger functions. The performance
results of the classifier are also discussed.
Traducción
Este papel describe un
acercamiento nuevo a la dirección de una corriente de documentos por
integrando un marco de clasificación de texto en un sistema de dirección de
base de datos emparentado. El documento se pone hablado está también único
en esto esto es basado en sumisiones de manera informal estructuradas a un
foro en el estudio de matemáticas. El sistema ha sido probado usando al
principiante Vecino Cercano de k incorporaron el marco. El marco fue
integrado en una base de datos postgreSQL por el empleo de funciones de
gatillo procesales. Los resultados de funcionamiento del clasificador
también son hablados. http://www.weg.ee.usyd.edu.au/people/rafa/openacs/drmathpaper.PDF |