INVESTIGACIÓN EN INTERNET

INVESTIGACIÓN EN INTERNET

Grupo número 2

TEMA

TEXT CATEGORIZATION

Subtemas:

Automated text categorization

Preparado por: Nardys Canache y Neida Briceño.

INVESTIGACIÓN INTERNET

1.- Machine Learning In Automated Text Categorization. The automated categorization (or classification) of texts into predefined categories has witnessed a booming interest in the last 10 years, due to the increased availability of documents in digital form and the ensuing need to organize them. In the research community the dominant approach to this problem is based on machine learning techniques: a general inductive process automatically builds a classifier by learning, from a set of preclassified documents, the characteristics of the categories.

Traducción. La clasificación automatizada (o clasificación) de textos en categorías predefinidas ha atestiguado un interés en auge a los 10 años pasados, debido a la disponibilidad aumentada de documentos en forma digital y la necesidad consiguiente de organizarlos. En la comunidad de investigación, el acercamiento dominante a este problema es basado de estudio de técnicas en máquina: un proceso general inductivo automáticamente construye un clasificador por aprendiendo, de un juego de documentos preclasificados, las características de las categorías.

http://64.233.161.104/search?q=cache:Ur_2k0fhsboJ:www.isti.cnr.it/People/F.Sebastiani/Publications/ACMCS02.pdf+%22text+categorization%22&hl=es

2.- Learning for Text Categorization. The enormous growth of on-line information, has led to a comparable growth in the need for methods that help users organize such information. One area in particular that has seen much recent research activity is the use of automated learning techniques to categorize text documents. Such methods are useful for addressing problems including, but not limited to: keyword tagging, word sense disambiguation, information filtering and routing, sentence parsing, clustering of related documents and classification of documents into pre-defined topics.

Traducción

El crecimiento enorme de la información en línea, ha conducido a un crecimiento comparable en la necesidad de los métodos que ayudan a usuarios a organizar tal información. Un área en el detalle que ha considerado mucha actividad reciente de la investigación es el uso de las técnicas automatizadas el aprender de categorizar documentos del texto. Tales métodos son útiles para tratar problemas incluyendo, pero no limitado: el marcar con etiqueta de la palabra clave, desambiguación del sentido de la palabra, información que se filtra y que encamina, oración que analiza, arracimando de documentos relacionados y clasificación de documentos en asuntos predefinidos.

http://www-2.cs.cmu.edu/~mccallum/textcat.htm

3.- Automated Text Categorization. Automated Text Categorization (ATC) is the task of building software tools capable of classifying text (or hypertext) documents under predefined categories or subject codes. ATC has witnessed a booming interest in recent times, due to the availability of ever larger numbers of text documents in digital form and to the ensuing need to organize them for easier use. The dominant approach is nowadays one of building text classifiers automatically by learning the characteristics of the categories from a training set of pre-classified documents. State-of-the-art machine learning methods have recently been applied to the task, leading to systems of increased sophistication and effectiveness, and stably placing ATC at the crossroads of information retrieval and machine learning. This has encouraged the application of ATC techniques to novel domains, such as Web page categorization under hierarchical catalogues, and spoken document categorization. It also lead to the progressive adoption of automatic or semi-automatic (i.e. interactive) classification systems in applicative contexts where manual work was the rule. It is to be expected that progress in ATC will bring about systems of increased cost-effectiveness and will also constitute an important testbed for the technologies that are applied to ATC.

Traducción

Clasificación Automatizada Del Texto. La clasificación automatizada del texto (ATC) es la tarea de las herramientas del softwares capaces de clasificar documentos del texto (o hipertexto) bajo categorías o códigos sujetos predefinidos. El ATC ha atestiguado un interés que crecía en las épocas recientes, debido a la disponibilidad de números siempre más grandes de los documentos del texto en forma digital y a la necesidad que sobrevenía de organizarlos para un uso más fácil. El acercamiento dominante es hoy en día uno de clasificadores del texto del edificio automáticamente aprendiendo las características de las categorías de un sistema del entrenamiento de documentos preclasificados. Los métodos avanzados el aprender de máquina se han aplicado recientemente a la tarea, conduciendo a los sistemas de la sofisticación y de la eficacia creciente, y poniendo estable el ATC en la encrucijada de la recuperación de información y de aprender en máquina. Esto ha animado el uso de las técnicas del ATC a los dominios de la categorización, tales como clasificación del Web pagina debajo de catálogos jerárquicos, y la clasificación hablada del documento. También conduce a la adopción progresiva (es decir de los sistemas) de clasificación interactiva automáticos o semiautomáticos en contextos aplicativos donde estaba la regla el trabajo manual. Debe esperar que el progreso en el ATC causara sistemas de la rentabilidad creciente y también constituirá un banco de pruebas importante para las tecnologías que se aplican al ATC.

http://mason.gmu.edu/~kersch/JIIS/Special_Issues/TextCategory.html

4.- Feature Preparation in Text Categorization. Text categorization is a conventional classification problem applied to the textual domain. It solves the problem of assigning text content to predefined categories. As the volume of text content grows continuously on-line and in corporate domains, text categorization, acting as a way to organize the text content, becomes interesting not only from an academic but also from an industrial point of view. A growing number of statistical classification methods have been applied to text categorization

Traducción:

La clasificación de texto es un problema de clasificación convencional aplicado al dominio textual. Esto soluciona el problema de asignación del contenido de texto a categorías predefinido. Como el volumen de contenido de texto cultiva dominios continuamente en línea y en corporativos, clasificación de texto, actuando como un camino organizar el contenido de texto, se hace interesante no sólo de un académico pero también de un punto industrial de vista (opinión). Un número creciente de métodos de clasificación estadística ha sido aplicado a la clasificación de texto.

http://64.233.161.104/search?q=cache:33aVyvvEIrcJ:www.oracle.com/technology/

products/text/pdf/feature_preparation.pdf+%22text+categorization%22&hl=es

5.- Text Categorization with support vector machines: Learning with Many Relevant. The goal of text categorization is the classification of documents into a fixed number of predefined categories. Each document can be in multiple, exactly one, or no category at all. Using machine learning, the objective is to learn classifiers from examples which perform the category assignments automatically. This is a supervised learning problem. since categories may overlap, each category is treated as a separate binary classification problem.

Traducción:

El objetivo de clasificación de texto es la clasificación de documentos en un número fijo de categorías predefinidas. Cada documento puede estar en múltiple, exactamente un, o ninguna categoría en absoluto. Usando el estudio de máquina, el objetivo es de aprender clasificadores de los ejemplos que realizan las asignaciones de categoría automáticamente. Esto es un problema de estudio supervisado. Ya que las categorías pueden traslapar, cada categoría es tratada como un problema de clasificación separado binario .

http://www.cs.cornell.edu/People/tj/publications/joachims_98a.pdf

6.- Practical Text Mining Solutions. Costs and Benefits of Automatic Text Categorization Automatic text categorization technologies have matured to the point of being useful for many applications - assigning documents to taxonomy topics, for example. In this half-day workshop, we will take a pragmatic look at the promises and realities of text categorization tools and technology. We will highlight the tradeoffs between control and automation and the implications for different types of applications.

Traducción:

Gastos y las Ventajas de clasificación automática de texto tecnologías de clasificación de texto automáticas tienen madurado al punto de siendo usos útiles para muchos - asignación de documentos a taxonomía temas, por ejemplo. En este taller de media jornada, tomaremos mirar pragmático las promesas y la realidad de instrumentos clasificación de texto y la tecnología, nosotros destacará las compensaciones entre control y automatización y las implicaciones para tipos diferentes de usos

http://64.233.179.104/search?q=cache:hNKopSAr65MJ:www.avaquest.com/brochures/AvaQuest_Train.pdf+%22text+categorization+automatic%22&hl=es

7.- Do Thesauri Enhance Rule-Based Categorization for OCR Text? A rule-based automatic text categorizer was tested to see if two types of thesaurus expansion, called query expansion and Junker expansion respectively, would improve categorization. Thesauri used were domain-specific to an OCR test collection focused on a single topic. Results show that neither type of expansion significantly improved categorization. Automatic text categorizers are measured in terms of their “effectiveness.” Effectiveness is typically defined using the contingency table model. In this model, it is assumed that each document in a collection has been assigned at least one category by an expert and that the expert’s decision is correct

Traducción

En la categorización automática de texto es medido en términos de su "eficacia". La eficacia es típicamente enfocado (concentrado). el modelo de mesa de contingencia. En este modelo, es asumido que cada documento en una colección tiene utilización definida al menos una categoría por un experto y que la decisión del experto es sido asignado.

http://64.233.179.104/search?q=cache:9pI8rJpjKXgJ:www.isri.unlv.edu/publications/isripub/

Taghva2003a.pdf+%22text+categorization+automatic%22&hl=es

8.- Automatic Text Categorization and Its Application to Text. We develop an automatic text categorization approach and investigate its application to text retrieval. The categorization approach is derived from a combination of a learning paradigm known as instance-based learning and an advanced document retrieval technique known as retrieval feedback. We demonstrate the effectiveness of our categorization approach using two real-world document collections from the MEDLINE database. Next, we investigate the application of automatic categorization to text retrieval. Our experiments clearly indicate that automatic categorization improves the retrieval performance compared with no categorization. We also demonstrate that the retrieval performance using automatic categorization achieves the same retrieval quality as the performance using manual categorization. Furthermore, detailed analysis of the retrieval performance on each individual test query is provided.

Traducción

Clasificación automática del texto y su uso a la recuperación del texto. La clasificación del texto se ha convertido en recientemente un asunto activo de la investigación en el área de la recuperación de datos. El objetivo de la clasificación del texto es asignar entradas de un sistema de categorías especificadas primero a un documento. Un documento aquí refiere a un pedazo de texto. Las categorías se pueden derivar de un esquema escaso de la clasificación o de una colección grandes contextos identificadores muy específicos. Las categorías se pueden expresar numéricamente o como frases y palabras individuales. Esta tarea de la clasificación es realizada tradicionalmente manualmente por los expertos del dominio. Se lee cada documento entrante y comprendido por el experto y entonces él se asigna un número de categorías elegidas del sistema de categorías especificadas primero. Todos los esfuerzos recientes en la clasificación automática del texto se han centrado en la tarea de la clasificación solamente. Un uso útil para la clasificación automática es apoyar la recuperación eficaz del texto. Aparte de estudiar la eficacia de la clasificación automática directamente, el segundo objetivo de este papel es investigar el uso de este proceso de la clasificación a la recuperación del texto. En detalle, deseamos estudiar si las categorías automáticamente asignadas mejorarán el funcionamiento en la recuperación comparado sin la clasificación. También investigamos si la clasificación automática no mejorará, reducirá o tendrá ningún efecto en el funcionamiento de la recuperación alcanzado usando la clasificación manual. Además, analizamos el funcionamiento de la recuperación en base de cada pregunta de la prueba individual para ganar la penetración en la interacción de nuestra clasificación automática y nuestra recuperación del texto se acerca.

http://csdl.computer.org/comp/trans/tk/1999/06/k0865abs.htm

9.- Text Categorization and Análisis. Automatic text categorization is the primary language retrieval technology in content filtering for children. Text categorization is the sorting of text into groups, such as pornography, hate speech, violence, and unobjectionable content. A text categorizer looks at a Web page and decides into which of these groups a piece of text should fall. Applications of text categorization include filtering of e-mail, chat, or Web access; text indexing; and data mining.

The automation of text categorization requires some input from people. The idea is to mimic what people do. Two parts of the task need to be automated. One is the categorization decision itself. The categorization decision says, for example, what we should do with a Web page. The second part to be automated is rule creation. We want to determine automatically the rules to apply.

Traducción

La clasificación automática de texto es la tecnología de recuperación de lengua primaria en el contenido la filtración para niños. La clasificación de texto es la clasificación de texto en grupos, como la pornografía, el discurso de odio, la violencia, y el contenido inobjetable. La caracterización de texto observa a una página de Web y decide en el que de estos grupos un pedazo de texto debería caerse. Los usos de clasificación de texto incluyen la filtración del correo electrónico, la charla, o el acceso de Web; incluir en un índice de texto; y minería de datos. La automatización de clasificación de texto requiere alguna entrada de la gente. La idea es de imitar lo que la gente hace. Dos partes de la tarea tienen que ser automatizadas. Uno es la decisión de clasificación sí mismo. La decisión de clasificación dice, por ejemplo, que nosotros deberíamos hacer con una página de Web. La segunda parte para ser automatizada es la creación de regla. Queremos determinar automáticamente las reglas de aplicarse.

http://books.nap.edu/openbook/0309083265/html/5.html

10.- Automatic document classification and indexing in high volume application. In this paper a system for analysis and automatic indexing of imaged documents for high-volume applications is described. This system, named STRETCH (STorage and RETrieval by Content of imaged documents), is based on an Archiving and Retrieval Engine, which overcomes the bottleneck of document profiling bypassing some limitations of existing pre-defined indexing schemes. The engine exploits a structured document representation and can activate appropriate methods to characterize and automatically index heterogeneous documents with variable layout. The originality of STRETCH lies principally in the possibility for unskilled.

Traducción

En este papel un sistema para el análisis y el incluir en un índice automático de documentos imagen para usos de volumen grande es descrito. Este sistema, la EXTENSIÓN llamada (el ALMACENAJE Y LA RECUPERACIÓN por el Contenido de documentos imagen), es basado en un Archivar y el Motor de Recuperación, que vence el embotellamiento de documento la evitación copiadora algunas limitaciones de existir esquemas de incluir en un índice predefinidos. El motor explota una representación de documento estructurada y puede activar métodos apropiados de caracterizar y automáticamente incluir en un índice (indexar) documentos heterogéneos con la disposición variable. La originalidad de EXTENSIÓN miente(está) principalmente en la posibilidad para inexperto (no cualificado).

http://64.233.179.104/search?q=cache:IM-tPr7IrX0J:www.softlab.ntua.gr/

facilities/public/AD/Text%2520Categorization/

Automatic%2520document%2520classification%2520and%2520indexing%2520in%2520high-volume%2520applications.pdf+

%22text+categorization+automatic%22&hl=es

11.- Automatic Categorization Of Magazine Articles. Automatic text categorization is an important research area and has a potential for many text-based applications including text routing and filtering. Typical text classifiers learn from example texts that are manually categorized. In this paper we discuss the categorization of magazine articles with broad subject descriptors. We especially focus upon the following aspects of text classification: effective selection of feature words and proper names that reflect the main topics of the text, and training of text classifiers. The c² test, which is sometimes used for selecting terms that are highly related to a text class, is applied in a novel way when constructing a category weight vector. Despite a limited number of training examples, combining an effective feature selection with the c² learning algorithm for training the text classifier results in a satisfactory categorization of new magazine articles.

Traducción

La clasificación automática de texto es un área de investigación importante y tiene un potencial para muchos usos basados por texto que incluyen la encaminamiento de texto y la filtración. Clasificadores típicos de texto aprenden de los textos, ejemplo que son clasificados a mano. En este papel hablamos de la clasificación de artículos de revista con amplios descriptores sustanciales. Sobre todo enfocamos en los aspectos siguientes de clasificación de texto: la selección eficaz de palabras de rasgo y los nombres propios que reflejan los temas principales del texto, y la educación (el entrenamiento) de clasificadores de texto. El ² la prueba, que a veces es usada para seleccionar los términos (las condiciones) que sumamente son relacionados con una clase de texto, es aplicado de un modo nuevo construyendo un peso de categoría vector. A pesar de un número limitado de ejemplos que se entrenan, combinando una selección de rasgo eficaz con el ² el estudio del algoritmo para entrenar el clasificador de texto termina en una clasificación satisfactoria de artículos nuevos de revista.

http://wwwis.win.tue.nl/infwet99/proceedings/moens.html

12.- Automatic Text Categorization: Case Study. Text categorization is a process of classifying documents with regard to a group of one or more existent categories according to themes or concepts present in their contents. The most common application of it is in information retrieval Systems (IRS) to document indexing.

The organization of text in categories allow the user to limit the target of a search submitted to IRS, to explore the collection and to find relevant information to they need with poor knowledge about the keywords of a theme.

Traducción

La clasificación de texto es un proceso de clasificar documentos con respeto a un grupo de un o categorías más existentes según temas o el presente (regalo) de conceptos en su contenido. El uso más común de ello está en sistemas de la recuperación de información (IRS) al incluir en un índice de documento. La organización de texto en categorías permite al usuario limitar el objetivo de una búsqueda sometida a IRS, para explorar la colección y encontrar la información relevante a ellos necesitan con el conocimiento pobre sobre las palabras clave de un tema.

http://csdl.computer.org/comp/proceedings/sbrn/2002/1709/00/17090150.pdf

13.- Automatic Text Categorization Using Neural Networks. This paper presents the results obtained from a series of experiments in automatic text categorization of MEDLINE articles. The main goal of this research is to build neural networks and to train them in assigning MeSH phrases based on term frequency of single words from title and abstract. The experiments compare the performance of a counter propagation network against a back propagation neural network. Results obtained by using a set of 2,344 MEDLINE documents are presented and discussed.

Traducción

Este papel presenta los resultados obtenidos de una serie de experimentos en la clasificación de texto automática de artículos de MEDLINE. El objetivo principal de esta investigación debe construir redes de los nervios y entrenarlos en la asignación de frases en Red basadas en la frecuencia de término de palabras solas del título y el extracto. Los experimentos comparan el funcionamiento de una red de propagación contraria contra una propagación trasera de la red de nervios. Los resultados obtenidos por usando un juego de 2,344 documentos MEDLINE son presentados y hablados.

http://www.informatics.buffalo.edu/faculty/ruiz/publications/sigcr97/sigcrfinal2.html

14.- Text Representation for Automatic Text Categorization. Automatic Text Categorization (ATC), the automatic assignment of text documents to predefined classes, is a language engineering task very relevant to a number of applications, including automatic content and knowledge management in corporations and the Internet, information access and filtering, etc. With first works dating back to 60's, and increased work in the last decade, there is currently a ATC solid model based on Information Retrieval and Machine Learning techniques.

Today's learning-based ATC systems are able to reach nearly human-being performance in effectiveness for thematic classification, i.e. applications in which categories are defined in terms of theme or topic (e.g. economics, arts, etc.). However, there are a number of applications in which this model is not so successful, mainly due to the fact that classification should not be based on the semantics of a set of selected words, but also on other stylistic text properties. These applications include genre detection, authorship identification, pornographic Web content detection, spam e-mail filtering, etc. Also, there are a number of approaches for increasing ATC effectiveness focusing on a better modeling of text semantics, including the utilization of less shallow text processing techniques (e.g. using phrases or concepts instead of terms for representing/indexing text documents, applying Information Extraction techniques for the identification of better representation concepts, etc.).

Traducción

La clasificación Automática de Texto (ATC), la asignación automática de documentos de texto a clases predefinidas, es una lengua la tarea de la ingeniería muy relevante a un número de usos, incluyendo el contenido automático y la dirección de conocimiento en corporaciones y el Internet, el acceso a la información y la filtración, etc. Con primeros trabajos que remontan a los años 60, y el trabajo aumentado en el pasado decenio, hay actualmente un modelo ATC sólido basado en la Información la Recuperación y la Máquina Aprendiendo técnicas.

Hoy de día la clasificación automática de texto son sistemas capaz de alcanzar con eficacia la clasificación temática en usos de las categorías que son definidas en términos de tema o el tema (por ejemplo la economía, artes, etc.) . Sin embargo, hay un número de usos en los que este modelo no es tan acertado, principalmente debido al hecho que la clasificación no debería ser basada en la semántica de un juego de palabras seleccionadas, pero también sobre otras propiedades de texto estilísticas.

Estos usos incluyen la detección de género, la identificación de paternidad literario, la detección pornográfica contenta de Web, la filtración del correo electrónico, etc. También, hay un número de accesos para aumentar la eficacia ATC que enfoca a un mejor modelado de semántica de texto, la inclusión la utilización de texto bajo procesos técnicos (por ejemplo usando frases o conceptos en vez de términos (condiciones) para representa / incluye en un índice documentos de texto, aplicando la Información técnicas de Extracción para la identificación de mejores conceptos de representación, etc.).

http://thor.info.uaic.ro/~dcristea/eacl2003-tutorials/Gomez

15.- Automatic text categorization in terms of gente and author. The rapid expansion of the World Wide Web (WWW) in recent years has resulted in the creation of large volumes of text in electronic form. NLP applications such as information retrieval and information extraction have been developed to treat this information automatically. Since the Internet is a very heterogeneous domain, these applications usually involve text categorization tasks with the following desiderata: Minimal computational cost, Ability to handle real – world (or unrestricted) text, and Either ease of adaptation to a certain domain or application or generality in order to cover a wide range of domains or application.

Traducción

La extensión rápida del World Wide Web (el WWW) en años recientes ha causado la creación de volúmenes grandes de texto en la forma electrónica. NLP usos como la recuperación de documentos y la extracción de la información han sido desarrollados para tratar esta información automáticamente. Ya que el Internet es un dominio muy heterogéneo, estos usos por lo general implican tareas de clasificación de texto con desiderata siguiente: - Coste mínimo computacional, - Capacidad de manejar verdadero - mundo (o sin restricción) texto, - Facilidad de adaptación a un cierto dominio o uso o generalidad para cubrir una amplia gama de dominios o uso.

http://acl.ldc.upenn.edu//J/J00/J00-4001.pdf

16.- Automatic Text Categorization using the Importance of Sentences assigning. Automatic text categorization is a problem of automatically text documents to predefined categories. In order to classify text documents, we must extract good features from them. In previous research, a text document is commonly represented by the term frequency and the inverted document frequency of each feature. Since there is a difference between important sentences and unimportant sentences in a document, the features from more important sentences should be considered more than other features.

Traducción

Clasificación Automática de Texto que usa la Importancia de Oraciones. La clasificación automática de texto es un problema de automáticamente para asignar categorías predefinidas de texto a documentos. Para clasificar documentos de texto, debemos extraer rasgos buenos de ellos. En la investigación anterior, un documento de texto comúnmente es representado por la frecuencia de término y la frecuencia de documento invertido de cada rasgo. Ya que hay una diferencia entre oraciones importantes y oraciones sin importancia en un documento, los rasgos de oraciones más importantes deberían ser considerados más que otros rasgos.

http://acl.ldc.upenn.edu/C/C02/C02-1103.pdf

17.- Clasificación Automática de Texto que usa la Importancia de Oraciones La clasificación automática de texto es un problema de automáticamente para asignar categorías predefinidas de texto a documentos. Para clasificar documentos de texto, debemos extraer rasgos buenos de ellos. En la investigación anterior, un documento de texto comúnmente es representado por la frecuencia de término y la frecuencia de documento invertido de cada rasgo. Ya que hay una diferencia entre oraciones importantes y oraciones sin importancia en un documento, los rasgos de oraciones más importantes deberían ser considerados más que otros rasgos.

http://acl.ldc.upenn.edu/C/C02/C02-1103.pdf

18.- Classification. Classification (or categorization) is the process of assigning objects to a set of predefined categories, where an object can belong to zero or more categories. In this review we focus on text categorization, which is the process of organizing a set of documents into categories. Example applications include classifying web documents, news articles and bookmarks. Text categorization has been extensively studied by the machine learning community, as it is a classic example of a supervised learning problem. This involves a computer "learning" a categorization function from labeled training data provided by a supervisor. The function takes a document and returns a set of categories to which it is likely to belong. It is hoped that the categorizer's approximation of the function will improve with the amount of training data supplied to it. There are many different techniques and algorithms which have been used for text categorization. Examples include:

Support vector machines (SVMs).
Decision trees.
Decision rules.
Neural networks.
Instance based learning.
Rocchio relevance feedback.
Naive Bayes.
Nearest neighbour classifiers.
Regression models.
Traducción

La clasificación (o la clasificación) es el proceso de asignar objetos un juego de categorías predefinidas, donde un objeto puede pertenecer o a cero o más categorías. En esta revisión enfocamos la clasificación de texto, que es proceso el-de organizar un juego de documentos en categorías. Los usos de ejemplo incluyen documentos de Web que clasifican, artículos de noticias y señales. La clasificación de texto extensivamente ¡ajá! sido estudiada por la comunidad de estudio de máquina, como esto es un ejemplo clásico de un problema de estudio supervisado. Esto implica un ordenador "aprendiendo" Una función de clasificación de datos de educación (entrenamiento) etiquetados proporcionados por un supervisor. La función toma un documento y devuelve un juego de categorías un las que esto probablemente va un pertenecer. Esto es esperado que la aproximación del el categorizador de la función se mejorará estafan la cantidad de datos que se entrenan suministrados un ello. Hay muchas técnicas diferentes y los algoritmos que han sido usados para la clasificación de texto. Los ejemplos incluyen: · Apoyan máquinas vector (SVMs). Árboles de Decisión. · Reglas de Decisión. · Redes De los nervios. · El Caso basaron el estudio. · Rocchio regeneración de importancia. · Bahías Ingenuas. · Más cerca están junto sobre clasificadores. Modelos de Regresión.

http://dev.panopticsearch.com/classification.html

19.- Cross Lingual Text Categorization. Text Categorization is an important but usually rather inconspicuous part of document management and (more gererally) Knowledge Management. It is used in many information-providing institutions, either in the form of a hierarchical mono classification (“Where does thes document belong in our topic hierarchy”) or as a multi-classification, assigning zero or more keywords to the document, with the purpose of enhancing and simplifying retrieval.

Automatic Text Categorization techniques based on manually constructed class profiles have shown that a high accuracy can be achieved, but the cost of manual profile construction and maintenance is quite high. Automatic Text Categorization systems based on supervised learning can reach a similar accuracy, so that the semi automatic classification of monolingual documents is becoming standard practice.

Traducción

La clasificación de Texto es una parte importante pero por lo general bastante discreta de dirección de documento (y más gererally) la Dirección de Conocimiento. Esto es usado en muchas instituciones que proporcionan información, cualquiera en forma de una clasificación jerárquica mono (" Donde el documento pertenece en nuestra jerarquía de tema ") o como una multi-clasificación,

asignando el cero o más palabras clave al documento, con el objetivo de realzar y la simplificación de la recuperación. Técnicas de Clasificación Automática de Texto basadas en perfiles de clase a mano construidos han mostrado que una exactitud alta puede ser alcanzada, pero el coste de construcción de perfil manual y el mantenimiento es bastante alto. Sistemas de Clasificación Automáticos de Texto basados en el estudio supervisado pueden alcanzar una exactitud similar, para que la clasificación semiautomática de documentos monolingües se haga la práctica estándar.

http://www.cs.kun.nl/peking/ecdl03.pdf

20.- Automatic Categorization of Text Within A Relational Database System. This paper describes a new approach to managing a stream of documents by integrating a text categorization framework into a relational data base management system. The document set discussed is also unique in that it is based on informally structured submissions to a forum in learning mathematics. The system has been tested using a K-Nearest Neighbour learner built into the framework. The framework was integrated into a postgreSQL database through the use of procedural trigger functions. The performance results of the classifier are also discussed.

Traducción

Este papel describe un acercamiento nuevo a la dirección de una corriente de documentos por integrando un marco de clasificación de texto en un sistema de dirección de base de datos emparentado. El documento se pone hablado está también único en esto esto es basado en sumisiones de manera informal estructuradas a un foro en el estudio de matemáticas. El sistema ha sido probado usando al principiante Vecino Cercano de k incorporaron el marco. El marco fue integrado en una base de datos postgreSQL por el empleo de funciones de gatillo procesales. Los resultados de funcionamiento del clasificador también son hablados.

http://www.weg.ee.usyd.edu.au/people/rafa/openacs/drmathpaper.PDF

Investigación Internet Dinámicas Reglas Preguntas

Página Trabajo

Hosted by www.Geocities.ws