Motores de busqueda crawlers directorios meta motores de busqueda

II. LOS MOTORES DE BÚSQUEDA line

Los motores de búsqueda son la forma principal que permite a los usuarios de Internet encontrar sitios con información. Esa es la razón por la cual los sitios publicados en los listados de los motores de búsqueda incrementan dramáticamente su tráfico. Todos quieren aparecer en los listados, desafortunadamente muchos no lo logran por desconocer el modo en el cual trabajan los motores de búsqueda. Existen tres tipos de motores de búsqueda, los basados en crawlers, los basados en índices o directorios, y los meta motores de búsqueda. Estos se diferencian por la forma como organizan la información y los enlaces a las páginas que se encuentran en Internet. La elección del tipo de motor de búsqueda depende, principalmente, de la necesidad de información, el número de páginas que tienen indexadas, el nivel de actualización y un tanto de la experiencia y gusto que se tenga sobre alguna herramienta de búsqueda en especial. Las capacidades de búsqueda pueden construir o dividir la usabilidad de un sitio. Las herramientas de búsqueda efectivas destacan el poder de un sitio para transportar información.

2.1 ANTECEDENTES

Internet es una fuente de información muy extensa con más de 1,200 millones de páginas y con un ritmo de duplicación que varía entre 6 y 8 meses. Las páginas provienen de ámbitos sociales diversos (instituciones oficiales, mundo académico y de investigación, particulares, etc.) y ofrecen información de todos los ámbitos del conocimiento humano.

La red de Internet está llena de información valiosa, pero también hay muchísima información poco relevante (denominada ruido) que hace perder tiempo a la hora de buscar algo. No se dispone de una manera organizada que facilite la localización y recuperación de la información, sin embargo se han desarrollado herramientas de búsqueda (denominadas motores de búsqueda), las cuales están diseñadas para ayudar al usuario a encontrar rápidamente la información que necesita. Atendiendo a sus características, los motores de búsqueda se pueden clasificar en tres grandes categorías: los basados en crawlers, los basados en índices o directorios y los meta motores de búsqueda. Gracias a estos, se puede buscar cualquier tema introduciendo algunas palabras que hagan referencia a él, y acceder a su información en cuestión de segundos.

Muchas empresas se dedican a mantener un catálogo de toda la información que se genera día a día en Internet, clasificando la información más relevante de forma temática y manual, dichas empresas entran en la clasificación de los llamados índices de Internet. El precursor de los índices o directorios (Yahoo) nace de la mano de dos estudiantes en Abril de 1994 como una iniciativa para catalogar los recursos más atractivos de la WWW (World Wide Web o red mundial). Yahoo se ha convertido en una fructífera empresa que ofrece su servicio de forma gratuita a cambio de que el usuario vea publicidad cada vez que accede para realizar una consulta. Las ventajas principales de Yahoo son su completitud, su sencilla y atractiva interfaz y su facilidad de uso.

Con la llegada de nuevas tecnologías y mejores conexiones, aparecieron nuevos sistemas más potentes que recopilan toda la información de Internet, estos son conocidos como crawlers. En 1993 se crea el primer crawler al que se le llamó world wide worm (gusano mundial), era un programa que se arrastraba entre un sitio y otro e indexaba todas las páginas guardando el contenido en una base de datos. Encabezados por AltaVista, los servicios de este tipo emplean robots inteligentes que saltan de una página a otra en la red mundial, a través de hipertextos, recogiendo páginas y almacenando toda la información en una gigantesca base de datos. AltaVista comenzó a indexar las páginas existentes en Internet en Diciembre de 1995, nació como una necesidad de una herramienta más potente de búsqueda de información y ofrece una buena forma de localizar información cuando no se tiene muy claro en qué categoría puede enmarcarse, o cuando se requiere una mayor cantidad de información, la desventaja principal es el ruido que ocasiona en la red.

El crecimiento tan grande en la información publicada en Internet hace casi imposible que un sólo motor de búsqueda la mantenga indexada. Los meta motores de búsqueda, como MetaCrawler de InfoSpace, refuerzan la búsqueda más de dos veces en promedio, en comparación con lo que haría un motor de búsqueda común. MetaCrawler fue desarrollado en 1994 en la Universidad de Washington en Seattle por el estudiante Erik Selberg y el profesor Oren Etzioni. Fue liberado en Junio de 1995 autorizado a Netbot cofundado por Etzioni. En Febrero de 1997 Go2Net, ahora InfoSpace, se encargó de su operación, en Octubre de 1998 Etzioni se asoció a Go2Net y en Mayo de 1999 fue nombrado oficial en jefe de tecnología. [SUBIR]

2.2 SITUACIÓN ACTUAL

El método más común es el de búsquedas por palabras claves, pero tiene el problema de que ofrece resultados imprecisos y un gran número de información irrelevante. Los directorios intentan evadir el problema, pero el proceso manual en la clasificación del material que se encuentra en Internet toma mucho tiempo, lo cual hace que los resultados sean muy pocos.

Actualmente, sin duda, los motores de búsqueda más populares son AltaVista y Yahoo, cada uno se mantiene dentro de su clasificación. Yahoo cuenta con más de 20,000 categorías y más de un millón de páginas documentadas, mientras que AltaVista ya ha indexado más de 300 millones de páginas.

La frontera entre los motores de búsqueda basados en índices (a los que se hará referencia como índices o directorios) y los basados en crawlers (a los que se hará referencia como crawlers o motores de búsqueda) es cada vez menor, debido a que hay índices que permiten realizar consultas en motores de búsqueda propios o ajenos y motores de búsqueda que incluyen categorías temáticas para acceder a parte de los recursos que tienen referenciados.

La mayoría de los motores de búsqueda vienen de Estados Unidos y se especializan en recursos en inglés, en consecuencia la información refleja la cultura Norteamericana. Las personas que no hablan inglés o que no nacieron en ese país llevan una desventaja en la búsqueda de información. Motores de búsqueda nacional en Rusia o Francia, tratan con pequeños grupos de información especializada en la cultura y lingüística que ellos conocen, pero tienen la desventaja de que sus consultas son en francés o ruso, por lo cual los resultados que generan son pocos, es decir están restringidos al lenguaje. Los motores de búsqueda como AltaVista soportan búsquedas multilingües, lo cual es bueno si la persona que la realiza conoce varios lenguajes, de lo contrario de nada sirve.

Existen proyectos de motores de búsqueda nacionales que enfrentan los retos del Internet global multi-lengua y multi-cultural, como el caso de EuroSearch. Permiten consultar en cualquier lenguaje y ofrece la información en el mismo lenguaje en el que se consultó, ya sea de forma limpia (los documentos existen en ese lenguaje) o mediante un lenguaje cruzado, el cual no es más que una traducción en línea. Actualmente, el lenguaje cruzado es usado por algunos motores de búsqueda como AltaVista.

Los textos que están en formatos especiales (Star Office, Postscript, etc.) son inaccesibles para algunos motores de búsqueda, debido a que la información está incrustada en un formato de archivo binario. Si se incluye una descripción del formato en los motores de búsqueda y el formato es conocido por estos, es posible descifrarlos.

El motor de Northern Light indexa 310 millones de páginas, además regresa un conjunto de resultados similares agrupados y etiquetados en carpetas, en lugar de solo enlaces a páginas. IntuiFind puede encontrar bases de datos de información estructurada así como texto no estructurado, permitiendo una búsqueda cruzada, o dos o más tipos de fuentes (contenido de texto y de bases de datos).

El desarrollo de sistemas manejadores de bases de datos ha dejado una visión descentralizada y una descoordinación con los motores de búsqueda, ya que estos son muy específicos y no soportan varios formatos de bases de datos y varios tipos de archivos. [SUBIR]

2.3 TENDENCIAS A FUTURO

Los principales buscadores suelen incluir publicidad y, cada vez más, una gran cantidad de recursos de valor añadido como pueden ser: direcciones de correo electrónico, búsqueda de artículos de noticias, chats (grupos de conversación en línea), acceso a sitios de venta a través de Internet, acceso a información meteorológica actualizada, enlaces a prensa electrónica, enlaces a otros buscadores, servicios de traducción automática de páginas, servicios de localización de imágenes o archivos de audio, y acceso a las últimas noticias de actualidad. Esto los convierte en portales de Internet, es decir, sitios a los que se accede no sólo para realizar búsquedas, sino también para disponer de una serie de servicios y enlaces directos de valor añadido. Además los motores de búsqueda se están enfocando a personalizar la interfaz de entrada para cada usuario, como el caso de Yahoo. Esto es clásico de los portales de Internet y tiene el objetivo de retener la lealtad del cliente.

Los motores de búsqueda en ocasiones indexan secciones irrelevantes de una página, por lo cual se deben proveer los medios para publicar o marcar el texto que debe ser ignorado, usando el seudo índice de los meta índices, por ejemplo. Adicionalmente el resaltar las palabras que corresponden con la búsqueda en el contexto ayudará a los usuarios a entender los resultados, tal técnica ya es usada por algunos motores como Google.

La creación de las páginas en un nuevo lenguaje denominado XML (Extensible Markup Language) pretende homogenizar los diferentes tipos de formatos de texto e integrar los diferentes tipos de bases de datos que manejan los sitios. Estos hacen uso de índices más flexibles, de tal forma que la información en esos documentos es más fácil de rastrear y también pueden describir su contenido en los resultados de la búsqueda. Los representativos de dos motores de búsqueda de este tipo son XYZFind, y XML respaldados por BEA Systems, y Xdex de Sequoia Software. Los motores basados en indexación de documentos XML son más relevantes y consistentemente precisos, aunque solo una pequeña proporción de la información actualmente disponible se encuentra estructurada en XML.

Para los motores de búsqueda de imágenes, el siguiente paso será reconocer objetos en una imagen (poder diferenciar una mesa de un árbol, un balón de fútbol de una pelota de béisbol, etc.), lo cual requerirá un gran poder de cómputo ya que las imágenes pueden ser dibujadas, pintadas o fotografiadas. Es algo que aún se ve lejano pero se aplica la primera regla del Internet, espera lo inesperado.

Las redes neurales serán usadas más comúnmente en el futuro para organizar gran cantidad de información no estructurada. Autonomy es un motor de búsqueda que usa el modelo del concepto probabilístico o estadístico para entender grandes documentos. Las redes neurales son conjuntos interconectados de unidades de procesamiento simple o nodos, cuya funcionalidad está basada sobre la neurona biológica. La habilidad de procesamiento de la red está contenida dentro de la fuerza (o peso) de la conexión entre los nodos. Este peso se deriva de un proceso de aprendizaje sobre un conjunto de patrones. La red neural aprende a reconocer algunos sentidos sobre la calidad de una página basados en ciertas estadísticas o métricas, relacionadas con la página (el número de enlaces, la naturaleza del título, el número de ocurrencias de palabras claves, y otros).

Los motores de búsqueda están empleando otra tecnología llamada agrupación de conceptos (concept clustering). Vivisimo.com utiliza agrupación de conceptos mediante algoritmos heurísticos para grupos de documentos. El software propietario es insertado en el pipeline (trayecto por el cual pasan los datos dentro del microprocesador central) de resultados de búsqueda, los cuales se obtienen de un motor de búsqueda o de una fuente de información textual. Un documento de agrupación es la organización de documentos dentro de clusters (grupos de documentos con contenidos similares). Se realiza de forma totalmente automática, sin intervención humana en ningún punto (con excepción de la gente que escribió los algoritmos).

Los métodos de agrupación conceptual intercalan el proceso de formación de grupos con el paso de anotación de los mismos. Si Vivísimo, por ejemplo, intenta formar un grupo pero juzga que no puede describirlo bien, el grupo es rechazado. Otros motores, como Northern Light, confían sobre optimización matemática, en la que la descripción es relegada hasta después de que están formados los grupos. La agrupación es hecha en tiempo real, justo antes de que el usuario vea los resultados de la búsqueda, por lo cual no hay necesidad de preparar nada con anticipación. La agrupación de documentos tiene una década, pero su calidad aún no ha sido comprobada. Algunas veces los documentos caen en más de una categoría jerárquica, estos se anexan en todas ellas. El software puede indexar y agrupar 200 resúmenes de documentos (al rededor de tres líneas por documento) en 100ms en una Pentium III a 1GHz.

Otra tendencia son los motores de búsqueda nacionalistas y los multilingüe y multicultural. Estos últimos pretenden la realizar consultas y ofrecer información en la lengua que el usuario prefiera. Para acoplarse a los sitios multicultural y multilingüe los motores de búsqueda tienen que reconocer caracteres extendidos (como los encontrados en las palabras thé y daß), y todos los lenguajes en general. Deberán permitir a los usuarios buscar términos con o sin caracteres diacríticos (marcas gramaticales como los acentos y signos), e indexar caracteres de doble byte o caracteres Unicode. El código Unicode contiene más signos que el ASCII, lo que le permite el uso alfabético de todos los idiomas mundiales.

Una tendencia más son las búsquedas en lenguaje natural. La diferencia entre los motores de búsqueda convencionales y los de lenguaje natural radica en la forma de indexar las páginas, estos últimos tratan las palabras como nodos en una semántica de red. El énfasis se sitúa en el significado de las palabras juntas y no por separado. AltaVista y Ask Jeeves son precursores en el uso del lenguaje natural.

Mientras los motores de búsqueda están basados predominantemente en palabras claves, los motores de reconocimiento y los motores de concordancia (Matching engines) pueden tratar con más factores. Estos representan una nueva generación en los motores de búsqueda.

El motor de reconocimiento (o motor de filtrado colaborativo) como LikeMinds de Macromedia, y Firefly de Microsoft, pueden ilustrar una nueva forma de traer resultados más precisos al usuario. Los motores de reconocimiento comparan un conjunto de características del usuario con el perfil de un grupo. Amazon.com, usa un motor de este tipo para clasificar al visitante y adecuarlo a un grupo que ya se tiene contemplado, se basa sobre las compras y decisiones previas, hechas mediante clics.

Los motores de concordancia toman un conjunto de características proporcionadas por el usuario o por alguna otra fuente y lo comparan con otro conjunto de variables que se encuentran en un índice o base de datos, son particularmente útiles cuando se intenta cotejar algo, por ejemplo, un candidato a un trabajo con una empresa. Los motores de concordancia están aún en desarrollo (por Burning Glass Technologies e iXmatch) y traerán un nuevo nivel de búsqueda de sitios en un futuro próximo. Pretenden aplicar esa ventaja a los motores basados en búsqueda de usuarios para obtener una comparación más precisa y relevante. El motor de concordancia usa el conjunto de teoría básica, correlación de coeficientes, análisis de regresión y agrupación de datos en el proceso de intentar comparar un conjunto de características complejas con otro. La primera implementación será en un sitio de trabajo, como Monster o Guru.com, donde los empresarios intentan cotejar conjuntos de habilidades complejas con resúmenes registrados. Pero no hay razón para que no puedan usarse con otros propósitos, como encontrar la casa apropiada para un comprador o encontrar las partes adecuadas para un Ingeniero diseñador de electrónicos.

Los motores de búsqueda han mejorado las capacidades del e-commerce (comercio electrónico) en los modelos business-to-business (negocio a negocio) y business-to-customer (negocio a cliente) para encontrar productos e información. Entre las nuevas capacidades que se ofrecen están el perfilado de usuario, un consejero de búsqueda automatizado, e integración y monitoreo del desempeño. La meta es combinar la búsqueda con el comercio y la información personalizada para manejar los negocios de los vendedores. Como ejemplo, el motor de búsqueda de empolis, orenge 2.1, liberado en Octubre del 2001, actúa como un consejero inteligente o un asistente de ventas virtual para los clientes, se basa en el conocimiento de los productos y las preferencias personales de los clientes. Orenge usa XML para intercambio de los datos de los productos. [SUBIR]

2.4 TEMAS COMPLEMENTARIOS SUGERIDOS

Para las personas interesadas en complementar esta investigación, se sugieren los siguientes temas: motores de búsqueda que utilizan tecnologías de agrupación de conceptos (concept clustering), motores de reconocimiento, motores de concordancia (matching engines) y agentes inteligentes.

[COMENTARIOS]  [ANTERIOR]   [INICIO]   [SIGUIENTE]

Hosted by www.Geocities.ws