II. LOS MOTORES DE BÚSQUEDA
line

2.11 META MOTORES DE BÚSQUEDA

La red de Internet es muy amplia y cambia constantemente, un solo motor de búsqueda no puede cubrirla y mantenerse actualizado al mismo tiempo. Al usar muchos motores, el poder en la búsqueda de la información es más grande. Los meta motores de búsqueda no contienen URLs y descripciones en su base de datos, en lugar de eso contienen registros de motores de búsqueda e información sobre ellos. Envían la petición del usuario a todos los motores de búsqueda (basados en directorios y crawlers) que tienen registrados y obtienen los resultados que les devuelven. Algunos más sofisticados detectan las URLs duplicadas provenientes de varios motores de búsqueda y eliminan la redundancia, es decir solo presentan una al usuario. En base a esa característica algunas personas los llegan a clasificar en dos tipos, los multi buscadores y los meta buscadores:
meta spider
  • Los multi buscadores: ejecutan la consulta contra varios motores de forma simultánea y presentan los resultados sin más organización que la derivada de la velocidad de respuesta de cada motor de búsqueda. Un ejemplo es All4One.com, el cual busca en una gran cantidad de motores de búsqueda y directorios.
  • Los meta buscadores: funcionan de manera similar a los multi buscadores pero, a diferencia de éstos, eliminan las referencias duplicadas, agrupan los resultados y generan nuevos valores de pertinencia para ordenarlos. Algunos ejemplos son MetaCrawle.com, Cyber411.com, digisearch, y search.com.
La ventaja de los meta motores de búsqueda es que permiten consultar en una gran cantidad de motores de búsqueda y directorios de forma simultánea, y obtener los resultados más relevantes de cada uno de ellos, lo cual puede significar un gran ahorro de tiempo, en la búsqueda de la información. Sin embargo al regresar una mayor cantidad de resultados, el ruido que producen es mucho mayor. El uso cotidiano del meta motor de búsqueda mejora los resultados que este ofrece, ya que se aprende a reducir el ruido utilizando las características de búsqueda avanzada que la mayoría presentan, refinando algunos criterios antes de iniciar la búsqueda. [SUBIR]


2.12 COMO FUNCIONAN LOS META MOTORES DE BÚSQUEDA

Todos los meta motores de búsqueda funcionan de manera muy similar, y presentan características de interfaz y personalización muy parecidas. Para explicar su funcionamiento se tomará como base uno de los meta motores de búsqueda más populares, conocido como MetaCrawler y se describirá de una forma más breve el funcionamiento de otros meta motores, cuya diferencia recae realmente en algunas características de valor añadido.

2.12.1 METACRAWLER
Recibe la consulta del usuario y la transforma a la sintaxis particular de cada motor de búsqueda que soporta. La consulta se emite dentro de cada uno de ellos usando el protocolo http (hipertext transport protocol). Algunos de los muchos motores que soporta son: AltaVista, DirectHit, Excite, FindWhat, y LookSmart. Posteriormente espera las respuestas de todos ellos, de forma simultánea, hasta que las obtiene o se llega a un tiempo límite de espera. Los resultados son cotejados para eliminar los duplicados, y organizados de acuerdo a su relevancia. Finalmente devuelve los resultados al usuario, la figura 2 muestra un fragmento de un resultado.

fragmento de un resultado de MetaCrawler
Figura 2. Fragmento de un resultado de búsqueda en MetaCrawler

El código con el cual realiza su trabajo está escrito en C++ (Lenguaje de programación), como un módulo de extensión para el servidor http de Apache (versión 1.3.3.). Las características de personalización se hacen con una combinación de php, perl y java (lenguajes de programación). Estos lenguajes siempre funcionan como extensiones del servidor Apache. El núcleo del código de Apache y del módulo de MetaCrawler es bastante pesado, por lo cual se tiene otro servidor para la búsqueda de imágenes, llamado Zeus. Actualmente se tienen 10 máquinas de búsqueda de 2x400MHz Pentium II, bajo Linux con 512MB de RAM cada una.

2.12.1.1 Características importantes de metacrawler;

2.12.1.2 Características de personalización: maneja características para personalizar la página de inicio y la forma de búsqueda.

2.12.1.3 Herramientas adicionales para búsqueda:

2.12.2 CYBER411 (C4.COM)
Se puede buscar información general, investigación de comercio electrónico (e-commerce), de empresas e incluso nombres de personas. Ofrece un servicio de registro de sitios, que abarca más de 400 motores de búsqueda en la siguiente dirección: http://cyber411.com/submit.html. La búsqueda se puede personalizar indicándole las bases de datos en las que deberá buscar y el número de resultados que deberá regresar como máximo.

Presenta un área de enlaces rápidos para la búsqueda de información, similar a los de un directorio, en su página principal. Además de un área de productos, en la cual se pueden comparar los mejores precios en tiendas virtuales, ayuda a encontrar productos mediante servicios de valor añadido como valuaciones de comerciantes, imágenes y especificaciones de productos, e información de cálculo de precios. Entre el tipo de productos que se puede encontrar están las computadoras, software, video juegos, música, libros, etc.

Al registrarse en el sitio, se tiene acceso a herramientas adicionales para hacer las tareas de búsqueda y manejo de la información más fáciles.

La tecnología de C4.com provee funcionalidades importantes, entre ellas:

2.12.3 SEARCH.COM
Presenta un área de temas clasificados en la forma como lo hace un directorio y un área de canales referentes a temas como linux, gobierno, noticias, horóscopo, etc. Se pueden personalizar las categorías de la búsqueda, así como los motores que serán incluidos en la meta búsqueda, los cuales están clasificados de acuerdo a su área (noticias, compras, etc.), además, las opciones pueden definirse para futuras sesiones

Search.com usa la tecnología de meta búsqueda de SavvySearch. Tiene acceso a más de 1,000 motores de búsqueda, directorios, subastas, fachadas, noticias, grupos de discusión, sitios de referencia, y más. También ofrece canales de meta búsqueda sobre motores especializados en temas como música o viajes y un registro de sitios gratuito en 18 de los motores de búsqueda y directorios más populares.

Si la búsqueda es de información general o de recursos, se puede iniciar en la caja de edición principal. Los resultados incluirán referencias a directorios (como Yahoo o About) al igual que de motores de búsqueda basados en crawlers, y productos relacionados. Si se quiere realizar una búsqueda en una categoría específica se debe escoger un canal de meta búsqueda.

En la lista de resultados, una marca verde significa que el sitio se ha contactado exitosamente; una marca gris indica que aún no se ha obtenido respuesta. Los resultados aparecen agrupados por información común. Después de cada grupo aparece un enlace que permite obtener más resultados similares, estos aparecen organizados de acuerdo al sitio que los proporcionó. De igual forma hay un enlace para ver más resultados sobre un sitio en especial. Los resultados, además, pueden ser ordenados por la fuente, su relevancia o por fecha. Algunos de los motores que proporcionan los datos soportan las siguientes opciones: comillas, inclusión (+), exclusión (-) y operadores boleanos (and, or y not) [SUBIR]

[COMENTARIOS] [ANTERIOR] [INICIO] [SIGUIENTE]
Hosted by www.Geocities.ws
GridHoster Web Hosting
1