II. LOS MOTORES DE BÚSQUEDA
line

2.8 MOTORES DE BÚSQUEDA BASADOS EN CRAWLERS

Los motores de búsqueda basados en crawlers consisten en bases de datos muy voluminosas generadas como resultado de la indexación de partes significativas de los documentos que han sido analizados previamente en Internet. Los motores de búsqueda suelen recoger documentos en formato HTML y otros tipos de recursos, como noticias. La tarea es realizada por un programa denominado crawler (robot o spider) que recorre la red de forma automática explorando los servidores a nivel mundial, o en el ámbito de especialización del buscador (geográfico, idiomático o temático). La recuperación se realiza gracias a un sistema de gestión de base de datos que permite distintos tipos de consulta y a la ordenación de los resultados por relevancia, en función a la estrategia de consulta. Los motores de búsqueda son más exhaustivos que los índices en cuanto al volumen de páginas referenciadas, pero son mucho menos precisos que los índices, al no ser su contenido objeto de indexación humana.
worm crawlsspider Existe una gran cantidad de motores de búsqueda en Internet, cada uno ofrece diferencias en cuanto a volumen de páginas, elementos de cada página que son indexados, interfaz, lenguaje de consulta, algoritmo de cálculo de la relevancia, etc. Éstas diferencias provocan que los resultados de aplicar una misma consulta a varios buscadores en ocasiones no coincidan. A la hora de valorar la calidad de un buscador se debe tener en cuenta:

Algunos crawlers se la pasan vagando y recolectando información para análisis estadísticos, otros ejecutan actividades de reflejo sobre un sitio (mirroring) con el fin de evitar sobrecargarlo (por ejemplo para bajar archivos de software), distribuyendo la carga en diferentes servidores de Internet. Otra de las razones es evitar que el cliente descargue la información de un servidor que se encuentre a una mayor distancia.

Los crawlers ejecutan una tarea muy útil, pero consumen gran parte del ancho de banda, lo cual puede ser frustrante. Además si no están bien programados pueden crear ataques de servicio prohibidos y no deseados en algunos servidores, al intentar obtener la información a una velocidad mayor que la que soporta el servidor. A las partes del código mal programadas o dañinas se les conoce como bugs, e incluso algunos se programan para que lo hagan intencionalmente. La interacción humana también puede des-configurar un crawler (o robot), o no entender el impacto que causará su configuración en los servidores que contacta. El problema mayor es la falta de inteligencia, es decir, ¿en base a que toma la decisión el crawler?. A pesar de todos los problemas los crawlers ofrecen un servicio valuable a la comunidad de Internet.

Los requerimientos mínimos para la configuración de un motor de búsqueda son: un procesador Intel Pentium o Sun Solaris, Microsoft Windows NT/2000 o Unix, una línea T1, además de un disco duro de gran capacidad. [SUBIR]


2.9 TÉCNICAS QUE UTILIZAN LOS CRAWLERS

worm leftworm rigth

Los motores de búsqueda basan la recuperación en el uso de palabras claves y en la ordenación de los resultados de búsqueda por relevancia. Utilizan un programa que se comporta como un navegador pero además almacena el contenido en una forma que la hace fácil de recuperar posteriormente, este programa es conocido como crawler, robot o spider.

Un crawler recupera un documento y recursivamente todos los documentos con los que mantiene vínculos, indexa la información de acuerdo a un criterio predefinido. Los criterios son: el título del documento, los meta datos, el número de veces que se repite una palabra en un documento, algoritmos para valorar la relevancia del documento, etc. y el peso de cada criterio varia de acuerdo al motor de búsqueda. La información se almacena en una base de datos, la cual puede ser consultada por los usuarios de Internet para recuperar la información deseada. Para mantener actualizada la base de datos, los crawlers vuelven a visitar los sitios para verificar que las páginas registradas se mantengan activas, de no ser así (cuando se mueven a otro sitio o desaparecen) las eliminan de la base de datos.

Los sitios de Internet necesitan ser registrados de tal forma que puedan aparecer en los resultados de los motores de búsqueda. Dependiendo del motor de búsqueda alguien o alguna computadora decidirá si la URL se agrega a su base de datos o no. Tomará unos segundos al crawler examinar las páginas y almacenar la información relevante en la base de datos. Existen herramientas que realizan el registro del sitio en una gran cantidad de motores de búsqueda, pero también se puede registrar de forma manual. Algunas herramientas de registro cobran por el servicio, pero hay otras gratuitas, tal es el caso del servicio del sitio broadcaster (www.broadcaster.co.uk) en el reino unido (UK).

La mayoría de los motores de búsqueda verifican el número de veces que se repiten las palabras claves en la página, después buscan estas palabras en el nombre del dominio o en la URL, posteriormente en el título de la página, en el encabezado y en los meta datos. El orden en que se busca en cada uno de los elementos antes mencionados llega a variar, dependiendo del motor de búsqueda, y además cada uno utiliza sus propios algoritmos en los cuales incluyen criterios diferentes. Si el motor de búsqueda encuentra las palabras claves en todos estos criterios, entonces obtiene un estímulo para obtener una clasificación mayor.

Otra metodología para determinar la relevancia de las páginas es la desarrollada por el Profesor Attardi de la Universidad de Pisa, la cual se basa en el número de vínculos que se tengan desde otras páginas hacia la examinada. El primer motor de búsqueda que lo implementó fue Arianna (www.arianna.it) en Italia. Esta metodología, actualmente, es solamente una parte de los sistemas de análisis de enlace que los motores de búsqueda (como Google) usan para clasificar las páginas. La calidad y contexto de los enlaces también es tomado en cuenta, en vez de solo el número de enlaces.

Los motores de búsqueda proporcionan una forma para saber cuantas y cuales páginas mantienen enlaces a un sitio. Usan comandos especiales y el nombre del dominio del sitio, en el nombre del dominio el prefijo http:// y la www no son necesarios. A continuación se presenta la forma de hacerlo en algunos de ellos:

Los motores de búsqueda hacen sus consultas en minúsculas, sin embargo algunos son sensibles a mayúsculas/ minúsculas, lo que significa que una búsqueda para Entretenimiento generará diferentes resultados que una para entretenimiento.

Desde el punto de vista del usuario, el funcionamiento de un motor de búsqueda se basa en teclear una frase y revisar los resultados. El motor de búsqueda analiza la base de datos en base a conceptos tales como cuántas veces aparecen las palabras buscadas, si el contexto es el mismo (cercanía), si aparece lo buscado en el título o al principio de la página, si son palabras comunes o no, etc.

AltaVista cuenta con diversas tecnologías de punta: un robot de búsqueda (llamado Scooter) de páginas en Internet y motores de bases de datos, indexando y clasificando las páginas; todo ello funcionando en servidores Alpha con varios gigabytes de memoria RAM y discos RAID (Redundant Array Of Inexpensive Disks, estos son arreglos de discos que contienen información redundante para efectos de seguridad o acceso a la información). El índice ocupa más de 40 GB, y el ancho de banda de los centros supera los 100 Mbps. Los diversos sitios espejo de AltaVista (servidores regionales), repartidos por todo el mundo, reciben más de 10 millones de consultas al día. España cuenta desde mediados de 1997 con uno de esos centros locales, con instrucciones en castellano y búsqueda por idiomas, gracias a un acuerdo con la empresa de telecomunicaciones Telefónica (altavista.magallanes.net).

Lo que hace AltaVista es buscar en su índice, extraer las páginas que contienen cualquiera de esas palabras o varias de ellas y presentarlas según un criterio de aciertos respecto a la frase de búsqueda. Un clic con el ratón sobre los resultados dirige el navegador a la página de destino. Generalmente muestra muchos resultados, pero, como todos los buscadores, no siempre acierta. Cuenta con opciones avanzadas, que incluyen instrucciones especiales para eliminar parte del ruido inherente a su método de almacenamiento.

A continuación se describen los operadores que utiliza para generar frases más complejas que presentan mejores resultados, estos son muy similares a los que utilizan la mayoría de los motores de búsqueda (crawlers, directorios o meta motores de búsqueda), pero no son estándares y pueden variar ligeramente, se recomienda consultar la página de ayuda del motor de búsqueda que se este utilizando:

Una característica reciente entre algunos motores de búsqueda es la selección por idiomas, es decir, permite restringir la consulta a un idioma específico. El modo de búsquedas avanzadas proporciona otro método de seleccionar la información, puede acotar los aciertos por fechas, con los operadores AND y OR (similares a + y -) y con frases de búsqueda más complejas. Incluso se puede especificar la cantidad de palabras máximas de separación que debe haber entre dos palabras determinadas. Se puede elegir la información que se desea desplegar en los listados de resultados, tales como la descripción, URL, última fecha de modificación, tamaño de la página, y el lenguaje en el que está escrita. Además del número de resultados que se desean desplegar por página.

Los motores de búsqueda son respetuosos de la red, sus robots viajan de página en página procurando no sobrecargar ningún servidor con consultas repetidas. Además, los usuarios pueden añadir código HTML a sus páginas personales o de empresa para evitar que sean indexadas, en caso de que sean privadas. El robot visita y actualiza las páginas que más a menudo cambian, además elimina las que no puede volver a visitar.

El spider de AltaVista se llama Scooter, toma entre 5 y 14 días para explorar e indexar todas las páginas de un sitio (sí es que decide hacerlo). Su forma de operación es la siguiente:

La tabla 1, describe la manera como rastrean, indexan y clasifican algunos de los principales motores de búsqueda basados en crawlers. Después de la tabla se presenta una explicación sobre los términos que ahí se utilizan.

Característica de rastreo Si No
Rastreo profundo Todos, excepto... Excite
Soporte de marcos Todos, excepto... Excite, FAST
Mapas de imágenes AltaVista, Nlight Excite, FAST
Robots.txt Todos -
Meta índice robot Todos, excepto... Excite
Rastreo por enlaces de popularidad Todos -
Aprende por frecuencia AltaVista, Inktomi Excite, FAST, Google, NLight
Inclusión pagada AltaVista, Inktomi, FAST Excite, Google
Características de indexación Si No
Texto completo Todos -
Stop words AltaVista, Excite, Inktomi, Google FAST, NLight
Meta Descripción Todos, excepto... Google, NLight
Meta palabras claves Todos, excepto... Excite, FAST, Google, NLight
Texto alternativo AltaVista, Google Excite, FAST, Inktomi, NLight
Comentarios Inktomi Otros
Característica de clasificación Si No
Estímulos de clasificación por meta índices Inktomi AltaVista, Excite, FAST, Google, NLight
Estímulos de clasificación por enlaces de popularidad Todos -
Estímulos de clasificación por aciertos directos HotBot Otros
Características de spam Si No
Meta refrescante AltaVista Excite, FAST, Google, Inktomi, NLight
Texto invisible Otros Excite, FAST
Texto pequeño AltaVista, Inktomi, Google Excite, FAST, NLight

Tabla 1. Características del funcionamiento de los motores de búsqueda

Los motores de búsqueda considerados en la tabla son: AltaVista, Excite, FAST, Google y Northern Light. Además se cubren los resultados de Inktomi que forman parte de AOL, HotBot y MSN. Excite cubre porciones de WebCrawler y FAST cubre datos usados por Lycos. [SUBIR]

2.9.1 CARACTERÍSTICAS DE RASTREO (CRAWLING)
Es importante conocer la forma como los crawlers actuarán sobre las páginas que rastrean, ya que de ello depende el éxito del registro completo del sitio y alcanzar una buena clasificación.


2.9.2 CARACTERÍSTICAS DE INDEXACIÓN
Las características de indexación indican lo que se indexa cuando el motor de búsqueda rastrea la página.
2.9.3 CARACTERÍSTICAS DE CLASIFICACIÓN
La mayoría de los motores de búsqueda usan la ubicación y la frecuencia de las palabras claves en las páginas como la base de clasificación en respuesta a una consulta. Además pueden ser relevantes algunos factores que estimulan la clasificación, tales como:
2.9.4 CARACTERÍSTICAS DE SPAM
El spam es el uso de técnicas para obtener una mejor clasificación, estas técnicas están prohibidas por la mayoría de los motores de búsqueda, ya que atentan contra la eficiencia de sus algoritmos.
[COMENTARIOS] [ANTERIOR] [INICIO] [SIGUIENTE]
Hosted by www.Geocities.ws

1