2.8 MOTORES DE BÚSQUEDA BASADOS EN CRAWLERS
Los motores de búsqueda basados en crawlers consisten en bases de datos muy voluminosas generadas como resultado de la indexación de partes significativas de los documentos que han sido analizados previamente en Internet. Los motores de búsqueda suelen recoger documentos en formato HTML y otros tipos de recursos, como noticias. La tarea es realizada por un programa denominado crawler (robot o spider) que recorre la red de forma automática explorando los servidores a nivel mundial, o en el ámbito de especialización del buscador (geográfico, idiomático o temático). La recuperación se realiza gracias a un sistema de gestión de base de datos que permite distintos tipos de consulta y a la ordenación de los resultados por relevancia, en función a la estrategia de consulta. Los motores de búsqueda son más exhaustivos que los índices en cuanto al volumen de páginas referenciadas, pero son mucho menos precisos que los índices, al no ser su contenido objeto de indexación humana. Algunos crawlers se la pasan vagando y recolectando información para análisis estadísticos, otros ejecutan actividades de reflejo sobre un sitio (mirroring) con el fin de evitar sobrecargarlo (por ejemplo para bajar archivos de software), distribuyendo la carga en diferentes servidores de Internet. Otra de las razones es evitar que el cliente descargue la información de un servidor que se encuentre a una mayor distancia.
Los crawlers ejecutan una tarea muy útil, pero consumen gran parte del ancho de banda, lo cual puede ser frustrante. Además si no están bien programados pueden crear ataques de servicio prohibidos y no deseados en algunos servidores, al intentar obtener la información a una velocidad mayor que la que soporta el servidor. A las partes del código mal programadas o dañinas se les conoce como bugs, e incluso algunos se programan para que lo hagan intencionalmente. La interacción humana también puede des-configurar un crawler (o robot), o no entender el impacto que causará su configuración en los servidores que contacta. El problema mayor es la falta de inteligencia, es decir, ¿en base a que toma la decisión el crawler?. A pesar de todos los problemas los crawlers ofrecen un servicio valuable a la comunidad de Internet.
Los requerimientos mínimos para la configuración de un motor de búsqueda son: un procesador Intel Pentium o Sun Solaris, Microsoft Windows NT/2000 o Unix, una línea T1, además de un disco duro de gran capacidad. [SUBIR]
Existe una gran cantidad de motores de búsqueda en Internet, cada uno ofrece diferencias en cuanto a volumen de páginas, elementos de cada página que son indexados, interfaz, lenguaje de consulta, algoritmo de cálculo de la relevancia, etc. Éstas diferencias provocan que los resultados de aplicar una misma consulta a varios buscadores en ocasiones no coincidan. A la hora de valorar la calidad de un buscador se debe tener en cuenta:
2.9 TÉCNICAS QUE UTILIZAN LOS CRAWLERS
Los motores de búsqueda basan la recuperación en el uso de palabras claves y en la ordenación de los resultados de búsqueda por relevancia. Utilizan un programa que se comporta como un navegador pero además almacena el contenido en una forma que la hace fácil de recuperar posteriormente, este programa es conocido como crawler, robot o spider.
Un crawler recupera un documento y recursivamente todos los documentos con los que mantiene vínculos, indexa la información de acuerdo a un criterio predefinido. Los criterios son: el título del documento, los meta datos, el número de veces que se repite una palabra en un documento, algoritmos para valorar la relevancia del documento, etc. y el peso de cada criterio varia de acuerdo al motor de búsqueda. La información se almacena en una base de datos, la cual puede ser consultada por los usuarios de Internet para recuperar la información deseada. Para mantener actualizada la base de datos, los crawlers vuelven a visitar los sitios para verificar que las páginas registradas se mantengan activas, de no ser así (cuando se mueven a otro sitio o desaparecen) las eliminan de la base de datos.
Los sitios de Internet necesitan ser registrados de tal forma que puedan aparecer en los resultados de los motores de búsqueda. Dependiendo del motor de búsqueda alguien o alguna computadora decidirá si la URL se agrega a su base de datos o no. Tomará unos segundos al crawler examinar las páginas y almacenar la información relevante en la base de datos. Existen herramientas que realizan el registro del sitio en una gran cantidad de motores de búsqueda, pero también se puede registrar de forma manual. Algunas herramientas de registro cobran por el servicio, pero hay otras gratuitas, tal es el caso del servicio del sitio broadcaster (www.broadcaster.co.uk) en el reino unido (UK).
La mayoría de los motores de búsqueda verifican el número de veces que se repiten las palabras claves en la página, después buscan estas palabras en el nombre del dominio o en la URL, posteriormente en el título de la página, en el encabezado y en los meta datos. El orden en que se busca en cada uno de los elementos antes mencionados llega a variar, dependiendo del motor de búsqueda, y además cada uno utiliza sus propios algoritmos en los cuales incluyen criterios diferentes. Si el motor de búsqueda encuentra las palabras claves en todos estos criterios, entonces obtiene un estímulo para obtener una clasificación mayor.
Otra metodología para determinar la relevancia de las páginas es la desarrollada por el Profesor Attardi de la Universidad de Pisa, la cual se basa en el número de vínculos que se tengan desde otras páginas hacia la examinada. El primer motor de búsqueda que lo implementó fue Arianna (www.arianna.it) en Italia. Esta metodología, actualmente, es solamente una parte de los sistemas de análisis de enlace que los motores de búsqueda (como Google) usan para clasificar las páginas. La calidad y contexto de los enlaces también es tomado en cuenta, en vez de solo el número de enlaces.
Los motores de búsqueda proporcionan una forma para saber cuantas y cuales páginas mantienen enlaces a un sitio. Usan comandos especiales y el nombre del dominio del sitio, en el nombre del dominio el prefijo http:// y la www no son necesarios. A continuación se presenta la forma de hacerlo en algunos de ellos:
Los motores de búsqueda hacen sus consultas en minúsculas, sin embargo algunos son sensibles a mayúsculas/ minúsculas, lo que significa que una búsqueda para Entretenimiento generará diferentes resultados que una para entretenimiento.
Desde el punto de vista del usuario, el funcionamiento de un motor de búsqueda se basa en teclear una frase y revisar los resultados. El motor de búsqueda analiza la base de datos en base a conceptos tales como cuántas veces aparecen las palabras buscadas, si el contexto es el mismo (cercanía), si aparece lo buscado en el título o al principio de la página, si son palabras comunes o no, etc.
AltaVista cuenta con diversas tecnologías de punta: un robot de búsqueda (llamado Scooter) de páginas en Internet y motores de bases de datos, indexando y clasificando las páginas; todo ello funcionando en servidores Alpha con varios gigabytes de memoria RAM y discos RAID (Redundant Array Of Inexpensive Disks, estos son arreglos de discos que contienen información redundante para efectos de seguridad o acceso a la información). El índice ocupa más de 40 GB, y el ancho de banda de los centros supera los 100 Mbps. Los diversos sitios espejo de AltaVista (servidores regionales), repartidos por todo el mundo, reciben más de 10 millones de consultas al día. España cuenta desde mediados de 1997 con uno de esos centros locales, con instrucciones en castellano y búsqueda por idiomas, gracias a un acuerdo con la empresa de telecomunicaciones Telefónica (altavista.magallanes.net).
Lo que hace AltaVista es buscar en su índice, extraer las páginas que contienen cualquiera de esas palabras o varias de ellas y presentarlas según un criterio de aciertos respecto a la frase de búsqueda. Un clic con el ratón sobre los resultados dirige el navegador a la página de destino. Generalmente muestra muchos resultados, pero, como todos los buscadores, no siempre acierta. Cuenta con opciones avanzadas, que incluyen instrucciones especiales para eliminar parte del ruido inherente a su método de almacenamiento.
A continuación se describen los operadores que utiliza para generar frases más complejas que presentan mejores resultados, estos son muy similares a los que utilizan la mayoría de los motores de búsqueda (crawlers, directorios o meta motores de búsqueda), pero no son estándares y pueden variar ligeramente, se recomienda consultar la página de ayuda del motor de búsqueda que se este utilizando:
Una característica reciente entre algunos motores de búsqueda es la selección por idiomas, es decir, permite restringir la consulta a un idioma específico. El modo de búsquedas avanzadas proporciona otro método de seleccionar la información, puede acotar los aciertos por fechas, con los operadores AND y OR (similares a + y -) y con frases de búsqueda más complejas. Incluso se puede especificar la cantidad de palabras máximas de separación que debe haber entre dos palabras determinadas. Se puede elegir la información que se desea desplegar en los listados de resultados, tales como la descripción, URL, última fecha de modificación, tamaño de la página, y el lenguaje en el que está escrita. Además del número de resultados que se desean desplegar por página.
Los motores de búsqueda son respetuosos de la red, sus robots viajan de página en página procurando no sobrecargar ningún servidor con consultas repetidas. Además, los usuarios pueden añadir código HTML a sus páginas personales o de empresa para evitar que sean indexadas, en caso de que sean privadas. El robot visita y actualiza las páginas que más a menudo cambian, además elimina las que no puede volver a visitar.
El spider de AltaVista se llama Scooter, toma entre 5 y 14 días para explorar e indexar todas las páginas de un sitio (sí es que decide hacerlo). Su forma de operación es la siguiente:
La tabla 1, describe la manera como rastrean, indexan y clasifican algunos de los principales motores de búsqueda basados en crawlers. Después de la tabla se presenta una explicación sobre los términos que ahí se utilizan.
Característica de rastreo
Si
No
Rastreo profundo
Todos, excepto...
Excite
Soporte de marcos
Todos, excepto...
Excite, FAST
Mapas de imágenes
AltaVista, Nlight
Excite, FAST
Robots.txt
Todos
-
Meta índice robot
Todos, excepto...
Excite
Rastreo por enlaces de popularidad
Todos
-
Aprende por frecuencia
AltaVista, Inktomi
Excite, FAST, Google, NLight
Inclusión pagada
AltaVista, Inktomi, FAST
Excite, Google
Características de indexación
Si
No
Texto completo
Todos
-
Stop words
AltaVista, Excite, Inktomi, Google
FAST, NLight
Meta Descripción
Todos, excepto...
Google, NLight
Meta palabras claves
Todos, excepto...
Excite, FAST, Google, NLight
Texto alternativo
AltaVista, Google
Excite, FAST, Inktomi, NLight
Comentarios
Inktomi
Otros
Característica de clasificación
Si
No
Estímulos de clasificación por meta índices
Inktomi
AltaVista, Excite, FAST, Google, NLight
Estímulos de clasificación por enlaces de popularidad
Todos
-
Estímulos de clasificación por aciertos directos
HotBot
Otros
Características de spam
Si
No
Meta refrescante
AltaVista
Excite, FAST, Google, Inktomi, NLight
Texto invisible
Otros
Excite, FAST
Texto pequeño
AltaVista, Inktomi, Google
Excite, FAST, NLight
Los motores de búsqueda considerados en la tabla son: AltaVista, Excite, FAST, Google y Northern Light. Además se cubren los resultados de Inktomi que forman parte de AOL, HotBot y MSN. Excite cubre porciones de WebCrawler y FAST cubre datos usados por Lycos. [SUBIR]
2.9.1 CARACTERÍSTICAS DE RASTREO (CRAWLING)
Es importante conocer la forma como los crawlers actuarán sobre las páginas que rastrean, ya que de ello depende el éxito del registro completo del sitio y alcanzar una buena clasificación.
[COMENTARIOS] [ANTERIOR] [INICIO] [SIGUIENTE]