Motores de busqueda crawlers directorios meta motores de busqueda

II. LOS MOTORES DE BÚSQUEDA line

2.8 MOTORES DE BÚSQUEDA BASADOS EN CRAWLERS

Los motores de búsqueda basados en crawlers consisten en bases de datos muy voluminosas generadas como resultado de la indexación de partes significativas de los documentos que han sido analizados previamente en Internet. Los motores de búsqueda suelen recoger documentos en formato HTML y otros tipos de recursos, como noticias. La tarea es realizada por un programa denominado crawler (robot o spider) que recorre la red de forma automática explorando los servidores a nivel mundial, o en el ámbito de especialización del buscador (geográfico, idiomático o temático). La recuperación se realiza gracias a un sistema de gestión de base de datos que permite distintos tipos de consulta y a la ordenación de los resultados por relevancia, en función a la estrategia de consulta. Los motores de búsqueda son más exhaustivos que los índices en cuanto al volumen de páginas referenciadas, pero son mucho menos precisos que los índices, al no ser su contenido objeto de indexación humana.
worm crawls spider Existe una gran cantidad de motores de búsqueda en Internet, cada uno ofrece diferencias en cuanto a volumen de páginas, elementos de cada página que son indexados, interfaz, lenguaje de consulta, algoritmo de cálculo de la relevancia, etc. Éstas diferencias provocan que los resultados de aplicar una misma consulta a varios buscadores en ocasiones no coincidan. A la hora de valorar la calidad de un buscador se debe tener en cuenta:

La exhaustividad: número de documentos de Internet referenciados que almacena el motor de búsqueda en su base de datos, para las consultas.

La calidad y flexibilidad del lenguaje de consulta: indica que tanto se pueden mejorar los resultados de una consulta en base a los operadores con los que cuenta el motor.

La pertinencia de sus resultados (ruido y silencio): el número de resultados arrojados en una consulta no debe ser tan pequeño como para no proporcionar suficiente información, ni tan grande como para no poder definir cuales son los resultados relevantes.

Los servicios de valor añadido que incorporan: tales como correo electrónico, compras en Internet, noticias, disco virtual, mensajero electrónico, etc.

La periodicidad de actualización de la base de datos: la frecuencia con la que el crawler regresa a los sitios que tiene indexados para verificar si alguno de ellos ha actualizado sus páginas, si el sitio ya no existe, o para registrar los sitios nuevos.

La velocidad en la recuperación: la velocidad de respuesta a una consulta, es decir, el tiempo que toma el motor de búsqueda en consultar su índice y aplicar el algoritmo para regresar los resultados.

Las dificultades de conexión: la facilidad con la cual se puede accesar al sitio del motor de búsqueda.

Algunos crawlers se la pasan vagando y recolectando información para análisis estadísticos, otros ejecutan actividades de reflejo sobre un sitio (mirroring) con el fin de evitar sobrecargarlo (por ejemplo para bajar archivos de software), distribuyendo la carga en diferentes servidores de Internet. Otra de las razones es evitar que el cliente descargue la información de un servidor que se encuentre a una mayor distancia.

Los crawlers ejecutan una tarea muy útil, pero consumen gran parte del ancho de banda, lo cual puede ser frustrante. Además si no están bien programados pueden crear ataques de servicio prohibidos y no deseados en algunos servidores, al intentar obtener la información a una velocidad mayor que la que soporta el servidor. A las partes del código mal programadas o dañinas se les conoce como bugs, e incluso algunos se programan para que lo hagan intencionalmente. La interacción humana también puede des-configurar un crawler (o robot), o no entender el impacto que causará su configuración en los servidores que contacta. El problema mayor es la falta de inteligencia, es decir, ¿en base a que toma la decisión el crawler?. A pesar de todos los problemas los crawlers ofrecen un servicio valuable a la comunidad de Internet.

Los requerimientos mínimos para la configuración de un motor de búsqueda son: un procesador Intel Pentium o Sun Solaris, Microsoft Windows NT/2000 o Unix, una línea T1, además de un disco duro de gran capacidad. [SUBIR]

2.9 TÉCNICAS QUE UTILIZAN LOS CRAWLERS

Los motores de búsqueda basan la recuperación en el uso de palabras claves y en la ordenación de los resultados de búsqueda por relevancia. Utilizan un programa que se comporta como un navegador pero además almacena el contenido en una forma que la hace fácil de recuperar posteriormente, este programa es conocido como crawler, robot o spider.

Un crawler recupera un documento y recursivamente todos los documentos con los que mantiene vínculos, indexa la información de acuerdo a un criterio predefinido. Los criterios son: el título del documento, los meta datos, el número de veces que se repite una palabra en un documento, algoritmos para valorar la relevancia del documento, etc. y el peso de cada criterio varia de acuerdo al motor de búsqueda. La información se almacena en una base de datos, la cual puede ser consultada por los usuarios de Internet para recuperar la información deseada. Para mantener actualizada la base de datos, los crawlers vuelven a visitar los sitios para verificar que las páginas registradas se mantengan activas, de no ser así (cuando se mueven a otro sitio o desaparecen) las eliminan de la base de datos.

Los sitios de Internet necesitan ser registrados de tal forma que puedan aparecer en los resultados de los motores de búsqueda. Dependiendo del motor de búsqueda alguien o alguna computadora decidirá si la URL se agrega a su base de datos o no. Tomará unos segundos al crawler examinar las páginas y almacenar la información relevante en la base de datos. Existen herramientas que realizan el registro del sitio en una gran cantidad de motores de búsqueda, pero también se puede registrar de forma manual. Algunas herramientas de registro cobran por el servicio, pero hay otras gratuitas, tal es el caso del servicio del sitio broadcaster (www.broadcaster.co.uk) en el reino unido (UK).

La mayoría de los motores de búsqueda verifican el número de veces que se repiten las palabras claves en la página, después buscan estas palabras en el nombre del dominio o en la URL, posteriormente en el título de la página, en el encabezado y en los meta datos. El orden en que se busca en cada uno de los elementos antes mencionados llega a variar, dependiendo del motor de búsqueda, y además cada uno utiliza sus propios algoritmos en los cuales incluyen criterios diferentes. Si el motor de búsqueda encuentra las palabras claves en todos estos criterios, entonces obtiene un estímulo para obtener una clasificación mayor.

Otra metodología para determinar la relevancia de las páginas es la desarrollada por el Profesor Attardi de la Universidad de Pisa, la cual se basa en el número de vínculos que se tengan desde otras páginas hacia la examinada. El primer motor de búsqueda que lo implementó fue Arianna (www.arianna.it) en Italia. Esta metodología, actualmente, es solamente una parte de los sistemas de análisis de enlace que los motores de búsqueda (como Google) usan para clasificar las páginas. La calidad y contexto de los enlaces también es tomado en cuenta, en vez de solo el número de enlaces.

Los motores de búsqueda proporcionan una forma para saber cuantas y cuales páginas mantienen enlaces a un sitio. Usan comandos especiales y el nombre del dominio del sitio, en el nombre del dominio el prefijo http:// y la www no son necesarios. A continuación se presenta la forma de hacerlo en algunos de ellos:

AltaVista y Google: Para buscar páginas enlazadas a un sitio se introduce link:dominio. Se puede reducir la búsqueda a una URL particular siendo más específico: link:dominio/paginahtml. Para eliminar las páginas del mismo sitio que se enlazan entre si, se usa el comando -url: link:dominio -url:dominio.

AllTheWeb.com: Para páginas enlazadas a un sitio se introduce link.all:dominio.

Inktomi: Para búsquedas de todo el sitio se usa linkdomain:dominio, pero varios socios de inktomi no lo implementan. Para eliminar los resultados de las páginas del mismo sitio se usa linkdomain:dominio -domain:dominio. Los comandos de Inktomi funcionan también para AOL (America On Line), HotBot, iWon y MSN (motor de búsqueda de T1MSN). Si se requiere encontrar los enlaces a una página en HotBot o MSN se introduce la URL completa incluyendo el prefijo http://.

Los motores de búsqueda hacen sus consultas en minúsculas, sin embargo algunos son sensibles a mayúsculas/ minúsculas, lo que significa que una búsqueda para Entretenimiento generará diferentes resultados que una para entretenimiento.

Desde el punto de vista del usuario, el funcionamiento de un motor de búsqueda se basa en teclear una frase y revisar los resultados. El motor de búsqueda analiza la base de datos en base a conceptos tales como cuántas veces aparecen las palabras buscadas, si el contexto es el mismo (cercanía), si aparece lo buscado en el título o al principio de la página, si son palabras comunes o no, etc.

AltaVista cuenta con diversas tecnologías de punta: un robot de búsqueda (llamado Scooter) de páginas en Internet y motores de bases de datos, indexando y clasificando las páginas; todo ello funcionando en servidores Alpha con varios gigabytes de memoria RAM y discos RAID (Redundant Array Of Inexpensive Disks, estos son arreglos de discos que contienen información redundante para efectos de seguridad o acceso a la información). El índice ocupa más de 40 GB, y el ancho de banda de los centros supera los 100 Mbps. Los diversos sitios espejo de AltaVista (servidores regionales), repartidos por todo el mundo, reciben más de 10 millones de consultas al día. España cuenta desde mediados de 1997 con uno de esos centros locales, con instrucciones en castellano y búsqueda por idiomas, gracias a un acuerdo con la empresa de telecomunicaciones Telefónica (altavista.magallanes.net).

Lo que hace AltaVista es buscar en su índice, extraer las páginas que contienen cualquiera de esas palabras o varias de ellas y presentarlas según un criterio de aciertos respecto a la frase de búsqueda. Un clic con el ratón sobre los resultados dirige el navegador a la página de destino. Generalmente muestra muchos resultados, pero, como todos los buscadores, no siempre acierta. Cuenta con opciones avanzadas, que incluyen instrucciones especiales para eliminar parte del ruido inherente a su método de almacenamiento.

A continuación se describen los operadores que utiliza para generar frases más complejas que presentan mejores resultados, estos son muy similares a los que utilizan la mayoría de los motores de búsqueda (crawlers, directorios o meta motores de búsqueda), pero no son estándares y pueden variar ligeramente, se recomienda consultar la página de ayuda del motor de búsqueda que se este utilizando:

Comillas (""): permiten indicar que los documentos deseados deberán contener esa expresión en ese orden de palabras, de lo contrario no serán relevantes.
Mayúsculas y minúsculas: al diferenciar mayúsculas y minúsculas se obliga a que esas palabras aparezcan literalmente tal como el término de búsqueda.
Incluida (+): obliga a que la palabra que va a continuación esté incluida en la información encontrada.
Eliminar (-): elimina páginas que contengan la palabra que va a continuación. Si se emplea para un término que contenga guiones, se deben escribir las dos palabras sin separarlas con un espacio, por ejemplo deja-vu.
Raíz (*): el asterisco sirve para indicar raíces de palabras, reemplaza a una serie indeterminada de letras: col*r es tanto color como colour o colaborador.

Una característica reciente entre algunos motores de búsqueda es la selección por idiomas, es decir, permite restringir la consulta a un idioma específico. El modo de búsquedas avanzadas proporciona otro método de seleccionar la información, puede acotar los aciertos por fechas, con los operadores AND y OR (similares a + y -) y con frases de búsqueda más complejas. Incluso se puede especificar la cantidad de palabras máximas de separación que debe haber entre dos palabras determinadas. Se puede elegir la información que se desea desplegar en los listados de resultados, tales como la descripción, URL, última fecha de modificación, tamaño de la página, y el lenguaje en el que está escrita. Además del número de resultados que se desean desplegar por página.

Los motores de búsqueda son respetuosos de la red, sus robots viajan de página en página procurando no sobrecargar ningún servidor con consultas repetidas. Además, los usuarios pueden añadir código HTML a sus páginas personales o de empresa para evitar que sean indexadas, en caso de que sean privadas. El robot visita y actualiza las páginas que más a menudo cambian, además elimina las que no puede volver a visitar.

El spider de AltaVista se llama Scooter, toma entre 5 y 14 días para explorar e indexar todas las páginas de un sitio (sí es que decide hacerlo). Su forma de operación es la siguiente:

Da prioridad alta al título y a las palabras que están localizadas en la cima de la página.
Da mejor clasificación a las palabras claves que aparecen cerca de otras en la página siguiente.
Suma las ocurrencias de las palabras claves en la página para obtener una mayor puntuación.
El mejor tamaño para una página parece ser entre 4 y 8k. Pero toma las páginas largas como valiosas en contenido, cuando no contienen spam (palabras repetidas sin sentido en el documento).
Indexa las palabras claves y la descripción de los meta índices como palabras o términos de búsqueda. Si no se tienen meta índices en la página, indexa las primeras 30 o 40 palabras y las toma como la descripción.
Filtra palabras en el título o meta índices para indexar.
Da mayor prioridad a palabras ubicadas en los meta índices o a las palabras con las cuales se registran las páginas, pero no son tan relevantes como el título y el contenido.
Da un estímulo de acuerdo al número de enlaces que se tengan al sitio, pero no es sensible al contexto. También da un estímulo a las páginas que tengan enlaces a otros sitios similares.
Es sensible a las palabras claves mayúsculas y minúsculas.
Puede indexar un sitio que contiene marcos. Pero se debe asegurar que todas las páginas contengan un enlace a la página principal.

La tabla 1, describe la manera como rastrean, indexan y clasifican algunos de los principales motores de búsqueda basados en crawlers. Después de la tabla se presenta una explicación sobre los términos que ahí se utilizan.

Característica de rastreo Si No

Rastreo profundo Todos, excepto... Excite

Soporte de marcos Todos, excepto... Excite, FAST

Mapas de imágenes AltaVista, Nlight Excite, FAST

Robots.txt Todos -

Meta índice robot Todos, excepto... Excite

Rastreo por enlaces de popularidad Todos -

Aprende por frecuencia AltaVista, Inktomi Excite, FAST, Google, NLight

Inclusión pagada AltaVista, Inktomi, FAST Excite, Google

Características de indexación Si No

Texto completo Todos -

Stop words AltaVista, Excite, Inktomi, Google FAST, NLight

Meta Descripción Todos, excepto... Google, NLight

Meta palabras claves Todos, excepto... Excite, FAST, Google, NLight

Texto alternativo AltaVista, Google Excite, FAST, Inktomi, NLight

Comentarios Inktomi Otros

Característica de clasificación Si No

Estímulos de clasificación por meta índices Inktomi AltaVista, Excite, FAST, Google, NLight

Estímulos de clasificación por enlaces de popularidad Todos -

Estímulos de clasificación por aciertos directos HotBot Otros

Características de spam Si No

Meta refrescante AltaVista Excite, FAST, Google, Inktomi, NLight

Texto invisible Otros Excite, FAST

Texto pequeño AltaVista, Inktomi, Google Excite, FAST, NLight

Característica de rastreo	Si	No
Rastreo profundo	Todos, excepto...	Excite
Soporte de marcos	Todos, excepto...	Excite, FAST
Mapas de imágenes	AltaVista, Nlight	Excite, FAST
Robots.txt	Todos	-
Meta índice robot	Todos, excepto...	Excite
Rastreo por enlaces de popularidad	Todos	-
Aprende por frecuencia	AltaVista, Inktomi	Excite, FAST, Google, NLight
Inclusión pagada	AltaVista, Inktomi, FAST	Excite, Google
Características de indexación	Si	No
Texto completo	Todos	-
Stop words	AltaVista, Excite, Inktomi, Google	FAST, NLight
Meta Descripción	Todos, excepto...	Google, NLight
Meta palabras claves	Todos, excepto...	Excite, FAST, Google, NLight
Texto alternativo	AltaVista, Google	Excite, FAST, Inktomi, NLight
Comentarios	Inktomi	Otros
Característica de clasificación	Si	No
Estímulos de clasificación por meta índices	Inktomi	AltaVista, Excite, FAST, Google, NLight
Estímulos de clasificación por enlaces de popularidad	Todos	-
Estímulos de clasificación por aciertos directos	HotBot	Otros
Características de spam	Si	No
Meta refrescante	AltaVista	Excite, FAST, Google, Inktomi, NLight
Texto invisible	Otros	Excite, FAST
Texto pequeño	AltaVista, Inktomi, Google	Excite, FAST, NLight

Tabla 1. Características del funcionamiento de los motores de búsqueda

Los motores de búsqueda considerados en la tabla son: AltaVista, Excite, FAST, Google y Northern Light. Además se cubren los resultados de Inktomi que forman parte de AOL, HotBot y MSN. Excite cubre porciones de WebCrawler y FAST cubre datos usados por Lycos. [SUBIR]

2.9.1 CARACTERÍSTICAS DE RASTREO (CRAWLING)
Es importante conocer la forma como los crawlers actuarán sobre las páginas que rastrean, ya que de ello depende el éxito del registro completo del sitio y alcanzar una buena clasificación.

Rastreo profundo: el motor de búsqueda lista muchas páginas de un sitio, aún si no están explícitamente registradas en él.
Soporte de marcos: es una característica que permite a los motores de búsqueda seguir los enlaces a través de los marcos (frames).
Mapas de imágenes: son enlaces a otras páginas a través de imágenes.
Robots.txt: es un archivo de texto que permite indicar que páginas no deben ser indexadas en el sitio.
Meta índice robot: tiene el mismo objetivo que el robots.txt, pero este es una instrucción del código HTML de la página.
Rastreo por enlaces de popularidad: la popularidad de una página se detecta analizando cuantos enlaces existen hacia otra página. Los motores de búsqueda usan esa característica para determinar que páginas deben incluir en el índice de su base de datos, aunque esto no necesariamente indica que obtendrán una buena clasificación.
Aprende por frecuencia: el motor de búsqueda aprende con que frecuencia se modifican las páginas, para estimar el tiempo en el que volverá a visitarlas el crawler.
Inclusión pagada: muestra si el motor de búsqueda ofrece un programa donde se pueda pagar para garantizar que las páginas de un sitio se incluyan en el índice. Esto no es lo mismo que colocación pagada, la cual además de la inclusión en el índice, garantiza una posición en particular en relación a un término de búsqueda. [SUBIR]

2.9.2 CARACTERÍSTICAS DE INDEXACIÓN
Las características de indexación indican lo que se indexa cuando el motor de búsqueda rastrea la página.

Texto completo: indexan todo el texto visible en el cuerpo de la página, aunque algunos no indexan algunas palabras (stop words) o las excluyen por parecer spam.
Stop words: algunos motores de búsqueda omiten palabras cuando indexan la página o al menos no las consideran durante la consulta. Estas palabras son excluidas para ahorrar espacio o aumentar la rapidez de búsqueda, ya que son palabras que aparentan ser spam.
Meta descripción y meta palabras claves: son meta índices que describen el contenido de la página y los términos con los que se le asocia para la búsqueda.
Texto alternativo y comentarios: el texto alternativo es aquel que se asocia con una imagen para describirla brevemente, el texto alternativo es parte del lenguaje HTML. Los comentarios suelen ser una anotación sobre la página y son un tipo de meta índice. [SUBIR]

2.9.3 CARACTERÍSTICAS DE CLASIFICACIÓN
La mayoría de los motores de búsqueda usan la ubicación y la frecuencia de las palabras claves en las páginas como la base de clasificación en respuesta a una consulta. Además pueden ser relevantes algunos factores que estimulan la clasificación, tales como:

Estímulo de clasificación por meta índices: algunos motores de búsqueda suelen dar un estímulo a las páginas que contienen meta índices si coinciden con los términos de búsqueda.
Estímulo de clasificación por enlaces de popularidad: los motores de búsqueda pueden determinar la popularidad de una página por el número de enlaces que existen a ella desde otras páginas.
Estímulo de clasificación por aciertos directos: es un sistema que mide las preferencias de los usuarios sobre la lista de resultados que le presentan para refinar la relevancia de la clasificación. [SUBIR]

2.9.4 CARACTERÍSTICAS DE SPAM
El spam es el uso de técnicas para obtener una mejor clasificación, estas técnicas están prohibidas por la mayoría de los motores de búsqueda, ya que atentan contra la eficiencia de sus algoritmos.

Meta refrescante: algunos propietarios de sitios crean páginas objetivo (target pages) que automáticamente conducen a los visitantes a diferentes páginas dentro del sitio. El índice meta refrescante es una de las formas de hacerlo. Algunos motores de búsqueda no indexarán páginas con un rango de meta refrescantes alto, o redireccionadas.
Texto Invisible: es la técnica de colocar texto en una página del mismo color que el fondo, haciéndolo invisible a la vista humana.
Texto pequeño: es una técnica que coloca texto sobre una página en un tamaño de fuente muy pequeño. Las páginas donde predomina el texto pequeño se confunden con spam, o en su defecto no se indexa el texto pequeño.[SUBIR]

[COMENTARIOS]   [ANTERIOR]   [INICIO]   [SIGUIENTE]

Hosted by www.Geocities.ws