II. LOS MOTORES DE BÚSQUEDA
line

2.13 COMO PREPARAR EL SITIO PARA LA BÚSQUEDA

Para preparar un sitio para la búsqueda se debe pensar en aspectos como: el título de las páginas, encabezados, agregar meta datos a las páginas, y registro del sitio en los motores de búsqueda más populares. Estos aspectos, deberán además mejorarse de acuerdo a los resultados que desplieguen los motores de búsqueda, es decir es necesario actualizarlos hasta que sean funcionales.

2.13.1 TÍTULOS DE LAS PÁGINAS
Los títulos de las páginas son el elemento principal en un listado de resultados, así que se deben usar títulos adecuados. Se debe dar un pequeño contexto tan bueno como el tema específico de la página, y siempre asegurarse de escribirlo correctamente. Adicionalmente, muchos motores usan las palabras del título como pistas o indicios de que la página es adecuada para la el término de la búsqueda.

2.13.2 ENCABEZADOS
Muchos motores de búsqueda usan encabezados para clasificar la relevancia de una página. Asumen que las palabras del encabezado son más importantes que las del resto del texto. Debe considerarse el vocabulario cuando se crean las páginas, y pensar en los encabezados como pequeñas descripciones de esas secciones, en las cuales se deben incluir las palabras claves con las que se asociará. Las tablas hacen que el texto descienda un poco en la página, haciendo el contenido menos relevante, esto se debe a que las tablas lo dividen cuando los motores lo leen. Las secciones grandes de JavaScript tienen el mismo efecto, el motor de búsqueda lee el script primero, lo que hace que el texto HTML aparezca más abajo en la página. Se deben colocar los scripts y las tablas un poco más abajo de la página si es posible.

2.13.3 META DATOS
Los meta datos son instrucciones HTML no esenciales en la creación de una página, se almacenan en los llamados meta índices, los cuales contienen información que no es visible por el navegador, como el nombre del autor, la descripción, las palabras claves relevantes de la página, etc. La figura 3 muestra un fragmento de código HTML, donde se usan los meta datos.

meta datos principales
Figura 3. Ejemplo del uso de los meta datos

Los meta índices proveen una forma útil de controlar el resumen, con el que crean los resultados los motores de búsqueda. La tabla 1 muestra algunos de los motores que soportan meta índices. El listado de resultados contiene: el título de la página, las meta descripciones de datos, las primera líneas de la página, o un resumen generado programáticamente de lo más importante del texto y es. El listado es ordenado por relevancia, de acuerdo al algoritmo particular de los motores de búsqueda, los algoritmos no son publicados pero se sabe que se basan en los criterios que se han estado mencionando a lo largo de este documento, como los meta datos, el título de la página, el contenido de la página, etc. En base a esto se puede planear (durante el diseño) la forma de presentar

correctamente los datos. Los meta índices, también, ayudan a proveer palabras claves y una descripción sobre páginas que por varías razones carecen de texto. Algunos ejemplos son las páginas de imágenes y las páginas que usan marcos. Los meta índices pueden estimular la relevancia de las páginas, ya que es un criterio que consideran los algoritmos de los motores de búsqueda.

2.13.3.1 Meta descripciones. Pueden contener una o más frases, ayudan a entender el contenido de la página publicada en Internet. La meta descripción se suele incluir como parte del resumen mostrado en los listados de resultados. La mayoría de las páginas del sitio pueden usar descripciones similares cambiando únicamente el tema específico de cada página.

2.13.3.2 Meta keywords (meta palabras claves). Las palabras claves permiten a los motores de búsqueda identificar los elementos más relevantes de la página y clasificar el resultado. Un buen conjunto de palabras claves encapsula los temas específicos que cubre la página, adicionalmente es conveniente incluir palabras relevantes en varios lenguajes. Las palabras claves además son relacionadas con las que introduce el usuario como término de búsqueda, por lo cual se debe pensar en las palabras que ellos usarían. Una buena idea es hacer frases de dos o más palabras. El límite de palabras claves es de 744 caracteres.

Existen programas que ayudan a detectar los enlaces de referencia , de tal forma que se pueden identificar las palabras claves con las cuales los usuarios encuentran la página de un sitio. De acuerdo a esas combinaciones se puede refinar o reconstruir el meta índice de las palabras claves. Esto equivale a dejar que el motor de búsqueda diga que palabras desea que aparezcan.

2.13.3.3 Meta índice de autor. El incluir el correo electrónico y el nombre del autor facilita que la gente pueda comunicarse con él, o realizar búsquedas sobre todas las páginas que realizó. Infoseek es capaz de buscar meta índices y puede hacer búsquedas de todas las páginas escritas por algún autor. Los programadores de utilerías de Internet pueden ver cuantos páginas se han escrito con su herramienta.

2.13.3.4 Meta índice robot. Permite especificar cuales páginas en particular no deben ser indexadas por los motores de búsqueda. Consta de cuatro directivas, las cuales van separadas por comas:

La figura 4 muestra ejemplos de la utilización de los meta índices robots.

meta indice robot
Figura 4 Ejemplo del uso de los meta índices robots

No todos los motores de búsqueda soportan los meta índices robots. Como alternativa, la mayoría soportan la convención de índice de bloqueo llamado robots.txt. Este es un archivo de texto, donde se puede especificar el tipo de usuarios que pueden acceder a las páginas del sitio, así como las páginas que deben o no ser indexadas por los crawlers. La figura 5 muestra el robots.txt que utiliza AltaVista.

robots.txt de AltaVista
Figura 5 Robots.txt de AltaVista

En la figura anterior, el * en el nombre del agente indica que la exclusión aplica para todos los crawlers. Para indicar que la restricción es para un crawler en especial, se utiliza su nombre, por ejemplo: user-agent: scooter, sólo restringe al crawler de AltaVista.

Existen otros meta índices menos populares (ver figura 6), entre ellos están:

otros meta datos
Figura 6. Ejemplos de meta índices menos comunes [SUBIR]

2.13.4 CONTENIDO RELEVANTE
Los gráficos se ven muy bien en las páginas, pero los motores de búsqueda no pueden leerlos, de tal forma que no se debe abusar de ellos y en su lugar utilizar texto HTML cuando sea posible. Además, la velocidad de carga de la página será mayor con menos imágenes. El texto debe ser visible, para evitar problemas de spam (que el motor de búsqueda piense que es un truco para obtener una buena clasificación). Finalmente, se debe considerar la expansión de las referencias del texto apropiadamente, es decir, utilizar variantes de las palabras (computadora, computación, computo, etc.). Esto es una forma legitima y natural de reforzar las palabras claves.

2.13.5 TENER ENLACES HTML
Se deben agregar hipervínculos de texto a otras secciones de la página y a otras páginas del sitio. Esto además mejorará la navegación de los visitantes, es una buena idea colocarlas al final de la página. Se puede considerar además hacer una página de mapeo con enlaces de hipertexto a todo el sitio. Al registrar la página en los motores de búsqueda, se obtendrá una mejor indexación y localización de las páginas.

La mayoría de los motores de búsqueda usan análisis de enlaces como parte de su algoritmo para la clasificación de las páginas relevantes sobre un tema en particular. Esto lo hacen debido a que es difícil para los webmasters (programas que buscan mejorar la clasificación de un sitio) falsificar buenos enlaces para intentar realizar spam. La clave está en no crear muchos enlaces, sino solo aquellos que se refieran a buenos sitios relacionados con el tema en el cual caen las páginas. Una buena forma de hacerlo es ir a los motores de búsqueda, realizar una consulta con los términos que se desea ser encontrado, visitar los primeros sitios y preguntar al propietario si le interesa tener algún enlace a la página que se posee. A cambio se puede ofrecer crear un enlace a sus sitios y las dos partes saldrán ganando. Al lograr tener un enlace desde sus páginas se obtendrán visitas y desde luego un estímulo en la clasificación [SUBIR]

2.13.6 EVITAR TROPIEZOS CON LOS MOTORES DE BÚSQUEDA
Los sitios que usan marcos manejan su información en varias páginas, por ejemplo, una página con tres marcos requiere una cuarta página (conocida como página maestra o frameset) que es la que contiene las instrucciones para combinar a las otras tres. Algunos crawlers sólo ven la página maestra, y no entienden las instrucciones de cómo seguir los enlaces a los marcos, adicionalmente otros no leen mapas de imagen. Esto hace que muchas veces no sean capaces de inspeccionar el resto de las páginas del sitio, por lo cual se debe asegurar de tener un método alternativo para entrar e indexar el sitio.

Una solución a este problema es la adición de un meta índice en la página maestra (el llamado NOFRAMES). La solución ofrecida es parcial, porque no todos los motores de búsqueda soportan los meta índices. Otra alternativa es crear una página de contenido, que haga referencias a la información del resto de las páginas del sitio, para que el crawler lo puede inspeccionar. Como las páginas también pueden verse de manera independiente (fuera de los marcos), es una buena idea incluir un enlace a la página maestra y un par de enlaces que permitan ir a la página siguiente y a la anterior. Esto hará más accesible el sitio para los motores de búsqueda y proporcionará una mejor navegación para el usuario.

Al generar páginas dinámicamente es de esperarse que muchos motores de búsqueda no puedan indexarlas. Se deben considerar las páginas estáticas siempre que sea posible, tal vez usar la base de datos para actualizarlas y no para generarlas al vuelo. Se deben evitar símbolos en la URL que obturen a los motores de búsqueda (especialmente el signo "?").

Los motores de búsqueda no indexan las páginas que intentan hacerles spam, o en el mejor de los casos las penalizan. Si esa no es una buena razón, tal vez el hecho de que los usuarios visiten la página y no regresen jamás, por su mal contenido, lo sea. Un ejemplo claro del desagrado que se sufre con el spam, es el que ocurre con el correo electrónico. Además los sitios que usan spam degradan el valor de los motores de búsqueda. [SUBIR]

2.13.7 REGISTRO DEL SITIO
Existen aplicaciones que registran las páginas del sitio de manera automática, además de que brindan consejos para mejorar la clasificación, generan reportes, e incluso, algunas herramientas, incluyen un editor HTML para realizar las modificaciones pertinentes a las páginas o las realizan de manera automática. Se puede confiar en los servicios automáticos, pero en ocasiones fallan, de tal forma que es mejor hacerlo de forma manual al menos en los motores de búsqueda más populares. Es bueno registrar las mejores dos o tres páginas del sitio, para evitar que algún enlace se pierda al ser indexadas. Se debe ser paciente, ya que en ocasiones toma tiempo el que todas las páginas del sitio queden registradas en los motores de búsqueda, ya que ellos llevan su proceso interno.

2.13.8 VERIFICAR Y MANTENER EL LISTADO
En la sección 2.9 técnicas que utilizan los crawlers se presentan los comandos que ofrecen algunos motores de búsqueda, estos sirven para verificar si las páginas ya está registrada en ellos. Además, se debe hacer la verificación periódicamente, ya que las páginas pueden ser borradas por algún problema. Se debe volver a registrar la página cuando se le hacen cambios significativos, para volver a ser visitados por los motores de búsqueda. [SUBIR]

2.13.9 TÉCNICAS DE LOS WEBMASTERS
Los Webmasters algunas veces registran páginas bridge (o doorway) en los motores de búsqueda para mejorar el tráfico en un sitio. Estas son páginas especialmente diseñadas para trabajar bien sobre unas frases en particular, y son conocidas también como páginas portales, páginas de salto, y páginas de entrada. Utilizan tecnologías de entrega baja y alta.

2.13.9.1 Tecnología de entrega baja
La tecnología baja consiste en crear y registrar una página preparada para una frase en particular. Algunos van más allá y crean páginas para cada frase y para cada motor de búsqueda. El problema es que este tipo de páginas son muy genéricas, es decir, son fáciles de copiar por la competencia y con un mínimo de cambios se pueden usar para cualquier otro sitio, con igual éxito. Además, las páginas pueden llegar a ser tan parecidas, que el motor de búsqueda puede considerarlas como duplicadas y excluirlas.

Otro problema es que el usuario no entra a la página que espera. Los webmasters lo solucionan con un enlace (como haz clic aquí para entrar), o en el mejor de los casos con un comando meta refrescante, el cual redirecciona a la página que el usuario espera encontrar, esa es la razón por la cual se les conoce como páginas bridge (puente). Algunos motores de búsqueda no admiten meta refrescantes rápidos, para impedir esa clase de abusos, sin embargo los webmasters registran la página y una vez que alcanzan una buena posición hacen un cambio a la página real. Este se conoce como código de intercambio (code-swapping), el cual algunas ocasiones es hecho sólo para mantener a otros tratando de descifrar como adquirieron una buena clasificación, entonces se le conoce como bait-and-switch (anzuelo e intercambio). La mala noticia para este truco es que cuando el motor de búsqueda vuelva a visitar la página, se va a encontrar con la página real y la posición seguramente caerá.

Otra opción es solo tomar los meta índices de una página exitosa (Infoseek le llama meta jacking), pero se ha comprobado que no es una garantía de éxito.

2.13.9.2 Tecnología de entrega alta
Entrega de Agentes: el siguiente paso tecnológico es crear una página bridge que sólo el motor de búsqueda pueda ver. Cada motor de búsqueda tiene un agente (crawler) con un nombre en particular. La ventaja de la entrega de agente es que puedes enviar al motor de búsqueda a una página hecha a su medida, es decir con el tipo de contenido que espera ver. Además tiene el beneficio de camuflajear el código para curiosos que quieran imitarlo, sin embargo los curiosos pueden hacer telnet (emulación de pantalla en conexión con otro ordenador a través de Internet o de una red) al servidor y reportar su agente como si fuera el del motor de búsqueda que se espera. Así esas personas pueden ver exactamente lo que se está entregando. Algunos motores de búsqueda se defienden de este embate reportando diferentes nombres en sus agentes. La tabla 2 presenta los nombres de los agentes de algunos motores de búsqueda.

Motor de búsqueda Agente (Crawler)
Infoseek (go.com) Sidewinder
Inktomi Slurp
Hotbot / AOL Inktomi's Slurp
AltaVista Scooter
Lycos T-Rex
Excite Architext
WebCrawler Excites Architext
Google Backrub o GoogleBot
Northern Ligth Northern Lights Gulliver
Site Directories Looksmart, Snap, Yahoo
Tabla 2. Nombres de agentes de motores de búsqueda

Entrega de IP / Página Camuflajeda: en lugar de entrega por nombre de agente, se puede hacer por la dirección IP (Protocolo de Internet), asumiendo que se tiene una lista de ellas y se mantiene actualizada. Dado que cada dirección IP es única, se pude garantizar que sólo la dirección exacta vea la página. Otro término estas páginas es camuflajeada. [SUBIR]

[COMENTARIOS] [ANTERIOR] [INICIO] [SIGUIENTE]
Hosted by www.Geocities.ws

1