IV IMPLEMENTACIÓN
4.3 IMPLEMENTACIÓN DE UN SITIO CONSIDERANDO LOS CRITERIOS DEL OBJETIVO
La implementación de este sitio pretende observar la respuesta que ofrecen los motores de búsqueda a las páginas registradas. En éste se contemplan los criterios planteados en el objetivo del documento, además de algunas observaciones encontradas durante el muestreo. La página de inicio del sitio es http://www.geocities.com/motoresdebusqueda/.
Las páginas que se registraron, a partir del 9 de Enero del 2002, son las siguientes:
A continuación se presentan los detalles considerados en la implementación, en especial en las páginas registradas. En las meta palabras claves, descripción y título de la página HTML no se consideraron algunos acentos y se utilizaron minúsculas en su mayoría:
- Título (ambas): motores de busqueda crawlers directorios meta motores de busqueda.
- Meta palabras claves: motores de busqueda, crawlers, indices, índices, meta datos, buscadores imagenes, imágenes, especializados, herramientas, búsqueda, robots, spiders, search engines.
- Otros meta datos empleados:
- Descripción: motores de busqueda: crawlers, indices o directorios, meta motores de búsqueda, buscadores de imagenes y buscadores especializados. Definiciones, caracteristicas, funcionamiento, técnicas que utilizan, y mucho mas.
- Generador: EditPlus.
- Autor: rogelio aguilar gonzalez: [email protected].
- Fecha de actualización: 05-02-2002.
- Tipo de contenido: text/html; charset=iso-8859-1.
- Derechos de autor: copyright 2002, Rogelio Aguilar González.
- Descripción: global.
- Clasificación: software.
- Robots: All
- Volver a visitar después de: 7 días.
- Dominio o URL: en la URL de todas las páginas aparecen las palabras motores y busqueda. En el resto de las páginas del sitio (como nombre de la página HTML) aparecen las palabras crawlers, directorios, meta, motores, buscadores, especializados.
- Primeras líneas de la página: en las primeras líneas de la página se encuentran las siguientes palabras: motores, búsqueda, crawlers, indices, índices, directorios, meta, buscadores, imágenes, especializados, search engines. Estas son las palabras que se relacionan con las meta palabras claves.
- No. de veces que se repiten las palabras claves en el contenido de la página:
Index.html |
Inicio.html |
Motores: 6 |
Motores: 14 |
Busqueda: 0 |
Busqueda: 0 |
Búsqueda: 6 |
Búsqueda: 13 |
Crawlers: 2 |
Crawlers: 4 |
Indices: 1 |
Indices: 0 |
Índices: 1 |
Índices: 0 |
Directorios: 2 |
Directorios: 3 |
Meta: 2 |
Meta: 5 |
Buscadores: 4 |
Buscadores: 8 |
Especializados: 2 |
Especializados: 3 |
Imagenes: 0 |
Imagenes: 0 |
Imágenes: 2 |
Imágenes: 1 |
Herramientas: 1 |
Herramientas: 0 |
Robots: 1 |
Robots: 0 |
Spiders: 1 |
Spiders: 0 |
Search: 1 |
Search: 1 |
Engines: 1 |
Engines: 1 |
- Marcos: se decidió no utilizar marcos, debido a que algunos motores de búsqueda no los soportan aún, sin embargo las páginas tienen un buen sistema de navegación.
- Tablas y scripts: se buscó que en todas las páginas quedara, al menos, el primer párrafo de contenido antes de cualquier tabla o script, esto para hacerlo un poco más relevante ante los motores de búsqueda. Durante el muestreo el uso de tablas o scripts no presentó gran diferencia
- Observaciones: los tamaños de las páginas registradas son de 4 y 13K, el tamaño del resto de las páginas del sitio varia entre 8 y 27k. Aunque se observó durante el muestreo que el tamaño de las páginas no es muy relevante, se buscó que las páginas no fueran muy grandes para que no tardaran mucho en cargar.
Las páginas, hasta el momento, se han registrado en algunos de los principales motores de búsqueda basados en crawlers sin que estas aún estén incluidas en sus bases de datos. El registro se realizó de forma manual y directa, es decir, se visitó a cada motor de búsqueda para realizarlo:
- AltaVista: se registraron en el servicio básico (gratuito), el cual propone un tiempo de 4 a 6 semanas para ser indexado. AltaVista Ofrece otros tres servicios de inclusión pagada con una indexación en cuestión de horas y visitas muy frecuentes para revisar cambios.
- Lycos: se registraron en su versión Inside lite, también maneja paquetes de inclusión pagada, no maneja el tiempo que tarda para realizar la indexación del sitio.
- Google: no maneja inclusión pagada, no indica el tiempo que tarda para la indexación, ni asegura inclusión.
- Caloweb: no maneja inclusión pagada, esta asociado con Google.
- Northern Ligth: solo se registro la página de entrada al sitio, debido a sus normas, su crawler (Gulliver) encuentra el resto de las páginas, no garantiza inclusión.
- Excite y WebCrawler: no se pudo registrar ya que solo maneja la opción de pago por clics, es decir, al registrarlo se adquiere el compromiso de pagar por cada clic que haga un usuario a la página registrada a través de su motor de búsqueda.
El sitio se registró en otros motores de búsqueda, a través de los siguientes programas de registro automático:
Estas herramientas, en conjunto, permiten el registro en los siguientes motores:
- 1001sites: http://www.1001sites.com/
- 100links: http://www.100links.com.ar/
- Aeiou: http://www.aeiou.pt/
- Alexa: http://www.alexa.com/
- All the sites: http://www.allthesites.com/
- All the web: http://www.alltheweb.com/
- AltaVista: http://www.AltaVista.com
- Aol Netfind: http://www.aol.com/netfind/
- Anzwers
- Biwe: http://www.biwe.es/
- Bizcardz: http://www.bizcardz.net/
- Buscador.com: http://www.buscador.com.mx/
- Infoseek: http://www.infoseek.com
- Chemedia: http://www.chemedia.com/
- dmoz http://dmoz.org/
- Direct hit: http://www.directhit.com/
- El cano: http://www.elcano.com
- Estrenando http://www.atajos.com/estrenando.shtml
- Euroferret: http://www.euroferret.com/
- Freeservers: http://www.freeservers.com/
- Google: http://www.google.com
- Guia.com.ar: http://guia.com.ar
- Hispavista http://hispavista.com/
- Hotbot
- Iguana http://www.iguana.com.mx/
- Ibcne: http://www.ibcnet.com/
- Infomak: http://infomak.com/
- Interhispano: http://www.interhispano.com/
- Intersearch
- Jayde: http://www.jayde.com/
- Jopinet: http://www.jopinet.com/
- Fireball: http://www.fireball.de/
- Kaixo: http://www.kaixo.com/
- Offcampus: http://www.offcampus.es
- Ole
- Ozú
- Pa: http://www.pa/index.html
- País vasco http://www.paisvasco.com/
- Lycos: http://www.lycos.com
- Mexicoweb: http://www.mexicoweb.com.mx/
- Nerdworld: http://www.nerdworld.com/
- Northern Ligth: http://www.northernlight.com/
- Pro Find: http://www.profind.com/
- Polarsearch:
- Powercrawler: http://www.powercrawler.com/
- Rex: www.rex.com
- Sbel: http://www.sbel.com.mx/
- Search it: http://www.searchit.com/
- Search King: http://www.searchking.com/
- Scrub the web: http://www.scrubtheweb.com/
- Skyline http://rex.skyline.ne/
- Starting point http://www.stpt.com/
- Tarantula
- Telepolis http://www.telepolis.com/
- Terra: http://www.terra.com
- Todoweb: http://buscador.todoesp.es/
- Uk Index: http://www.ukindex.co.uk/
- Voila: http://www.voila.fr/
- What u seek: http://sitelevel.whatuseek.com/
- Yahoo: http://www.yahoo.com
- Yeehaa: http://www.yeehaa.com/
- Yellow: http://www.yellow.com.mx/
- Yupi: http://www.yupimsn.com/
- Yuju: http://www.yuju.com/
La siguiente dirección ofrece enlaces a varias herramientas de registro automático gratuito, incluyendo las mencionadas en el documento, las herramientas de registro automático no son 100% confiables: http://members.fortunecity.com/akrapovic/motoresdebusqueda.htm
Hasta el momento el sitio ha sido indexado por los siguientes motores de búsqueda:
- Search King http://www.searchking.com/: es un motor de búsqueda que indexa inmediatamente, devuelve la clasificación que le otorga a cada una de las palabras claves, mismas con las cuales podrá ser localizada. La clasificación indica la posición donde se ubica el documento en respuesta a la consulta con esos términos de búsqueda.
Las palabras claves de las páginas registradas se muestran en la tabla 5, el motor de búsqueda no es sensible a palabras acentuadas ni a mayúsculas, el registro se realizó el día 27 de Enero del 2002. Las páginas pueden ser localizadas, en este motor de búsqueda, con cualquiera de las palabras claves (o frases) mostradas en la tabla 5. La posición puede variar ya que su crawler está indexando páginas constantemente.
Palabras claves |
Clasificación |
Motores de busqueda |
2 |
Crawlers |
3 |
Índices |
4 |
Meta datos |
1 |
Buscadores imágenes |
1 |
Imágenes |
4 |
Especializados |
1 |
Herramientas |
2 |
Búsqueda |
1 |
Robots |
8 |
Spiders |
10 |
Search engines |
103 |
Tabla 5 Clasificación de las palabras claves en Search King
- Inter hispano http://www.interhispano.com/: es un motor de búsqueda pequeño, basado en crawler y en directorio. Toma muy en cuenta las palabras que se encuentran en la descripción. Genera buenos resultados a las consultas: buscadores, especializados, buscadores especializados, buscadores de imágenes, motores de búsqueda, directorios, crawlers, meta motores, etc.
- 100 links http://www.100links.com.ar/: advertencia éste motor de búsqueda despliega banners con contenido no apto para menores en la parte inferior de la consulta, es un motor argentino, de regular tamaño. Genera buenos resultados a las consultas: crawlers, directorios, búsqueda, motor busqueda, especializados.
- Jopinet http://www.jopinet.com/: es un directorio que permite búsquedas por palabras claves dentro de las categorías. No es relevante para el objetivo de esta parte de la implementación, ya que no esta basado en crawlers. Sin embargo puede desplegar las páginas registradas con las siguientes consultas: crawlers, buscadores especializados, buscadores imagenes, meta motores, meta búsqueda, meta buscadores.
- Yupi http://www.yupimsn.com/: es un directorio que aprobó el sitio (29/01/02) para anexarlo a su base de datos, permite la búsqueda por palabras claves, pero genera muy pocos resultados, es decir no asocia bien los resultados que contiene sus categorías mediante la búsqueda por palabras claves. Solamente se pudo acceder a la página registrada navegando por su árbol temático, en el siguiente orden: Tecnologia/ Internet/ buscadores en Internet. Una forma de llegar ahí de forma directa es: http://busqueda.yupimsn.com/categorias/tecnologia/internet/buscadoresi/. La página ocupa el primer lugar dentro de esa categoría. Tampoco es relevante para el objetivo de esta parte de la implementación, ya que no esta basado en crawler.
- El cano: http://www.elcano.com. Es un motor de búsqueda basado en directorio, las páginas fueron indexadas el (03/02/02) aún no se analizan los resultados que obtuvieron.
Aunque aún ninguno de los principales motores de búsqueda han indexado las páginas registradas, los motores de búsqueda anteriores (principalmente search king) pueden sustentar la efectividad de los criterios planteados en el objetivo de este documento, el resto es cuestión de tiempo y un poco de paciencia. [SUBIR]
4.4 CONCLUSIONES
La investigación realizada resultó más interesante de lo que suponía, me ayudó a entender la forma como operan las herramientas de búsqueda en varios planos.
Los motores de búsqueda se han convertido en un servicio básico para la comunidad de Internet, sin embargo, tienden a tomar un curso de comercialización que antepone los intereses personales u organizacionales a los de ofrecer un servicio de calidad. Su mecánica es tan simple como astuta, surgen como una pequeña herramienta ansiosa por ayudar a que la información esté al alcance de todos, mientras hacen crecer su base de datos. Mientras más grande sea más atracción tendrá para los usuarios finales, mientras más usuarios leales mantenga más personas u organizaciones querrán añadir su sitio en las listas del motor. Una vez que el motor ha alcanzado suficiente popularidad, ya no da cabida tan fácilmente, ahora deberás llenar una solicitud y esperar a que ellos decidan evaluarte y desde luego incluirte, claro a menos que quieras pagar por el servicio, ¡buen negocio!. Este retrazo en la indexación impide que muchos documentos de calidad queden a nuestro alcance o lleguen con un gran retrazo. El negocio es redondo, cobran por registrar el sitio, por mantenerlo, e incluso algunos cobran por cada clic que generen los usuarios desde su motor. Pero además existen otros que cobran por un registro en un número masivo de motores de búsqueda o por ayudarte a mejorar tu posición en las listas de resultados.
Por otro lado es fascinante la evolución e importancia que están tomando los motores, la utilización de nuevas técnicas o la refinación de sus algoritmos gracias a los ataques de los webmasters, para el caso de los basados en crawlers. Los meta motores parecer ser una buena solución al crecimiento desbordante de la información, sin embargo deberán mejorar algunos de sus criterios, por ejemplo: actualmente muestran los resultados agrupándolos por el motor que los devolvió, una mejor solución sería agruparlos por orden de relevancia, es decir todos los resultados número uno de cada motor, los número dos y así sucesivamente. Cabe resaltar que los meta motores subsisten gracias a los motores de búsqueda basados en crawlers y en directorios. Otra versión de los meta motores que parece tener futuro son los meta directorios, ya que estos esperan vencer la limitante de los directorios, la cantidad de información.
Los tres tipos de motores de búsqueda tienen todavía mucho que ofrecer y varios retos que afrontar, con el surgimiento de nuevas tecnologías de búsqueda, el cual ya está en desarrollo.
Personalmente me ayudó a manejar mejor las herramientas de búsqueda utilizando los lenguajes de consulta. Me deja las bases sobre la forma como operan interna y externamente estas herramientas, y la satisfacción de ver que mi sitio aparece en los encabezados de algunos motores en un tiempo muy corto. El trabajo realizado me motiva a indagar más sobre el tema, enfocándolo esta vez a la forma como programan los agentes inteligentes o crawlers.
[SUBIR]
[COMENTARIOS] [ANTERIOR] [INICIO] [SIGUIENTE]