IV IMPLEMENTACIÓN
La implementación busca reafirmar la influencia de los criterios planteados en el objetivo de este documento, se presenta en dos pasos. El primero consiste en un muestreo de resultados arrojados por algunos de los motores de búsqueda más populares en respuesta a varias consultas. Las muestras se analizarán para ver si contienen los criterios planteados en el objetivo. La segunda parte consiste en la creación de un sitio aplicándole dichos criterios, para comprobar si realmente influyen en la clasificación que les otorgan los motores de búsqueda.
4.1 DESARROLLO DE PRUEBAS MEDIANTE MUESTREO EN LA RED
Para la elección de los motores de búsqueda, utilizados en el muestreo de las consultas, se consideró la recurrencia que tuvieron en las páginas que se revisaron para formar la parte teórica de la monografía, en las clasificaciones que les dan algunos sitios y en el propio conocimiento sobre la popularidad que tienen.
- AltaVista: uno de los motores más grandes en términos de páginas indexadas. Además de la búsqueda de información general, ofrece búsqueda de noticias, compras, multimedia y resultados basados en directorios provenientes de LookSmart. Inició en Diciembre del 1995 como propiedad de Digital (como altavista.digital.com), después por Compaq, quien compro Digital en 1998 (como Altavista.com). Finalmente, en Agosto de 1999, como una empresa separada controlada por CMGI. Su dirección es http://www.altavista.com/
- Excite: fundado por los hackers Mark Van Haren, Ryan McIntyre, Ben Lutch, Joe Kraus, Graham Spencer, y el especialista en ciencias políticas Martin Reinfried. En línea desde Diciembre de 1995, compró Magellan y posteriormente, en Noviembre de 1996, WebCrawler. Ofrece un servicio 50% basado en crawler y 50% basado en el directorio LookSmart. Magellan fue descontinuado en Abril del 2001. WebCrawler se puede usar por separado, pero genera los mismos resultados desde Excite en búsquedas por frase. Su dirección es http://www.excite.com/
- Web Crawler: Inició como un servicio independiente, abierto al público el 20 de Abril de 1994. Fue el resultado de un proyecto en la Universidad de Washington de Brian Pinkerton. America Online lo compró en Marzo de 1995, posteriormente en Noviembre de 1996 lo adquirió Excite. Su dirección es http://www.webcrawler.com/
- Lycos: realizado en la Universidad Carnegie Mellon por el doctor Michael Mauldin, se puso en línea en Junio de 1994, destaca por la cantidad de direcciones y referencias que devuelve. Después de una serie de adquisiciones, Lycos Network consiste de: Gamesville, Tripod, WhoWhere, Lycos Communications Angelfire, Hotbot, Wired News, Quote, Sonique, y Webmonkey. Su dirección es http://www.lycos.com/
- Google: Creado por unos estudiantes de la Universidad de Stanford, en línea desde 1997, hace uso de enlaces de popularidad como forma principal para la clasificación de las páginas, es decir, en base al número de enlaces que apuntan a los documentos. Resulta bueno para búsquedas de temas generales, como autos y viajes, porque a través de la votación que ofrecen algunos sitios muestran enlaces a esas páginas. Google provee resultados a Yahoo (desde el 2000) y a Netscape (desde 1999). Su dirección es http://www.google.com
Nota Importante: En el análisis de las consultas se presentan el título y las meta palabras claves tal y como aparecen en el código de las páginas HTML, por lo cual se pueden encontrar faltas de ortografía o un uso a placer de mayúsculas y minúsculas. La razón por la cual se decidió hacerlo así es que pueden ser parte de la refinación realizada en la página para mejorar su clasificación.
4.2 RESULTADOS DE LAS CONSULTAS
A continuación se muestran los resultados de tres consultas realizadas sobre los motores de búsqueda mencionados en el apartado anterior, las tres consultas tienen características diferentes, una es por palabra, otra por frase y la última utilizando operadores del lenguaje de consulta. En ellas se pretende observar la importancia que le atribuyen los motores de búsqueda a los criterios planteados en el objetivo.
4.2.1 PRIMERA CONSULTA
Muestra el comportamiento de los motores de búsqueda a una consulta por palabra, los resultados que arrojen simplemente deberán contener la palabra elegida: acordes.
4.2.1.1 Resultados a la consulta acordes en Altavista
- http://www.atame.org/
- http://guitarra.net/
- http://www.centraldamusica.com.br/noticias/colunas_acordes.asp
- http://www.geocities.com/myr95150/partituras/Acordes.html
- http://www.geocities.com/colosseum/pennant/9632/acordes.html
- http://noticias.mel.com/FutSoccer/FutSoccer4.html
- http://tresacordes.cosmo.com.br/
- http://www.votolatino.com.ar/
- http://www.terra.es/cine/cartelera/
- http://revista.robotiker.com/
4.2.1.2 Resultados a la consulta acordes en WebCrawler
- http://guitarra.net/
- http://www.atame.org/
- http://www.geocities.com/SiliconValley/Heights/6109/
- http://members.tripod.com/cmusical/acori_l.htm
- http://www.amazon.com/exec/obidos/ASIN/0825615402/107-3096002-3380532
- http://usuarios.uninet.com.br/~jvaz/gtpm1.htm
- http://server39.hypermart.net/edgardrg/
- http://www.angelfire.com/ri/calderon/fram.html
- http://www.gieco.com/indice_general/Indice_General.htm
- http://members.tripod.de/
4.2.1.3 Resultados a la consulta acordes en Lycos
- http://www.atame.org/
- http://members.tripod.com/cmusical/acori_l.htm
- http://www.100mbps.es/gonan
- http://www.atame.org/principal.html
- http://www.cancionero.com.ar/
- http://ar.geocities.com/axelgul
- http://es.geocities.com/orion_yeah/Canciones.html
- http://www.geocities.com/vanguardia_rock
- http://acordes.8m.com/
- http://members.tripod.co.uk/tablatina
4.2.1.4 Resultados a la consulta acordes en Google
- http://www.votolatino.com.ar/serv/acordes.htm
- http://www.100mbps.es/gohan/
- http://www.atame.org/
- http://ar.geocities.com/axelgul/
- http://www.tresacordes.com/
- http://www.angelfire.com/ri/calderon/fram.html
- http://www.angelfire.com/sd/par/inti.html
- http://www.guitarra.net/religioso.htm
- http://www.geocities.com/SiliconValley/Heights/6109/
- http://acordes.8m.com/
4.2.1.5 Resultados a la consulta acordes en Excite:
- http://orbita.starmedia.com/~sodasin/guitarra.htm
- http://atame.unicyber.org/s/santana/
- http://www.daleestopa.com/
- http://www.geocities.com/Colosseum/Track/6848/netcavaco.htm
- http://www.terravista.pt/Enseada/3105/
- http://home10.inet.tele.dk/kasperk/Always.txt
- http://ils.student.utwente.nl/main/m/manuel_victor/solo_penso_en_ti.crd
- http://alternativemusicstop.webjump.com/
- http://members.aol.com/carussho/index.html
- http://members.tripod.com/wbeatles/tabs.htm
[SUBIR]
4.2.2 SEGUNDA CONSULTA
Se realizó por frase, es decir, los resultados deberán contener todas las palabras de los términos de búsqueda en ese mismo orden, la frase es object oriented programming. Excite y WebCrawler ofrecieron los mismos resultados. Todos permiten definir que se desea la búsqueda por frase mediante comillas, excepto Lycos que ofrece la opción en una lista en la forma de la consulta.
4.2.2.1 Resultados a la consulta de la frase "object oriented programming" en AltaVista
- http://www.webreference.com/js/column80/
- http://oopsla.acm.org/
- http://www.accu.org/acornsig/public/articles/oop_c.html
- http://www.hcc.hawaii.edu:8000/cgi-bin/HyperNews/get/forums/ics151j.2.html
- http://webopedia.internet.com/TERM/o/object_oriented_programming_OOP.html
- http://java.sun.com/docs/books/tutorial/java/concepts/index.html
- http://ecoop2000.unice.fr/
- http://www.geocities.com/tablizer/oopbad.htm
- http://www.toodarkpark.org/computers/objc/
- http://citeseer.nj.nec.com/did/106401
4.2.2.2 Resultados a la consulta de la frase object oriented programming en Lycos:
- http://www.gnacademy.org/uu-gna/text/cc/Tutorial/tutorial.html
- http://www.accu.org/acornsig/public/articles/oop_c.html
- http://www.desy.de/gna/html/cc/
- http://www.quiver.freeserve.co.uk/OOP1.htm
- http://www.joopmag.com/
- http://www.geocities.com/tablizer/oopbad.htm
- http://www.cs.rpi.edu/~szymansk/oof90.html
- http://liinwww.ira.uka.de/bibliography/Object/
- http://www.planet-source-code.com/
- http://webopedia.internet.com/TERM/o/object_oriented_programming_OOP.html
4.2.2.3 Resultados a la consulta de la frase "object oriented programming" en Google:
- http://www.joopmag.com/
- http://www.cs.rpi.edu/~szymansk/oof90.html
- http://oopsla.acm.org/
- http://www.cetus-links.org/
- http://java.sun.com/docs/books/tutorial/java/
- http://java.sun.com/docs/books/tutorial/java/concepts/
- http://www.geocities.com/tablizer/oopbad.htm
- http://www.desy.de/gna/html/cc/Tutorial/tutorial.html
- http://catalog.com/softinfo/objects.html
- http://www.gnacademy.org/text/cc/
4.2.2.4 Resultados a la consulta de la frase "object oriented programming" en WebCrawler /Excite:
- http://www.ihaveesp.com/
- http://www.informit.com/
- http://www.itmoonlighter.com/
- http://www.traininghott.com/Courses/Object-Oriented-Analysis-Design-Hands-On-Training-Course-Class-Seminar-OOAD-OO.htm
- http://www.gandgtech.com/
- http://www.cs.rpi.edu/~szymansk/oof90.html
- http://www.gnacademy.org/uu-gna/text/cc/Tutorial/tutorial.html
- http://search.ebay.com/search/search.dll?query=object+oriented+programming
- http://www.joopmag.com/
- http://catalog.com/softinfo/objects.html
[SUBIR]
4.2.3 TERCERA CONSULTA
Se realizó por frase, utilizando operadores para obligar a incluir o excluir ciertas palabras en los resultados de la búsqueda, la frase es: +programming + tutorial -c -c++. El signo más (+) indica que la palabra debe aparecer en los resultados y el signo menos ( -) que la palabra no debe ser incluida en los resultados. Las palabras tutorial y programming pueden aparecer en cualquier orden, aún cuando una no preceda a la otra inmediatamente. Excite y WebCrawler ofrecieron los mismos resultados. Todos los motores de búsqueda utilizados soportan los operadores de inclusión (+) y exclusión (-).
4.2.3.1 Resultados a la consulta de la frase +programming + tutorial -c -c++ en AltaVista:
- http://www.cs.chalmers.se/~rjmh/tutorials.html
- http://modena.intergate.ca/personal/iago/javatut/
- http://www.geocities.com/SiliconValley/Park/9784/tut.html
- http://java.sun.com/docs/books/tutorial/index.html
- http://hotwired.lycos.com/webmonkey/programming/php/tutorials/tutorial4.html
- http://citeseer.nj.nec.com/10686.html
- http://www.phrantic.com/scoop/onjava.html
- http://www.phrantic.com/scoop/tocpyth.htm
- http://xml101.com/
- http://www.mactech.com/
4.2.3.2 Resultados a la consulta de la frase +programming + tutorial -c -c++ en Lycos:
- http://modena.intergate.ca/personal/iago/javatut/jtp2.htm
- http://www.quiver.freeserve.co.uk/OOP1.htm
- http://www.phrantic.com/scoop/tocadv.htm
- http://www.geocities.com/SiliconValley/Park/9784/tut.html
- http://lightsphere.com/dev/class/
- http://www.davesite.com/webstation/html/
- http://sepwww.stanford.edu/sep/josman/oop/oop1.htm
- http://www.geneticalgorithms.com/
- http://www.cse.cuhk.edu.hk/~csc4510/prolog/tutorial.1/1.htm
- http://perso.wanadoo.es/antlarr/tutorial.html
4.2.3.3 Resultados a la consulta de la frase +programming + tutorial -c -c++ en Google:
- http://modena.intergate.ca/personal/iago/javatut/
- http://www.geneticprogramming.com/Tutorial/
- http://java.sun.com/docs/books/tutorial/
- http://phrantic.com/scoop/tocpyth.htm
- http://phrantic.com/scoop/tocadv.htm
- http://www.genetic-programming.com/gpanimatedtutorial.html
- http://developer.apple.com/java/javatutorial/
- http://www.quiver.freeserve.co.uk/OOP1.htm
- http://www.acm.vt.edu/~scott/cgi.html
- http://www.cit.ac.nz/smac/pascal/default.htm
4.2.3.4 Resultados a la consulta de la frase +programming + tutorial -c -c++ en WebCrawler /Excite:
- http://java.sun.com/docs/books/tutorial/
- http://www.eng.uc.edu/~jtilley/tutorial.html
- http://modena.intergate.ca/personal/iago/javatut/
- http://www.cs.chalmers.se/~rjmh/tutorials.html
- http://www.phrantic.com/scoop/onjava.html
- http://www.geneticprogramming.com/
- http://www.gamelan.com/
- http://lightsphere.com/dev/class/
- http://www.calweb.com/~frank/
- http://g.oswego.edu/dl/pats/aopintro.html
[SUBIR]
4.2.4 CONCLUSIONES DEL MUESTREO
La tabla 4 muestra un resumen de los resultados que se obtuvieron del muestreo realizado en los motores de búsqueda AltaVista, Lycos, Google, WebCrawler y Excite. De éste último solo se realizó la consulta por palabra (acordes), ya que en la consulta por frase (object oriented programming) y en la búsqueda con operadores (+programming +tutorial -c -c++) arrojó los mismos resultados que WebCrawler, es por eso que al final se hace una agrupación de resultados contemplando a Excite y sin contemplarlo. Después de la tabla se explica que es lo que se está evaluando en cada columna.
Motores |
Título |
Primeras Líneas |
Palabras claves |
URL/ Dominio |
Contenido |
Tablas/ scripts |
Marcos |
Spam |
Ruido |
Altavista |
75% |
75% |
46% |
10% |
93% |
50% |
11% |
7% |
11% |
Lycos |
76% |
59% |
52% |
10% |
97% |
50% |
14% |
10% |
7% |
Google |
79% |
68% |
50% |
32% |
89% |
55% |
14% |
4% |
4% |
WebCrawler |
69% |
59% |
34% |
17% |
69% |
55% |
10% |
7% |
14% |
Excite |
40% |
40% |
0% |
0% |
60% |
50% |
30% |
0% |
10% |
Con Excite |
68% |
60% |
36% |
14% |
82% |
52% |
16% |
6% |
9% |
Sin Excite |
75% |
65% |
46% |
17% |
87% |
53% |
12% |
7% |
9% |
Motores |
Tamaño mínimo(k) |
Tamaño promedio(k)
| Tamaño máximo(k) |
Enlaces a la página
| Enlaces muertos |
Altavista |
2 |
24 |
89 |
100% |
7% |
Lycos |
1 |
12 |
52 |
97% |
3% |
Google |
1 |
17 |
113 |
100% |
3% |
WebCrawler |
1 |
21 |
147 |
86% |
0% |
Excite |
1 |
16 |
44 |
10% |
0% |
Con Excite |
1 |
18 |
89 |
79% |
3% |
Sin Excite |
1 |
19 |
100 |
96% |
3% |
Tabla 4. Porcentajes del muestreo
Título: indica el porcentaje de las páginas que contemplaron los términos de la búsqueda en el título de la página HTML.
Primeras líneas: porcentaje de las páginas que contemplaron los términos de la búsqueda en el las primeras líneas de su contenido.
Palabras claves: porcentaje de las páginas que contemplaron las meta palabras claves, y que además tienen relación con los términos de la búsqueda.
URL/Dominio: porcentaje de las páginas que contemplaron los términos de la búsqueda en la URL o en el dominio.
Contenido: porcentaje de los resultados en los cuales los términos de la consulta aparecen en el contenido de la página.
Tablas/scripts: porcentaje de las páginas que utilizan tablas y/o scripts dentro del diseño. Las primeras líneas son menos relevantes para los crawlers cuando las anteceden tablas o scripts.
Marcos: porcentaje de las páginas que utilizan marcos, algunos motores de búsqueda no pueden seguir los enlaces a través de ellos.
Spam: indica el porcentaje de las páginas que utilizaron alguna técnica de spam para mejorar su clasificación.
Ruido: indica el porcentaje de ruido (resultados imprecisos) que arrojaron los motores de búsqueda.
Tamaño: indica los tamaños de página mínimo, promedio y máximo dentro de los resultados de cada motor de búsqueda.
Enlaces a la pag.: porcentaje de resultados que tienen vínculos desde otras páginas (enlaces de popularidad).
Enlaces muertos: porcentaje de enlaces que no mostraron resultado, es decir, cuando la página ya no existe o cambio de sitio.
De los resultados de la tabla 4 se concluye lo siguiente:
- Los criterios que coinciden con los planteados en el objetivo del documento son la aparición de las palabras claves en el título, en las primeras líneas de contenido, en el contenido en general, y los enlaces de popularidad hacía la página. Lo cual muestra que estos criterios son básicos para determinar la relevancia de la página. Los enlaces de popularidad son especialmente importantes para algunos motores como AltaVista y Google y resultaron casi nulos para Excite.
- Las meta palabras claves también resultan importantes, aunque no generan el mismo estímulo que los criterios anteriores, en las consultas realizadas muchos de los primeros resultados no contenían meta palabras claves.
- La aparición de las palabras claves en el dominio o en la URL genera un estímulo no muy relevante y nulo para Excite.
- Los motores de búsqueda pueden interpretar e indexar correctamente las páginas cuyo diseño presenta tablas o scripts. Lo cual indica que su uso no resta importancia a la página.
- Todos los motores utilizados presentaron resultados de páginas con marcos, lo cual indica que pueden indexarlas correctamente, sin embargo el porcentaje de resultados de páginas con marcos es muy pequeño en relación con las que no los usan y todavía existen motores de búsqueda que no los soportan.
- Se encontraron varias páginas que hacen uso de técnicas de spam, principalmente redireccionamiento de páginas, texto invisible y repetición de palabras claves, lo cual reafirma un poco lo planteado en el objetivo. Aún así, es preferible no hacer uso de esas técnicas, ya que si son detectadas por algún motor de búsqueda, la página puede ser excluida de su base de datos o penalizada.
- El tamaño de la página no presenta ninguna importancia en la clasificación, se encontraron páginas que van desde 1k hasta 147k, el tamaño promedio fue de 19k.
- Entre los motores evaluados, los que parecen mantener más actualizado su índice son WebCrawler y Excite. El que realiza visitas menos frecuentes a los sitios es AltaVista.
- El motor que presento menos ruido en los primeros 10 resultados fue Google, es decir sus primeros resultados son más confiables, además es el motor que ofrece mejor tiempo de respuesta. El sitio con más resultados imprecisos (ruido) fue WebCrawler
[SUBIR]
[COMENTARIOS] [ANTERIOR] [INICIO] [SIGUIENTE]