motori di ricerca-cataloghi-portali

home page | mass media | internet | informatica | indice siti | Tim Berners-Lee

MOTORI di RICERCA in INTERNET

Spunti sull'uso di motori, metamotori e portali , criteri di ricerca

vedi linkografia in ../siti.htm (elenco aggiornato in www.albany.net/allinone/)

per navigare mantenendo anonimo l'indirizzo, evitando cookies ecc.: www.safeweb.com

server dell'ARPA

Motori di Ricerca (MR) e Categorie (Web directory)

preistoria: prima dell'interfaccia grafica

Archie nasce nel 1990 ad opera di Alan Emtage (universitario di Montreal) come software per la ricerca in rete: consentiva di navigare sui server che usavano protocollo ftp per la ricerca di file.
Tre anni dopo Veronica, progettato nell'Università del Nevada,accede anche ai server che usavano il protocollo gopher - sempre a linea di testo ma con modalità che consentivano una navigazione strutturata. Nel 1994 il primo motore per web
venne dall'Università di Pittsburg: Lycos, che lanciava piccoli " bot" e riportava qualche decina di risultati. Yahoo compare qualche mese prima: ma non si tratta più di un motore, bensì di un indice strutturato.

Premessa:

alla Berkely Un., Ca, esiste un bacino dati, chiamato Inktomi che copre circa un terzo delle risorse globali della rete: un enorme data base delle pagine dei siti presenti nelle 200mila e più reti esistenti nel web. Quasi tutti i MR fanno riferimento primario a tale banca dati. Gli automatismi mirano alla QUANTITA' dei dati, mentre le Categorie mirano alla QUALITA' delle informazioni (ma sono in arretrato, dovendo attendere un controllo manuale, rispetto alle acquisizioni automatiche operate dai MR). Ecco perché all'agosto 2000 le directory coprivano poco più di un milione di siti, mentre i motori di ricerca coprono mezzo miliardo di pagine).

MR come AUTOMATISMI

Per il pieno utilizzo dei MR, uso regolarmente da agosto 2001 il metamotore www.vivisimo.com.

La ricerca di informazioni su rete con robot e automatismi è tipica diwww.altavista.digital.com nata dalla Digital di Palo Alto nel 1995 - gestisce in Inkata (che ad aprile 2000 ha motore in grado di trattare 500 mln di pagine, metà del web) 250 mln di pagine controllate quotidianamente. Il 36% delle ricerche nel mondo si effettua con questo motore. Il nome nasce casualmente dall'associazione di due termini che su una lavagna mal cancellata apparivano uniti: Alto (da Palo Alto) e Vista.

(sett.2001) www.search.com (di CNET) cerca per argomenti (topics)

www.lycos.com (nato nell'ambiente Usa della Carnegie Mellon University, 1994, poi commericalizzatosi) usa un automatismo; oggi però contiene anche catalogo sistematico delle risorse.

www.euroseek.net motore europeo (in 36 lingue)

www.google.com motore velocissimo, non segnale a directory, ma punta al risultato diretto (a settembre 2003: 3 mld di pagine indicizzate, 200 mln di interrogazioni al giorno; a fine 2004: 8 mld di pagine indicizzate). L'algoritmo del MR è stato creato dagli studenti della Stanford Un. Sergey Brin e Larry Page nel 1998: invece di basarsi sulle parole chiave, esso misura l' importanza delle pagine web in modo obiettivo stabilendo - in base a complesse equazioni con più di 500 mln di variabili - la qualità e la rilevanza delle pagine. Il nome riprende il termine googol che sta a indicare il numero 10 alla 100ma potenza.

CATEGORIE (web directory: cataloghi sistematici per argomento

PORTALI cataloghi di indirizzi con raccoglitori di pubblicità (prevalentemente indirizzati alla vendita). Tutto ha origine nel 1994, due studenti della Stanford University, David Filo e Jerry Yang, organizzano un elenco dei loro siti preferiti, mettendo di conseguenza in piedi la prima Web directory. Si trattava di poche decine di siti (Jerry's Guide to the WWW") ma l'iniziativa , poi ovviamente commercializzatasi., diede origine a quello che sarebbe diventato il più potente portale:

www.yahoo.com. Si tratta della prima società che opera la scelta dell'organizzazione manuale della gerarchia per argomenti cui assegnare gli indirizzi [per l'indice specifico relativo alle risorse italiane dal 1999 c'è anche www.yahoo.it]. La ricerca si attua prima di tutto all'interno del database delle directory di yahoo. Yahoo inserisce la filosofia, come sottocategoria della specie Humanities a sua volta parte del genere Arts [BITTI-DIPALO 1997]. In subordine - se il termine cercato non compare nell'indice del motore, la ricerca viene trasferita a un potente motore interno di ricerca di parole chiave (si tratta del MR Inktomi) che setaccia giornalmente il web. Ha anche cercapersone per e-mail

Jerry Yang, lo studente di Stanford che nel 1994 mise in piedi la prima Web Directory.

Nel 2002 lamenta Chomsky, tutto è sotto controllo delle grandi multinazionali Times, Warner e altre.

www.exite.com compie ricerche per concetti con la tecnologia Intelligent Concept Extraction

www.magellan.com presenta i siti per argomento

www.infoseek.com e www.infoseek.it (per ricerche approfondite gerarchicizzate) legato anche a www.virgilio.it

www.opentext.com e www.hotbot.com

MOTORI ITALIANI

Arianna: www.airweb.com il più ricco motore italiano, partorito da ItaliaOnline, ricerca per categorie. Dal 2000 realizza l'indice sistematico www.katalogo.it (Espresso-Repubblica-Arianna).

www.virgilio.it per neofiti, strutturato ad indice

www.iltrovatore.it per parole chiave

www.Jumbo.it dedicato ai siti italiani

www.net.Sonar.it

www.RagnoItaliano.it per chiave e categoria

www.ShimySeek.it ricerca dei siti italiani

PORTALI italiani:

---- www.ciaoweb.it (dic 2001: vittima della "New Economi Ingenua" il portale di Agnelli ha chiuso, vendendo a Rusconi)

----- www.clarence.com

--- www.dada.it (provider toscano inizialmente per architetti) e www.supereva.it (che mi offre lo spazio per questo sito)

--- www.Jumpy.it (Fininnvest)

---- www.kataweb.it (Espresso-Repubblica)

--- www.msn.it (Microsoft): a fine 2004 utilizza un motore Search che tenta di levare il primato a google; Il motore ancora in prova ha già indicizzato 5 mld di pagine: http://beta.search.msn.com.

--- www.netscape.com/it Netcenter Italia

----- www.punto.it

--- www.spray.it con guida ad Internet

---- www.tin.it (Telecom),

--- www.freeonline.org (tutto il sw freeware italiano)

---- www.explo.it

--- www.infinito.it

---- www.virgilio.it ---Italia Online oltre che Motori sono anche portali

Il più sofisticato www.vivisimo.com perché basato su ricerca semantica.secondo i concetti precisati da Tim Berners-Lee. Vivisimo applica per la prima volta in modo esteso la ricerca semantica raggruppando i risultati in "canestri" differenziati per valore semantico. Per esempio la ricerca "Cremonino" dà in un canestro tutti i link che associano il termine ricercato a "Cesare Cremonino -.filosofo", in un altro canestro tutti i termini che associano a "Giovanni Cremonini", in un altro a "Cremonini - via", un altro a "Cremonini - scuola", ecc. Non solo questo tipo di ricerca facilita l'orientamento, ma dà un risultato abbastanza chiaro circa la visibilità in rete dell'oggetto della ricerca. Già www.google.com utilizzava algoritmi avanzati di ricerca, ma erano e sono basati solo sulla popolarità del sito. Un servizio con risultati raggruppati a "canestro" era in precedenza fornito dal MR www.northernlight.com che rastrella direttamente il web. Viceversa Vivisimo è un metamotore, che gestisce gli automatismi dei principali motori e delle web directory (Verity, Inktomi, Ultraseek, Microsoft Conversa, Open Directory, Fast, Altavista, Yahoo, Netscape, Looksmart, DirectHit, Euroseek, Exite, Lycos, ecc.), secondo un'architettura logica impostata da Tim Berners-Lee.

www.Alltheweb.com (sviluppato da Fast) ha superato il limite dei 300 milioni di documenti indicizzati in gennaio 2000.

www.cerca.com ricerca incrociata per siti e argomenti

www.useit!.com ricerca incrociata per categorie e chiave (su 300 MR)

Querox DB di MR

www.webcrawler.com indicizza i siti più visitati e www.metacrawler.com (ricerche su 13 motori contemporaneamente)

www.motoridiricerca.it

------

referenze

Bitti-Dipalo 1997: Vincenzo Bitti, Francesco Dipalo, Filosofia e scuola, due percorsi sulla rete internet italiana, Roma: SFI, 1997

CRITERI DI RICERCA

Per evitare errori comuni nella costruzione di un sito, visitare www.worstoftheweb.com

"Web Directory(categorie) e Motore di Ricerca"

Le categorie sono costruite tramite i sunti forniti dai webmaster attraverso i TITOLI, hanno un aggiornamento qualitativo ma non hanno l'aggiornamento veloce.

Il MR invece mira alla quantità e alla velocità nell'indicizzare i documenti.

azione	categorie (web directory)	motore di ricerca
La ricerca porta->	alla pagina iniziale di un sito web	alla pagina esatta che contiene le parole-frasi cercate
Conviene per trovare	siti che vendono automobili una lista dei siti dei maggiori quotidiani. la lista dei migliori libri dell'anno	un particolare modello di auto una citazione da un articolo anche se non sai da quale giornale è tratta una citazione particolare
Conviene per sapere	dati sul le ultime scoperte scientifiche.	di più su una cura proposta dal tuo dottore
Per fare richieste	generiche e poi lasciarsi guidare nelle scelte	precise e per risposta veloce

Il principale programma robot di Altavista, Scooter, indicizza 5 mln di pagine al giorno attraverso la ricerca di link tra siti. Altavista, con vari robot specializzati, indicizza 10 mln di pagine al giorno in automatico.

Altavista non gestisce solo i metatag (parole chiave che vengono inserite nell’Html del sito per descriverne i contenuti), ma tutte le pagine, senza trattamento gerarchico. Per sapere quante pagine del sito abc.com sono indicizzate, si usa il comando Altavista "link:abc.it", per conoscere l'indicizzazione di termini precisi ALL'INTERNO di un sito: "host:abc.it AND ("termine preciso" OR parola OR confidenziale OR privato)

Invece per trovare le pagine che contengono hyperlink al sito abc.it ESCLUSE quelle del sito stesso:

+link:abc.it -host:abc.it.

Gli indicizzatori ovviamente trattano i TITOLI (nella testata della pagina htm) che quindi devono essere relativi al contenuto della pagina e non ripetersi nelle altre pagine e gli ANCORAGGI, ovvero il testo evidenziato nei link.

Per capire quali pagine di un sito "abc.it" sono collegate ad un altro o altri siti (def.org e ghi.org)

host:abc.it AND (link:def.org OR link:ghi.org)

IL WEB MASTER di abc.it PUO' FORNIRE UNA RICERCA DENTRO IL SUO SITO attraverso queste fasi:

· Cerca il suo sito con AltaVista (host:abc.it)

· Salva l’URL della prima pagina dei risultati

· Crea un link su una pagina del sito a questo URL

· Segnala ai visitatori di scrivere host:abc.it prima dei termini della loro ricerca

inserire un collegamento con l’indicazione: "Ricerca sul sito tramite AltaVista: scrivi quello che stai cercando dopo host:abc.it nel box di ricerca"

Se il suo nome di dominio è miodominio.com, la ricerca per salvare l'URL e creare il collegamento sarà :

host:miodominio.com

Il visitatore, cliccando sul link, si collegherà ad AltaVista e troverà host:miodominio.com nel box di ricerca: non dovrà fare altro che scrivere quello che cerca dopo il testo "host:miodominio.com".

Per aver una traduzione automatica delle pagine del suo sito abc.it [da inserire poi come link in cima alla pagina, con l'ancoraggio: "Traduzione automatica" (meglio in più lingue)], il webmaster deve:

· Cercare le pagine che vuole tradurre (con host:abc.it vedrà tutte le pagine indicizzate del sito).

· Cliccare su "Traduci" che comparirà in fondo ai risultati traducibili. Comparirà la pagina di traduzione di AltaVista con l’URL della pagina da tradurre già nell’apposita area.

· Controllare l’URL della pagina nel box dell’indirizzo. L’URL viene assegnato all’area di traduzione. (che dovrebbe già contenere l’URL del testo da tradurre).

· Aggiungere questa pagina ai suoi siti preferiti. Tramite Copia e Incolla può usare l’URL per creare un hyperlink tra la pagina e la sua versione tradotta.

Se il titolo è chiaro e indica le parole chiave della pagina, se all'interno del BODY c'è un titolo realmente significativo del contenuto della pagina stessa, NON E' NECESSARIO aggiungere altro; ma se non è perfettamente chiaro il discorso della pagina, p.e. perché molto tecnico, lo si può connotare attraverso termini sinonimi nella parte dell'HEAD, tramite l'istruzione META. Si tratta infatti di metatag: sono esenziali nel caso si voglia rinunciare alla traduzione della pagina, e se si vuole che compaia nel rmotere di ricerca una sintesi del contenuto. Esempio:

HTML>

<HEAD>

<TITLE>Titolo della pagina</TITLE>

<META name="keywords" content="lista di parole chiave">

</HEAD>

<BODY>

Il webmaster deve solo chiedere al servizio di traduzione Altavista http://www.altavista.it/content/babel_fish/ di tradurre la metatag nelle lingue desiderate. Con un veloce Copia e Incolla deve poi portare la traduzione nella lista di parole chiave del METAtag (facendo attenzione agli accenti ) e, conclusa questa fase, aggiungi URL della pagina tradotta. Il nuovo testo della pagina, inclusi i termini stranieri appena inseriti nel METAtag, verrà indicizzato da AltaVista.

Nella compilazione delle pagine, ancore e METAtag conviene utilizzare termini specifici: maggiore è la precisione della pagina e maggiori saranno i vantaggi (in basse alle formule proprietarie di Altavista per calcolare il valore e la coerenza di una pagina).

Per inserire il proprio sito all’interno dei robot di indicizzazione basta creare un breve file di istruzioni (chiamato "robots.txt") e posizionarlo nella directory principale del sito (quella che contiene la pagina principale). Se poi in tale file si indica di NON indicizzare, il robot, rispettando il protocollo "Robot Exlusion Standard" eviterà l'indicizzazione. Se però l'ISP da cui dipende il sito ha un suo indicizzatore, è chiaro che di default il robot utilizzerà quell'indice ed escluderà l'analisi del sito. Per bypassare questo automatismo, bisogna che nel file "robots.txt" compaia in prima riga:. Disallow: *

Per escludere solo l’indicizzatore di AltaVista (noto come "Scooter") il file deve contenere:

User-agent: scooter # AltaVista web page search

Disallow: *

Per escludere immagini:

User-agent: vscooter # AltaVista Image Search

Disallow: *

Infine, se chi vuole escludere solo un particolare file o una directory, basta anteporre la parola “Disallow:” all’indirizzo. Ad esempio

Disallow: /images/personal/

E' possibile escludere anche la singola pagina senza passare dall'ISP, inserendo nel metatag::

<meta name=robots content="noindex, nofollow">

in Altavista Robot: NOINDEX proibisce ogni indicizzazione. NOFOLLOW impone di ignorare i link. NOIMAGEINDEX proibisce l’indicizzazione delle immagini ma non del testo.

RICERCA SEMPLICE

ricerca semplice	risultati su Altavista
monna lisa	Trova i documenti che contengono sia monna che lisa e tutte le combinazioni di maiuscole (Monna, MONNA, liSA, Lisa). AltaVista mostra prima i documenti che contengono entrambe le parole, raggruppandoli e mettendoli all'inizio del documento.
Monna Lisa	TROVA i documenti che contengono sia Monna che Lisa ma non quelli che hanno combinazioni di maiuscole. Quando si usa una parola con la maiuscola, AltaVista considera che si stia cercando solo una corrispondenza esatta.
+monna +lisa	Trova solo i documenti che contengono entrambe le parole
"Monna Lisa"	TROVA SOLO i documenti che contengono entrambe le parole, con la maiuscola, disposte una di fianco all'altra. Le virgolette che delimitano una serie di parole vengono interpretate dal MR come una frase: la ricerca riguarderà solo i documenti che contengono queste parole in questo ordine.
+"Monna Lisa" -Louvre	Trova i documenti che contengono la frase "Monna Lisa" e non contengono la parola "Louvre"

+Monna+Lis*

TROVA SOLO i documenti che contengono Monna e tutte le parole che cominciano con Lis. Funzionalità da usare quando non si è sicuri di come è scritta la parola.

RICERCHE AVANZATE

Sono le ricerche con gli operatori booleani come di seguito:

Espressione	Simbolo	risultato
AND	&	riporta solo documenti con ENTRAMBI i termini pollo E patatine.
OR	\|	E' la ricerca di default: riporta tutti i documenti con almeno uno dei termini: pollo O patatine
AND NOT	!	(-) Esclude i documenti con il termine o la frase specificata: .pollo AND NOT patatine riporta i documenti con pollo ma non con patatine.. NOT deve essere usato insieme a AND
NEAR	~	riporta documenti che contengono entrambe le parole o frasi nell'ambito delle 10 parole di distanza tra le due cercate: pollo NEAR patatine troverà documenti con patatine pollo, ma non con altri tipi di patatine. Consigliabile quando si cerca per Cognome non avendo però a disposizione il nome o i nomi esatti: Al NEAR Bano comprende: Al Bano, Bano Al, Al detto Bano, Al Carlo Bano, "Al divenne finalmente il famoso Bano".
	()	La parentesi raggruppa le frasi booleane: (pollo AND patatine) AND (salsa o mostarda) trova documenti con le parole 'pollo patatine and salsa' o 'pollo patatine and mostarda', o entrambe.Altro esempio: (bmw AND mercedes) NEAR automobili AND NOT (usate OR Ferrari). Altro esempio: ("aless" OR "ale") NEAR (bano)

Parole chiave speciali che servono a definire l’ambito della ricerca (sia nella semplice che nell'avanzata):

parola chiave	trova:
anchor:	pp. contenenti la parola o frase specificata nel testo di un hyperlink. Es:anchor:"Cometa di Halley" riporta solo le pagine alle quali si arriva da un link specifico come "Cometa di Halley"
applet	pp. contenenti il Java applet specificato Es:applet:testo object:banner cerca ttuti gli applet o gli oggetti con il nome indicato nel testo
domain:	pp. all’interno del dominio specificato. Es:domain:edu AND "scoperte" riguarderà le scoperte contenute solo nei siti con dominio .edu.
host:	pp. su uno specifico computer. Es. in ricerca semplice: +host:greenpeace.org +petrolio, corrispondente alla ricerca avanzata: host:greenpeace.org AND petrolio
image:	pp. contenenti immagini con uno specifico nome di file. Es: domain:gov AND image:comet AND image:.jpg AND host:nasa dà come risultato le immagini in formato jpg, intitolate "cometa" e contenute nei siti NASA del governo americano.
link:	pp. contenenti link alla pagina dell’URL specificato. Es: link:miosito.com AND NOT host:miosito.com trova tutti i link al mio sito tranne quelli interni al mio sito
text:	pp. che non contengono il testo specificato nei tag delle immagini, nei link o nell’indirizzo URL. Es: text:"musica pop" cerca tutte le pp. che hanno effettivamente le parole riportate tra virgolette nel testo (anche se tali parole non erano indicate nel title o nei metatag)
title:	pp. contenenti la parola o frase specificata nel titolo (nella barra che compare nei browser)
url:	pp. contenenti la parola o frase specifica nell’indirizzo URL.

torna all'home page | mass media | internet | motori di ricerca e portali | informatica

Hosted by www.Geocities.ws