home page | mass media | internet | informatica | indice siti | Tim Berners-Lee
MOTORI di RICERCA in INTERNET Spunti sull'uso di motori, metamotori e portali , criteri di ricerca vedi linkografia in ../siti.htm (elenco aggiornato in www.albany.net/allinone/) per navigare mantenendo anonimo l'indirizzo, evitando cookies ecc.: www.safeweb.com
|
server dell'ARPA |
preistoria: prima dell'interfaccia grafica
Archie nasce nel 1990 ad opera di Alan Emtage (universitario di Montreal) come software per la ricerca in rete: consentiva di navigare sui server che usavano protocollo ftp per la ricerca di file.
Tre anni dopo Veronica, progettato nell'Università del Nevada,accede anche ai server
che usavano il protocollo gopher - sempre a linea di testo ma con modalità che consentivano una navigazione
strutturata. Nel 1994 il primo motore per web
venne dall'Università di Pittsburg: Lycos, che lanciava piccoli " bot" e riportava qualche decina di risultati. Yahoo compare qualche mese prima: ma non si tratta più di un motore,
bensì di un indice strutturato.
Premessa:
alla Berkely Un., Ca, esiste un bacino dati, chiamato Inktomi che copre circa un terzo delle risorse globali della rete: un enorme data base delle pagine dei siti presenti nelle 200mila e più reti esistenti nel web. Quasi tutti i MR fanno riferimento primario a tale banca dati. Gli automatismi mirano alla QUANTITA' dei dati, mentre le Categorie mirano alla QUALITA' delle informazioni (ma sono in arretrato, dovendo attendere un controllo manuale, rispetto alle acquisizioni automatiche operate dai MR). Ecco perché all'agosto 2000 le directory coprivano poco più di un milione di siti, mentre i motori di ricerca coprono mezzo miliardo di pagine).
Per il pieno utilizzo dei MR, uso regolarmente da agosto 2001 il metamotore www.vivisimo.com.
La ricerca di informazioni su rete con robot e automatismi è tipica diwww.altavista.digital.com nata dalla Digital di Palo Alto nel 1995 - gestisce in Inkata (che ad aprile 2000 ha motore in grado di trattare 500 mln di pagine, metà del web) 250 mln di pagine controllate quotidianamente. Il 36% delle ricerche nel mondo si effettua con questo motore. Il nome nasce casualmente dall'associazione di due termini che su una lavagna mal cancellata apparivano uniti: Alto (da Palo Alto) e Vista.
(sett.2001) www.search.com (di CNET) cerca per argomenti (topics)
www.lycos.com (nato nell'ambiente Usa della Carnegie Mellon University, 1994, poi commericalizzatosi) usa un automatismo; oggi però contiene anche catalogo sistematico delle risorse.
www.euroseek.net motore europeo (in 36 lingue)
www.google.com motore velocissimo, non segnale a directory, ma punta al risultato diretto (a settembre 2003: 3 mld di pagine indicizzate, 200 mln di interrogazioni al giorno; a fine 2004: 8 mld di pagine indicizzate). L'algoritmo del MR è stato creato dagli studenti della Stanford Un. Sergey Brin e Larry Page nel 1998: invece di basarsi sulle parole chiave, esso misura l' importanza delle pagine web in modo obiettivo stabilendo - in base a complesse equazioni con più di 500 mln di variabili - la qualità e la rilevanza delle pagine. Il nome riprende il termine googol che sta a indicare il numero 10 alla 100ma potenza.
PORTALI cataloghi di indirizzi con raccoglitori di pubblicità (prevalentemente indirizzati alla vendita). Tutto ha origine nel 1994, due studenti della Stanford University, David Filo e Jerry Yang, organizzano un elenco dei loro siti preferiti, mettendo di conseguenza in piedi la prima Web directory. Si trattava di poche decine di siti (Jerry's Guide to the WWW") ma l'iniziativa , poi ovviamente commercializzatasi., diede origine a quello che sarebbe diventato il più potente portale: www.yahoo.com. Si tratta della prima società che opera la scelta dell'organizzazione manuale della gerarchia per argomenti cui assegnare gli indirizzi [per l'indice specifico relativo alle risorse italiane dal 1999 c'è anche www.yahoo.it]. La ricerca si attua prima di tutto all'interno del database delle directory di yahoo. Yahoo inserisce la filosofia, come sottocategoria della specie Humanities a sua volta parte del genere Arts [BITTI-DIPALO 1997]. In subordine - se il termine cercato non compare nell'indice del motore, la ricerca viene trasferita a un potente motore interno di ricerca di parole chiave (si tratta del MR Inktomi) che setaccia giornalmente il web. Ha anche cercapersone per e-mail | |
Jerry Yang, lo studente di Stanford che nel 1994 mise in piedi la prima Web Directory. |
Nel 2002 lamenta Chomsky, tutto è sotto controllo delle grandi multinazionali Times, Warner e altre.
www.exite.com compie ricerche per concetti con la tecnologia Intelligent Concept Extraction
www.magellan.com presenta i siti per argomento
www.infoseek.com e www.infoseek.it (per ricerche approfondite gerarchicizzate) legato anche a www.virgilio.it
www.opentext.com e www.hotbot.com
MOTORI ITALIANI
Arianna: www.airweb.com il più ricco motore italiano, partorito da ItaliaOnline, ricerca per categorie. Dal 2000 realizza l'indice sistematico www.katalogo.it (Espresso-Repubblica-Arianna).
www.virgilio.it per neofiti, strutturato ad indice
www.iltrovatore.it per parole chiave
www.Jumbo.it dedicato ai siti italiani
www.RagnoItaliano.it per chiave e categoria
www.ShimySeek.it ricerca dei siti italiani
PORTALI italiani:
---- www.ciaoweb.it (dic 2001: vittima della "New Economi Ingenua" il portale di Agnelli ha chiuso, vendendo a Rusconi)
----- www.clarence.com
--- www.dada.it (provider toscano inizialmente per architetti) e www.supereva.it (che mi offre lo spazio per questo sito)
--- www.Jumpy.it (Fininnvest)
---- www.kataweb.it (Espresso-Repubblica)
--- www.msn.it (Microsoft): a fine 2004 utilizza un motore Search che tenta di levare il primato a google; Il motore ancora in prova ha già indicizzato 5 mld di pagine: http://beta.search.msn.com.
--- www.netscape.com/it Netcenter Italia
----- www.punto.it
--- www.spray.it con guida ad Internet
---- www.tin.it (Telecom),
--- www.freeonline.org (tutto il sw freeware italiano)
---- www.explo.it
--- www.infinito.it
---- www.virgilio.it ---Italia Online oltre che Motori sono anche portali
Il più sofisticato www.vivisimo.com perché basato su ricerca semantica.secondo i concetti precisati da Tim Berners-Lee. Vivisimo applica per la prima volta in modo esteso la ricerca semantica raggruppando i risultati in "canestri" differenziati per valore semantico. Per esempio la ricerca "Cremonino" dà in un canestro tutti i link che associano il termine ricercato a "Cesare Cremonino -.filosofo", in un altro canestro tutti i termini che associano a "Giovanni Cremonini", in un altro a "Cremonini - via", un altro a "Cremonini - scuola", ecc. Non solo questo tipo di ricerca facilita l'orientamento, ma dà un risultato abbastanza chiaro circa la visibilità in rete dell'oggetto della ricerca. Già www.google.com utilizzava algoritmi avanzati di ricerca, ma erano e sono basati solo sulla popolarità del sito. Un servizio con risultati raggruppati a "canestro" era in precedenza fornito dal MR www.northernlight.com che rastrella direttamente il web. Viceversa Vivisimo è un metamotore, che gestisce gli automatismi dei principali motori e delle web directory (Verity, Inktomi, Ultraseek, Microsoft Conversa, Open Directory, Fast, Altavista, Yahoo, Netscape, Looksmart, DirectHit, Euroseek, Exite, Lycos, ecc.), secondo un'architettura logica impostata da Tim Berners-Lee.
www.Alltheweb.com (sviluppato da Fast) ha superato il limite dei 300 milioni di documenti indicizzati in gennaio 2000.
www.cerca.com ricerca incrociata per siti e argomenti
www.useit!.com ricerca incrociata per categorie e chiave (su 300 MR)
Querox DB di MR
www.webcrawler.com indicizza i siti più visitati e www.metacrawler.com (ricerche su 13 motori contemporaneamente)
------
referenze
Bitti-Dipalo 1997: Vincenzo Bitti, Francesco Dipalo, Filosofia e scuola, due percorsi sulla rete internet italiana, Roma: SFI, 1997
Per evitare errori comuni nella costruzione di un sito,
visitare www.worstoftheweb.com
"Web Directory(categorie) e Motore di Ricerca"
Le categorie sono
costruite tramite i sunti forniti dai webmaster attraverso i TITOLI, hanno un
aggiornamento qualitativo ma non hanno l'aggiornamento veloce.
Il MR invece mira
alla quantità e alla velocità nell'indicizzare i documenti.
azione | categorie (web directory) | motore di ricerca |
La ricerca porta-> | alla pagina iniziale di un sito web | alla pagina esatta che contiene le parole-frasi cercate |
Conviene per trovare | siti che vendono automobili una lista dei siti dei maggiori quotidiani. la lista dei migliori libri
dell'anno |
un particolare modello di auto una citazione da un articolo anche se non sai da quale giornale è tratta |
Conviene per sapere | dati sul
le ultime scoperte scientifiche. |
di più su una cura proposta dal tuo dottore |
Per fare richieste | generiche e poi lasciarsi guidare nelle
scelte |
precise e per risposta veloce |
Il
principale programma robot di Altavista, Scooter, indicizza 5 mln di pagine al
giorno attraverso la ricerca di link tra siti. Altavista, con vari robot
specializzati, indicizza 10 mln di pagine al giorno in automatico.
Altavista
non gestisce solo i metatag (parole chiave che vengono inserite nell’Html del
sito per descriverne i contenuti), ma tutte le pagine, senza trattamento
gerarchico. Per sapere quante pagine del sito abc.com sono indicizzate, si usa
il comando Altavista "link:abc.it",
per conoscere l'indicizzazione di termini precisi ALL'INTERNO di un sito: "host:abc.it
AND ("termine preciso" OR parola OR confidenziale OR privato)
Invece per trovare
le pagine che contengono hyperlink al sito abc.it ESCLUSE quelle del sito
stesso:
+link:abc.it -host:abc.it.
Gli indicizzatori
ovviamente trattano i TITOLI (nella testata della pagina htm) che quindi devono
essere relativi al contenuto della pagina e non ripetersi nelle altre pagine e
gli ANCORAGGI, ovvero il testo
evidenziato nei link.
Per capire quali
pagine di un sito "abc.it" sono collegate ad un altro o altri siti (def.org
e ghi.org)
host:abc.it
AND
(link:def.org OR link:ghi.org)
IL WEB MASTER di abc.it PUO' FORNIRE UNA RICERCA DENTRO IL
SUO SITO attraverso queste fasi:
·
Cerca il suo sito
con AltaVista (host:abc.it)
·
Salva l’URL
della prima pagina dei risultati
·
Crea un link su
una pagina del sito a questo URL
·
Segnala ai
visitatori di scrivere host:abc.it prima dei termini della loro ricerca
inserire un
collegamento con l’indicazione: "Ricerca sul sito tramite AltaVista:
scrivi quello che stai cercando dopo host:abc.it nel box di ricerca"
Se il suo nome di
dominio è miodominio.com, la ricerca per salvare l'URL e creare il collegamento
sarà :
host:miodominio.com
Il visitatore,
cliccando sul link, si collegherà ad AltaVista e troverà host:miodominio.com
nel box di ricerca: non dovrà fare altro che scrivere quello che cerca dopo il
testo "host:miodominio.com".
Per aver una
traduzione automatica delle pagine del suo sito abc.it
[da inserire poi come link in cima alla pagina, con l'ancoraggio:
"Traduzione automatica" (meglio in più lingue)], il webmaster deve:
·
Cercare le pagine
che vuole tradurre (con host:abc.it
vedrà tutte le pagine indicizzate del sito).
·
Cliccare su
"Traduci" che comparirà in fondo ai risultati traducibili. Comparirà
la pagina di traduzione di AltaVista con l’URL della pagina da tradurre già
nell’apposita area.
·
Controllare l’URL
della pagina nel box dell’indirizzo. L’URL viene assegnato all’area di
traduzione. (che dovrebbe già contenere l’URL del testo da tradurre).
·
Aggiungere questa
pagina ai suoi siti preferiti. Tramite Copia e Incolla può usare l’URL per
creare un hyperlink tra la pagina e la sua versione tradotta.
Se il titolo è
chiaro e indica le parole chiave della pagina, se all'interno del
BODY c'è un titolo realmente significativo del contenuto della pagina
stessa, NON E' NECESSARIO aggiungere altro; ma se non è perfettamente chiaro il
discorso della pagina, p.e. perché molto tecnico, lo si può connotare
attraverso termini sinonimi nella parte dell'HEAD,
tramite l'istruzione META. Si tratta infatti di metatag: sono esenziali
nel caso si voglia rinunciare alla traduzione della pagina, e se si vuole che
compaia nel rmotere di ricerca una sintesi del contenuto. Esempio:
HTML>
<HEAD>
<TITLE>Titolo
della pagina</TITLE>
<META
name="keywords" content="lista di parole chiave">
</HEAD>
<BODY>
Il webmaster deve
solo chiedere al servizio di traduzione Altavista http://www.altavista.it/content/babel_fish/
di tradurre la metatag nelle lingue desiderate. Con un veloce Copia e
Incolla deve poi portare la traduzione nella lista di parole chiave del METAtag
(facendo attenzione agli accenti ) e,
conclusa questa fase, aggiungi URL della
pagina tradotta. Il nuovo testo della pagina, inclusi i termini stranieri appena
inseriti nel METAtag, verrà indicizzato da AltaVista.
Nella compilazione
delle pagine, ancore e METAtag conviene utilizzare termini specifici: maggiore
è la precisione della pagina e maggiori saranno i vantaggi (in basse alle
formule proprietarie di Altavista per calcolare il valore e la coerenza di una
pagina).
Per inserire il proprio sito all’interno dei robot di
indicizzazione basta creare un breve file di istruzioni (chiamato "robots.txt")
e posizionarlo nella directory principale del sito (quella che contiene la
pagina principale). Se poi in tale file si indica di NON indicizzare, il robot,
rispettando il protocollo "Robot Exlusion Standard" eviterà
l'indicizzazione. Se però l'ISP da cui dipende il sito ha un suo indicizzatore,
è chiaro che di default il robot utilizzerà quell'indice ed escluderà
l'analisi del sito. Per bypassare questo automatismo, bisogna che nel file
"robots.txt" compaia in prima riga:.
Disallow: *
Per escludere solo
l’indicizzatore di AltaVista (noto come "Scooter") il file deve
contenere:
User-agent:
scooter # AltaVista web page search
Disallow:
*
Per escludere
immagini:
User-agent:
vscooter # AltaVista Image Search
Disallow:
*
Infine, se chi
vuole escludere solo un particolare file o una directory, basta anteporre la
parola “Disallow:” all’indirizzo. Ad esempio
Disallow:
/images/personal/
E' possibile
escludere anche la singola pagina senza passare dall'ISP, inserendo nel metatag::
<meta
name=robots content="noindex, nofollow">
in Altavista
Robot: NOINDEX proibisce ogni indicizzazione. NOFOLLOW impone di ignorare i link.
NOIMAGEINDEX proibisce l’indicizzazione delle immagini ma non del testo.
ricerca semplice | risultati su Altavista |
monna lisa | Trova i documenti che contengono sia monna che lisa e tutte le combinazioni di maiuscole (Monna, MONNA, liSA, Lisa). AltaVista mostra prima i documenti che contengono entrambe le parole, raggruppandoli e mettendoli all'inizio del documento. |
Monna Lisa | TROVA i documenti che contengono sia Monna che Lisa ma non quelli che hanno combinazioni di maiuscole. Quando si usa una parola con la maiuscola, AltaVista considera che si stia cercando solo una corrispondenza esatta. |
+monna +lisa | Trova solo i documenti che contengono entrambe le parole |
"Monna Lisa" | TROVA SOLO i documenti che contengono entrambe le parole, con la maiuscola, disposte una di fianco all'altra. Le virgolette che delimitano una serie di parole vengono interpretate dal MR come una frase: la ricerca riguarderà solo i documenti che contengono queste parole in questo ordine. |
+"Monna Lisa" -Louvre | Trova i documenti che contengono la frase "Monna
Lisa" e non contengono la parola "Louvre" |
+Monna+Lis* | TROVA SOLO i documenti che contengono Monna e tutte le parole che cominciano con Lis. Funzionalità da usare quando non si è sicuri di come è scritta la parola. |
Sono le ricerche con gli operatori booleani come di seguito:
Espressione | Simbolo | risultato |
---|---|---|
AND | & | riporta solo documenti con ENTRAMBI i termini pollo E patatine. |
OR | | | E' la ricerca di default: riporta tutti i documenti con almeno uno dei termini: pollo O patatine |
AND NOT | ! | (-) Esclude i documenti con il termine o la frase specificata: .pollo AND NOT patatine riporta i documenti con pollo ma non con patatine.. NOT deve essere usato insieme a AND |
NEAR | ~ | riporta documenti che contengono entrambe le parole o frasi nell'ambito delle 10 parole di distanza tra le due cercate: pollo NEAR patatine troverà documenti con patatine pollo, ma non con altri tipi di patatine. Consigliabile quando si cerca per Cognome non avendo però a disposizione il nome o i nomi esatti: Al NEAR Bano comprende: Al Bano, Bano Al, Al detto Bano, Al Carlo Bano, "Al divenne finalmente il famoso Bano". |
() | La parentesi raggruppa le frasi booleane: (pollo AND patatine) AND (salsa o mostarda) trova documenti con le parole 'pollo patatine and salsa' o 'pollo patatine and mostarda', o entrambe.Altro esempio: (bmw AND mercedes) NEAR automobili AND NOT (usate OR Ferrari). Altro esempio: ("aless*" OR "ale*") NEAR (bano) |
Parole chiave speciali che servono a definire l’ambito della ricerca (sia nella semplice che nell'avanzata):
parola chiave | trova: |
anchor: | pp. contenenti la parola o frase specificata nel testo di un hyperlink. Es:anchor:"Cometa di Halley" riporta solo le pagine alle quali si arriva da un link specifico come "Cometa di Halley" |
applet | pp. contenenti il Java applet specificato Es:applet:testo object:banner cerca ttuti gli applet o gli oggetti con il nome indicato nel testo |
domain: | pp. all’interno del dominio specificato. Es:domain:edu AND "scoperte" riguarderà le scoperte contenute solo nei siti con dominio .edu. |
host: | pp. su uno specifico computer. Es. in ricerca semplice: +host:greenpeace.org +petrolio, corrispondente alla ricerca avanzata: host:greenpeace.org AND petrolio |
image: | pp. contenenti immagini con uno specifico nome di file. Es: domain:gov AND image:comet AND image:.jpg AND host:nasa dà come risultato le immagini in formato jpg, intitolate "cometa" e contenute nei siti NASA del governo americano. |
link: | pp. contenenti link alla pagina dell’URL specificato. Es: link:miosito.com AND NOT host:miosito.com trova tutti i link al mio sito tranne quelli interni al mio sito |
text: | pp. che non contengono il testo specificato nei tag delle immagini, nei link o nell’indirizzo URL. Es: text:"musica pop" cerca tutte le pp. che hanno effettivamente le parole riportate tra virgolette nel testo (anche se tali parole non erano indicate nel title o nei metatag) |
title: | pp. contenenti la parola o frase specificata nel titolo (nella barra che compare nei browser) |
url: | pp. contenenti la parola o frase specifica nell’indirizzo URL. |
torna all'home page | mass media | internet | motori di ricerca e portali | informatica