Uno strumento a disposizione del webmaster che svolge la stessa funzione, pur non presentando il limite di essere associato ad una risorsa singola ed offrendo così vantaggi in termini di flessibilità e praticità di utilizzo, è il file robots.txt
Il file robots.txt è un semplice file di testo (da inserire nella root del sito con nome “robots.txt”) che contiene una serie di istruzioni rivolte agli spider dei motori di ricerca.
Attraverso il file robots.txt è possibile inibire l’accesso degli spider dei motori a singole pagine o intere cartelle del proprio sito, definendo eventualmente istruzioni rivolte a specifici spider/motore di ricerca. Prima di accedere ai contenuti del sito, gli spider dei motori di ricerca consultano il file robots.txt e ne seguono le direttive, evitando di prelevare le risorse delle quali è stato inibito l’accesso.
L’implementazione del file robots.txt non è obbligatoria: se non si hanno particolari esigenze nel controllare l’attività degli spider sui sito ed il conseguente prelievo/indicizzazione delle pagine, il file robots.txt può essere omesso.
Gli elementi chiave cui si può ricorrere per definire ciascun record del robots.txt sono:
Sulla base di quanto sinora visto, si propongono di seguito alcuni esempi di robots.txt, che mostrano la sintassi corretta da utilizzare per la compilazione del file.
Nel primo caso presentato, l’obiettivo è quello di inibire l’accesso delle pagine privato1.html e privato2.html e del contenuto della cartella /temp/ a tutti gli spider dei motori di ricerca:
Se avessimo voluto inibire l’accesso delle suddette risorse solo allo spider di Google (googlebot), avremmo dovuto compilare file robots.txt in questo modo:
Per inibire l’accesso delle risorse sia allo spider di Google (googlebot), sia a quello di Yahoo (slurp), lasciando liberi gli spider degli altri motori di prelevare le pagine del sito, avremmo invece dovuto inserire le seguenti istruzioni:
User-agent: Slurp
Disallow: /privato1.html
Disallow: /privato2.html
Disallow: /temp/
Prendiamo poi in considerazione il caso in cui il webmaster abbia l’esigenza di inibire a tutti i motori di ricerca il prelievo delle pagine web del proprio sito (evenienza che può rendersi necessaria in presenza di un sito web in costruzione):
Con riferimento a quest’ultimo caso, qualora subentri la necessità di permettere agli spider dei motori l’accesso alle pagine del sito per consentirne la regolare indicizzazione, occorrerà naturalmente ricordarsi di procedere alla rimozione della suddetta istruzione o alla modifica della stessa.
Per definire con maggiore precisione il percorso che gli spider dei motori di ricerca devono compiere all’interno del sito, è possibile ricorrere alla direttiva Allow. Quando posta prima della direttiva Disallow di riferimento, essa può rendersi utile per disabilitare l’accesso degli spider a singole cartelle pur permettendo l’accesso a singole risorse in esse contenute, come mostrato nell’esempio seguente:
Laddove si volesse utilizzare la direttiva Crawl-delay per definire il tempo da attendere tra le varie richieste dello spider (con riferimento a tutti gli spider che supportano tale parametro), si renderebbe necessaria l’implementazione delle seguenti istruzioni:
Infine, per segnalare ai motori di ricerca la presenza di una sitemap XML e permetterne una più agevole localizzazione agli spider dei motori di ricerca, può essere conveniente includere nel robots.txt la seguente istruzione:
Avendo naturalmente cura di sostituire le voci “nomedidominio.com” e “sitemap.xml” con il reale nome di dominio e della sitemap XML.
Si propone di seguito un elenco degli spider dei principali motori di ricerca e del nome loro associato, per agevolare la compilazione del robots.txt:
Si segnala infine l’utilissimo generatore di robots.txt tra i tool messi a disposizione dal servizio Google Webmaster Tools, che segue passo passo l’utente nella creazione del robots.txt e nell’analisi del file appena creato.