Il file Robots.txt

Nella sezione precedente si è presentato il Meta Tag Robots e se ne è descritta la finalità: fornire agli spider dei motori di ricerca direttive sul modo in cui deve essere trattata una pagina.

Uno strumento a disposizione del webmaster che svolge la stessa funzione, pur non presentando il limite di essere associato ad una risorsa singola ed offrendo così vantaggi in termini di flessibilità e praticità di utilizzo, è il file robots.txt

Il file Robots.txt

Il file robots.txt è un semplice file di testo (da inserire nella root del sito con nome “robots.txt”) che contiene una serie di istruzioni rivolte agli spider dei motori di ricerca.

Attraverso il file robots.txt è possibile inibire l’accesso degli spider dei motori a singole pagine o intere cartelle del proprio sito, definendo eventualmente istruzioni rivolte a specifici spider/motore di ricerca. Prima di accedere ai contenuti del sito, gli spider dei motori di ricerca consultano il file robots.txt e ne seguono le direttive, evitando di prelevare le risorse delle quali è stato inibito l’accesso.

L’implementazione del file robots.txt non è obbligatoria: se non si hanno particolari esigenze nel controllare l’attività degli spider sui sito ed il conseguente prelievo/indicizzazione delle pagine, il file robots.txt può essere omesso.

Gli elementi chiave cui si può ricorrere per definire ciascun record del robots.txt sono:

  • Il campo User-agent, che ospita il nome dello spider cui sono rivolte le direttive. In alternativa al nome dello spider di riferimento, al campo User-agent può essere assegnata l’istruzione “*”, il cui significato è “tutti gli spider dei motori di ricerca”.
  • Il campo Disallow, che indica i file e le directory ai quali lo spider indicato nel campo User-agent non deve accedere. In alternativa ai nomi delle pagine e delle cartelle (path relativo, con tanto di slash in apertura), al campo Disallow può essere assegnata l’istruzione “/”, il cui significato è “tutte le pagine e le cartelle del sito”. Il campo Disallow può essere anche lasciato vuoto, laddove non si abbia l’esigenza di inibire l’accesso degli spider alle risorse del sito.
  • Il campo Allow serve per consentire agli spider dei motori di ricerca la scansione di uno specifico percorso (file e cartelle). Può essere anche utilizzato per “contrastare” gli effetti di una successiva direttiva Disallow.
  • Il campo Crawl-delay permette di stabilire il numero di secondi da attendere tra successive richieste allo stesso server.
  • Il campo Sitemap permette di notificare ai motori di ricerca l’esistenza di una o più sitemap XML.

Sulla base di quanto sinora visto, si propongono di seguito alcuni esempi di robots.txt, che mostrano la sintassi corretta da utilizzare per la compilazione del file.

Esempi di Robots.txt

Nel primo caso presentato, l’obiettivo è quello di inibire l’accesso delle pagine privato1.html e privato2.html e del contenuto della cartella /temp/ a tutti gli spider dei motori di ricerca:

User-agent: *
Disallow: /privato1.html
Disallow: /privato2.html
Disallow: /temp/

Se avessimo voluto inibire l’accesso delle suddette risorse solo allo spider di Google (googlebot), avremmo dovuto compilare file robots.txt in questo modo:

User-agent: Googlebot
Disallow: /privato1.html
Disallow: /privato2.html
Disallow: /temp/

Per inibire l’accesso delle risorse sia allo spider di Google (googlebot), sia a quello di Yahoo (slurp), lasciando liberi gli spider degli altri motori di prelevare le pagine del sito, avremmo invece dovuto inserire le seguenti istruzioni:

User-agent: Googlebot
Disallow: /privato1.html
Disallow: /privato2.html
Disallow: /temp/

User-agent: Slurp
Disallow: /privato1.html
Disallow: /privato2.html
Disallow: /temp/

Prendiamo poi in considerazione il caso in cui il webmaster abbia l’esigenza di inibire a tutti i motori di ricerca il prelievo delle pagine web del proprio sito (evenienza che può rendersi necessaria in presenza di un sito web in costruzione):

User-agent: *
Disallow: /

Con riferimento a quest’ultimo caso, qualora subentri la necessità di permettere agli spider dei motori l’accesso alle pagine del sito per consentirne la regolare indicizzazione, occorrerà naturalmente ricordarsi di procedere alla rimozione della suddetta istruzione o alla modifica della stessa.

Per definire con maggiore precisione il percorso che gli spider dei motori di ricerca devono compiere all’interno del sito, è possibile ricorrere alla direttiva Allow. Quando posta prima della direttiva Disallow di riferimento, essa può rendersi utile per disabilitare l’accesso degli spider a singole cartelle pur permettendo l’accesso a singole risorse in esse contenute, come mostrato nell’esempio seguente:

User-agent: *
Allow: /temp/pagina-da-indicizzare.html
Disallow: /temp/

Laddove si volesse utilizzare la direttiva Crawl-delay per definire il tempo da attendere tra le varie richieste dello spider (con riferimento a tutti gli spider che supportano tale parametro), si renderebbe necessaria l’implementazione delle seguenti istruzioni:

User-agent: *
Crawl-delay: 10

Infine, per segnalare ai motori di ricerca la presenza di una sitemap XML e permetterne una più agevole localizzazione agli spider dei motori di ricerca, può essere conveniente includere nel robots.txt la seguente istruzione:

Sitemap: http://www.nomedidominio.com/sitemap.xml

Avendo naturalmente cura di sostituire le voci “nomedidominio.com” e “sitemap.xml” con il reale nome di dominio e della sitemap XML.

I nomi degli spider

Si propone di seguito un elenco degli spider dei principali motori di ricerca e del nome loro associato, per agevolare la compilazione del robots.txt:

  • Google – Googlebot
  • Google (News) – Googlebot-News
  • Google (Immagini) – Googlebot-Image
  • Google (Video) – Googlebot-Video
  • Google (Mobile) – Googlebot-Mobile
  • Google (Adsense) – Mediapartners-Google
  • Google (Adsense per cellulari) – Mediapartners-Google
  • Google (Adsbot – controllo landing page) – AdsBot-Google
  • Yahoo – Slurp
  • Bing – Bingbot

Si segnala infine l’utilissimo generatore di robots.txt tra i tool messi a disposizione dal servizio Google Webmaster Tools, che segue passo passo l’utente nella creazione del robots.txt e nell’analisi del file appena creato.