Consentire agli spider di visitare il sito

Immagine spider cartoon motore di ricerca.
Image credits: ddpavumba

Il primo requisito che l’architettura informativa deve avere è quello di permettere agli spider dei motori di ricerca un’efficace e completa perlustrazione del sito, facilitandone l’accesso alle pagine ed ai relativi contenuti ai fini di una corretta indicizzazione degli stessi.

L’importanza di questo aspetto è facilmente intuibile: se gli spider non sono in grado di raggiungere una o più pagine del sito, non potranno leggerne e indicizzarne i contenuti, che rimarranno pertanto esclusi dai risultati naturali dei motori di ricerca.

Come si comporta lo spider

Per capire meglio questo concetto, prendiamo in esame il modo in cui si comporta lo spider del motore di ricerca per navigare tra le pagine del nostro sito ed indicizzarne i contenuti.

Gli spider (o crawler) sono programmi specifici “lanciati” periodicamente dal motore di ricerca per scandagliare il web alla ricerca di informazioni da indicizzare. Non esistendo un elenco completo delle pagine di cui si compone il Web, l’unico modo a disposizione degli spider per compiere questa operazione è quello di seguire i link che collegano i siti tra di loro e scaricare le pagine raggiunte. Lo spider si comporta in questa maniera anche quando visita il nostro sito: partendo da una pagina specifica esso segue i link che trova lungo il suo percorso, raggiungendo in questo modo tutte le pagine del sito, interpretandone i contenuti e catalogandoli opportunamente.

Lo spider non è però infallibile: esistono vere e proprie barriere architettoniche che, se presenti nel nostro sito, possono bloccare il cammino dello spider, ostacolando la corretta perlustrazione delle pagine e la relativa indicizzazione. In fase di predisposizione/ristrutturazione dell’architettura informativa occorre evitare questi aspetti problematici, al fine di garantire agli spider dei motori di ricerca completa accessibilità alle diverse sezioni di cui si compone il nostro sito.

Barriere architettoniche comuni

Ecco una lista delle più comuni barriere architettoniche, ovvero di tutti quegli elementi che possono ostacolare lo spider e dai quali è quindi bene stare alla larga in fase di predisposizione dell’architettura informativa del sito.

  • Link in formato non HTML (es. Flash, Javascript)

    I link di cui si compone la struttura di navigazione del nostro sito devono essere tutti, rigorosamente, in formato HTML. Lo spider dei motori di ricerca non è ancora in grado di seguire efficacemente i link realizzati con altre tecnologie, come Flash o Javascript (benché vi siano degli sviluppi in tale direzione), ed esiste quindi il rischio concreto che le pagine linkate da collegamenti in formato diverso dall’HTML non possano essere raggiunte e indicizzate.

  • Filmati Flash con navigazione interna

    I siti interamente in Flash pongono non pochi problemi agli spider dei motori di ricerca, che non sono in grado di navigare tra le sezioni del sito realizzate con questa tecnologia. Tale limite non deve necessariamente costringere i progettisti del sito a scartare a priori le tecnologie Flash nella realizzazione delle pagine web, tuttavia risulta indispensabile affiancare alla navigazione Flash anche una normale navigazione in tecnologia HTML.

  • Presenza di pagine raggiungibili tramite login

    Se per raggiungere una pagina è necessaria la compilazione di un form, essa risulterà inaccessibile agli spider dei motori di ricerca. Se l’intenzione è quella di far indicizzare le suddette sezioni, è necessario predisporre un sistema di navigazione alternativo.

  • Presenza di pagine comprensive di un eccessivo numero di link

    In presenza di un numero di link “eccessivo” all’interno di una pagina esiste il rischio che alcuni di essi non possano essere seguiti dallo spider, con i problemi che possono derivarne in termini di indicizzazione e catalogazione delle risorse del sito. E’ consigliabile limitare il numero di link interni ed esterni contenuti in ogni pagina, evitando preferibilmente di superare le 100-150 unità.

  • Presenza di pagine bloccate da Meta Tag Robots, rel=”nofollow” o robots.txt

Come controllare l’architettura informativa

Come avere la certezza che l’architettura informativa sia effettivamente priva di barriere insormontabili per i motori di ricerca?

Un buon metodo è quello di guardare al sito “con gli occhi dello spider”, disabilitando preventivamente tutte quelle tecnologie che possono essere causa di problemi allo spider dei motori (supporto a Javascript, a Flash, agli applet Java, ai cookie). Per disattivare temporaneamente le suddette tecnologie si può intervenire sui parametri di configurazione del browser o, ancora meglio, ricorrere ad apposite estensioni (tra le quali, si segnala l’ottima Web Developer Toolbar di Firefox). Se, una volta apportata la modifica, il raggiungimento di alcune sezioni del sito risulta impossibile, avrete individuato una potenziale barriera per i motori di ricerca, che dovrete aver cura di correggere per consentire la completa indicizzazione del sito.

Un altro metodo valido per leggere i contenuti del sito nel modo in cui lo farebbe lo spider consiste nell’utilizzare uno spider simulator, uno strumento online che permette di rendersi conto di come Google, Yahoo e Bing vedono il nostro sito e di quanto esso sia effettivamente “Search Engine Friendly”. Ne esistono di molto validi in rete, tra i quali si segnalano gli strumenti offerti da Webconfs e Seo Chat.