La link popularity di una pagina web è un parametro di tipo quantitativo ed indica il numero di link diretti alla pagina a partire da siti esterni.
Se la quantità dei link diretti ad una pagina può essere in qualche modo considerata indicativa dell’importanza della medesima, ciò non è tuttavia sempre vero: difficilmente una pagina linkata da decine di blog dal valore scarso o nullo potrà essere considerata più importante di una pagina web linkata da “solo un paio” di università o enti autorevoli.
Affinché l’analisi dei fattori offsite da parte dell’algoritmo del motore abbia un senso ai fini della determinazione dell’importanza delle risorse linkate occorre quindi che venga presa in considerazione non solo l’aspetto quantitativo (numero dei link), ma anche una dimensione qualitativa (qualità dei link): il PageRank è la risposta di Google a questa esigenza.
Il PageRank è un algoritmo di analisi che assegna un peso numerico ad ogni elemento di un collegamento ipertestuale di un insieme di documenti, il cui scopo è quello di quantificarne l’importanza relativa all’interno della serie.
La principale differenza tra la link popularity ed il PageRank è costituita dal fatto che quest’ultimo non si limita ad un mero conteggio del numero dei link che puntano verso un sito, ma integra questo dato con la qualità dei siti dai quali provengono i suddetti collegamenti. In sostanza, Google attribuisce ad ogni documento presente all’interno del proprio indice un valore (il PageRank, appunto) correlato sia al numero dei siti che presentano dei collegamenti diretti verso di esso, sia al PageRank di questi stessi siti, con un procedimento ricorsivo. Questo punteggio attribuito ad ogni documento web funge da fattore correttivo nella fase di ordinamento dei risultati delle ricerche degli utenti: a parità di altri fattori, saranno le pagine web con il PageRank più elevato a beneficiare di un migliore posizionamento.
Nel documento “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Larry Page e Sergey Brin pubblicano la formula originale del PageRank,
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
dove :
Benché sia lecito assumere che il meccanismo del PageRank abbia subito diverse modifiche rispetto alla sua formulazione originaria, bisogna tuttavia riconoscere che il suddetto modello risulti ancora di grande aiuto per capire l’incidenza di fattori come gli inbound link (link in entrata) e gli outbound link (link in uscita) di una pagina sul PageRank e quindi sul posizionamento delle pagine web.
A partire dalla formula sopra esposta è possibile analizzare in maniera più dettagliata il funzionamento del PageRank. Ciascun link presente all’interno di una pagina web (Tn) deve essere interpretato come un “voto” a favore di altre pagine (A), che beneficiano conseguentemente di un aumento del livello di popolarità e, quindi, di un miglioramento del PageRank.
Si noti, tuttavia, come il PageRank della pagina linkata (A) non aumenta in maniera direttamente proporzionale a quello della pagina linkante (Tn), dal momento che questo valore viene diviso per il numero di link in uscita presenti in quest’ultima, per poi essere moltiplicato per l’ammontare del dumping factor (d), che oscilla tra zero e uno. Da ciò si evince che una pagina web con molti link in uscita tenderà a far aumentare il PageRank dei documenti verso cui punta in misura minore rispetto ad una pagina che presenta pochi outbound link.
Un altro aspetto che caratterizza questo sistema è la sua ricorsività; l’algoritmo del PageRank è ricorsivo perché deve essere eseguito un certo numero di volte prima di dar luogo ad un risultato che possa definirsi stabile.
Nonostante Google non lasci trapelare l’effettivo valore del PageRank relativo alle risorse indicizzate, esiste uno strumento in grado di offrire una stima approssimativa di questo parametro: la Google Toolbar.
La Google Toolbar mostra, mediante un apposito indicatore, un valore rappresentativo del PageRank della pagina visualizzata, che può oscillare tra un minimo di zero e un massimo di dieci. Si ritiene che il valore del PageRank indicato da questo strumento sia espresso in forma logaritmica e ciò sembra essere confermato dalla stessa evidenza pratica che mostra, ad esempio, come sia estremamente più difficile passare da un PR6 ad un PR7 rispetto ad una transizione da un PR2 ad un PR3.
Alcuni esperimenti valutano che la scala logaritmica su cui poggia il PageRank sia in base 6 (o comunque valori analoghi); questa stima ci permette di distinguere con discreta approssimazione il PageRank reale da quello mostrato dalla toolbar di Google.
Il PageRank reale di una pagina è un indicatore del suo livello di importanza e popolarità sul Web e costituisce uno dei fattori da cui dipende il posizionamento della pagina tra i risultati organici per le keyword di riferimento.
A parità di altri fattori, una pagina caratterizzata da un PageRank elevato avrà maggiori possibilità di ottenere un buon posizionamento tra i risultati organici per le parole chiave per cui ottimizzata rispetto ad un’altra pagina caratterizzata dai medesimi contenuti ma da un basso valore di PageRank. Abbiamo finalmente dato un nome a quel “capitale di importanza e popolarità” più volte menzionato all’interno della guida.
Il valore di PageRank reale associato alla pagina di un sito è alimentato, come abbiamo visto, dalla quantità e dalla qualità dei link diretti alla pagina. Il PageRank, però, non rimane “confinato” all’interno della pagina che riceve i link dall’esterno, ma può essere invece convogliato alle sezioni interne del sito attraverso la struttura di linking.
Riprendendo alcuni concetti già introdotti nella sezione della guida dedicata all’architettura informativa del sito, possiamo dire che le sezioni immediatamente linkate dalla pagina in esame ne ereditano una parte del PageRank, PageRank che a sua volta potrà essere parzialmente redistribuito alle eventuali sottosezioni, e così via.
Semplificando all’estremo, in base a quanto previsto dall’algoritmo originale del PageRank, se una pagina ha valore 100 e 5 link a corrispondenti sottopagine interne, ciascuna sottopagina erediterà un valore pari a 20 (100/5). Se la sottopagina in questione ospita 5 link a corrispondenti sotto-sottopagine, ciascuna di esse riceverà un valore pari a 4 (=20/5). Insomma, maggiore è la distanza di una sezione in termini di click dalla pagina in esame, minore sarà la quantità di PageRank che essa riceverà.
A questo proposito, è importante ribadire che il trasferimento di PageRank da una pagina ad un’altra avviene senza che vi sia alcuna perdita di PageRank a carico della pagina che offre il link. Riprendendo l’esempio precedente, se una pagina ha valore pari a 100 e ospita 5 link diretti ad altrettante pagine, essa trasferirà a ciascuna delle pagine collegate un valore pari a 20, pur mantenendo intatto il suo valore/capitale di importanza di 100.
In realtà la questione è leggermente più complessa di come è stata sinora presentata. Esistono infatti delle evidenze (dalle informazioni contenute nel brevetto “Ranking documents based on user behavior and/or feature data” alle dichiarazioni dello stesso Matt Cutts, fino all’esito di alcuni recenti test) secondo le quali il PageRank della pagina non sarebbe distribuito equamente alle sezioni da essa linkate.
Non tutti i link di una pagina sono insomma da considerarsi uguali ed è probabile che il motore di ricerca faccia affidamento ad una serie di fattori per “pesare” ogni singolo link e determinarne il potenziale ai fini del trasferimento di importanza e popolarità alle sezioni interne del sito.
Per capire meglio questo concetto prendiamo in esame la definizione originaria di PageRank, estrapolata dallo stesso documento “The Anatomy of a Large-Scale Hypertextual Web Search Engine”:
“PageRank can be thought of as a model of user behavior. We assume there is a “random surfer” who is given a web page at random and keeps clicking on links, never hitting “back” but eventually gets bored and starts on another random page. The probability that the random surfer visits a page is its PageRank”
Secondo questo approccio, che interpreta il PageRank come un modello di comportamento dell’utente, ogni link contenuto in una pagina ha la stessa possibilità di essere cliccato e, di conseguenza, lo stesso peso nel momento in cui punta ad un’altra pagina. Tuttavia, il brevetto “Ranking documents based on user behavior and/or feature data” presentato da Google nel 2004, lascia presupporre che siano stati introdotti dei cambiamenti nel modo in cui Google assegna peso/importanza ai link presenti all’interno della stessa pagina:
“Systems and methods consistent with the principles of the invention may provide a reasonable surfer model that indicates that when a surfer accesses a document with a set of links, the surfer will follow some of the links with higher probability than others. This reasonable surfer model reflects the fact that not all of the links associated with a document are equally likely to be followed. Examples of unlikely followed links may include “Terms of Service” links, banner advertisements, and links unrelated to the document.”
Il nuovo modello (definito “reasonable surfer”) presuppone che non tutti i link presenti all’interno di una pagina abbiano uguale valore e che le differenti caratteristiche associate ai link, nonché le pagine in cui appaiono e verso cui puntano, possano influenzarne il peso/importanza.
Quali sono i fattori che potrebbero influenzare il peso dei link ed il PageRank che essi possono convogliare alle pagine verso cui puntano? Tra gli elementi in gioco possiamo supporre vi siano parametri come la posizione del link all’interno della pagina (above/below the fold, contestuale o in footer/sidebar, ecc.), dimensioni, colore e stile dei link, numero di parole utilizzate per la compilazione dell’anchor text del link, aspetto “commerciale” del link, congruenza tra tema della pagina che ospita il link e tema della pagina linkata, ecc.
Il modello “Reasonable Surfer” di Google lascia intendere che, ai fini di una proficua attività di ottimizzazione del proprio sito, diventa più che mai importante valorizzare adeguatamente i collegamenti diretti alle sezioni più importanti del sito (ad esempio, quelli che compongono il menu di navigazione) e porre particolare attenzione all’aspetto dell’usabilità e dell’esperienza utente.
Dal modello è altresì possibile trarre alcune indicazioni utili per migliorare l’efficienza delle proprie attività di ottimizzazione offsite: si renderà necessario a tal proposito fare in modo che l’attività di link building sia funzionale all’ottenimento di link che possiedano le migliori caratteristiche possibili (contestuale, formattati in maniera visibile, above the fold, in pagine correlate al tema trattato, ecc.)