Occhio al Canonical Tag !

Lo strano caso di un intero sito rimosso dall’indice Google

Recentemente sono incappato in un caso piuttosto curioso, che credo valga la pena di condividere, anche se questo mi rovinerà la mia media “mensile” di post sul blog :-)

Un paio di settimane fa mi chiama un amico che ha un portale di hotel e alloggi di charme: un bel sito che rappresenta la sua principale attività.
Mi riferisce, decisamente preoccupato, che negli ultimi 3 mesi le pagine interne del portale non escono più nei risultati di Google, neanche cercando fra virgolette le frasi presenti nelle pagine. Le uniche pagine ad uscire per le keyword sulle quali sono state ottimizzate sono la home page inglese e la home italiana. Le pagine continuano invece ad uscire regolarmente dai risultati di Yahoo e Bing/MSN.

Cercando su Google site:www.ilsuodominio.com scopriamo che delle centinaia di pagine del sito solo pochissime appaiono ormai indicizzate, oltre alle home e qualche sporadica pagina interna, solo alcuni pop-up con le Google maps sono ancora nell’indice.
Comprensibile la preoccupazione, visto che il sito è online da un anno e che fino a pochi mesi fa usciva dai SERPS anche con le pagine interne.

A un primo esame non noto niente che non vada, nessun motivo apparente per cui il sito dovrebbe essere penalizzato o per cui le pagine dovrebbero essere rimosse dall’indice. Anzi per alcune keyword di media competizione relative agli hotel le home page escono piuttosto bene.
Mi informo su cosa è stato fatto ed inizio una analisi un po’ più approfondita: d’altra parte questi casi dove bisogna essere un po’ Sherlock Holmes sono un po’ il divertimento di un SEO ;-)

L’unica cosa che trovo sono alcuni errori di codice html (ma niente di veramente grave) e quella che forse è una percentuale un pò troppo alta di similarità dei contenuti fra le pagine che raggruppano hotel simili. Parte dei contenuti poi provengono da un feed che è comune ad altri siti. Non trovando altri indiziati, comincio a farmi l’idea che sia un problema di contenuti.

Vado allora a vedere come Google indicizza – ed eventualmente posiziona – una delle pagine più semplici come struttura e dai contenuti unici: la pagina delle faq, che è praticamente tutta testuale.
Cerco cache:www.ilsuodominio.com/faq.html e… sopresa: la cache che Google mi presenta è quella della home page e non della pagina Faq.html che mi sarei aspetteto… come mai ?

Passo alla lente di ingrandimento ogni riga della sorgente html e trovo il colpevole. Tutte le pagine hanno un canonical tag, e fin qui tutto bene. E’ un tag introdotto recentemente (ne parla qui Matt Cutts) per indicare ai motori, qualora abbiamo pagine con lo stesso contenuto accessibili con url diverse, quale sia la url preferenziale che vorremmo fosse indicizzata.

Solo che in questo caso il canonical link di tutte le pagine, per un errore del CMS, punta sempre alla home page di lingua, cioè ad esempio tutte le pagine in inglese hanno:

<link rel="canonical" href="http://www.ilsuodominio.com/en/">

Il che praticamente è come dire allo spider dei motori “questa pagina è solo una copia di un’altra pagina di questo sito e la Url con la quale preferisco che la indicizzi è www.ilsuodominio.com/en/“.

Google evidentemente prende il tag drammaticamente sul serio, senza prendersi la briga di verificare che la pagina che sta escludendo dall’indice abbia effettivamente lo stesso contenuto di quella indicata nel canonical tag. Funziona cioè in modo molto simile ad un Redirect 301.  Così gradualmente tutte le pagine sono state de-indicizzate perchè considerate copie delle home page di lingua, che sarebbero rimaste le uniche pagine nell’indice. Molto interessante perchè essendo un tag recente non avevo avuto esperienza diretta del suo funzionamento e sopratutto dei problemi che può originare.

Inutile dire che, appena scoperata la cosa, i canonical tag sono stati prontamente rimossi. Dopo meno di due settimane le pagine indicizzate su Google erano tornate centinaia ed uscivano tranquillamente dalle SERP :-)