Uno dei punti da affrontare quanto si parla di SEO e di ottimizzazione è la questione della duplicazione dei contenuti.
Google li definisce cosi:
“Il contenuto duplicato si riferisce generalmente a blocchi sostanziali di contenuto all’interno dello stesso dominio o tra diversi domini che combaciano esattamente con altri contenuti o sono molto simili tra loro”.
Se in primo luogo è assolutamente sconsigliato copiare ed incollare i testi prelevati da altri siti o blog (per un motore di ricerca è facile stabilire l’anzianità di un testo), in secondo luogo è necessario porre attenzione anche alla duplicazione di “sé stessi”.
Gli aspetti fondamentali da tenere in considerazione sono principalmente due:
- I collegamenti alla homepage
- La gestione dell’archivio
Il primo punto può considerarsi solitamente un errore di programmazione o, in generale, di scrittura del codice HTML; questo concetto si basa sul fatto che il nome di dominio, per esempio http://www.dominio.com e la homepage http://www.dominio.com/index.aspx (oppure .html, o .htm) puntano essenzialmente alla stessa pagina, visualizzandola sia accedendove in un modo che nell’altro. Questo non è così per i motori di ricerca che le considerano due pagine diverse. Per farne subito un riscontro è possibile analizzare, per esempio, gli accessi che Google Analytics riporta :
Come riportato in figura Google distingue il dominio (indicato al punto 4 con / ) e la pagina della homepage (indicata al punto 9 con /index.aspx). Per ovviare a questo inconveniente è necessario, quando si creano i link alla homepage all’interno della struttura del proprio sito o blog, definire il riferimento dell’ancora href come “./” e non come “/index.aspx” (o la propria pagina principale); così facendo si eviterà che vengano riconosciuti come documenti duplicati e le visite verranno unificate e non indicate in modo distinto.
Inoltre è da tener presente che è necessario fare una scelta tra la dichiarazione di un nome “www.dominio.com” e “dominio.com”. L’opzione “Dominio preferito” nel pannello di controllo per Webmaster di Google permette di fare una scelta in questo senso.
Il secondo punto invece riguarda la gestione degli archivi delle proprie news o delle pagine del blog. Tali news solitamente sono riportate, dinamicamente, nella homepage ma sono ancora contenute in un archivio (diviso in anno e mese di pubblicazione) che si può trovare in una sottodirectory del dominio stesso; di fatto questa situazione genera contenuti duplicati e quindi una situazione da evitare. Per rimediare è possibile semplicemente escludere tale sottodirectory dall’indicizzazione tramite il file robots.txt indicando, qualora la sottodirectory si chiamasse per esempio “archive”, la dicitura “Disallow: /archive/”.
Se invece avessimo a che fare con due nostre pagine le quali contengono contenuti duplicati potremo allora usare la dicitura del “canonical” per il tag <link> per definire quale dei due documenti è quello da indicizzare, usando la seguente sintassi nell’HEAD:
<link rel=”canonical” href=”http://www.dominio.com/pagina.htm” />
Voi, questi accorgimenti li avete già messi in pratica?