Creare un corretto file robots.txt
Per ottenere una corretta indicizzazione nei motori di ricerca è fondamentale saper impostare correttamente il file Robots.txt e le regole che determinano le restrizioni di lettura dei contenuti “duplicati” da parte degli “speeder”.
Va sottolineato che il file Robots.txt serve per indicare quei file o directory che NON si vogliono rendere visibili ai motori di ricerca tramite gli spider e NON per indicare cosa è visibile. Quindi indicare Allow: / è un controsenso e viene interpretato come errore.
Una piccola premessa in merito alla definizione di “indicizzazione” e “scansione”. La prima Indicizzazione, indica di inserire i nostri contenuti nell’indice del motore di ricerca, quindi diciamo di inserire nell’indice di ricerca organica una nostra pagina web. La seconda Scansione, indica di processare i dati per una loro analisi.
Ora vediamo come ottimizzare il file ROBOTS.txt
In primo luogo indichiamo dove trovare la site map del sito
# Sitemap
Sitemap: http://ioewp.com/sitemap.xml.gz
Indichiamo quali Robots possono leggere e seguire le nostre regole. (* indica TUTTI i Robots)
# Tutti i Robost
User-agent: *
Ora andiamo a bloccare il motore di WordPress, cioè i suoi file e directory pieni di script e che non costituiscono “contenuto interessante”.
# Disabilita accesso file e directory WordPress
# importante, fate seguire il nome della directory da una barra /
Disallow: /cgi-bin/ (directory default Linux)
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/backup-db/ (nel caso abbiate installato il plugin di backup WP-DBManager)
Evitiamo di indicizzare contenuti “duplicati” che potrebbero penalizzare la nostra indicizzazione [protected]
# Disabilita indicizzazione elementi che possono generare diversi URL per un singolo post
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /category/*/*
Blocchiamo l’indicizzazione di URL che generano “querystring”
# Disabilita indicizzazione elementi che contengono querystring
Disallow: /*?
Disallow: /*?*
Disallow: ?wptheme=
Queste regole sono opzionali e si riferiscono a particolari casi e speeder
# Google Image - Motore delle Immagini permette l'indicizzazione delle immagini del nostro sito
User-agent: Googlebot-Image
Disallow: / [impedisce]
Allow: /* [permette]
# Google AdSense - Per impedire la scansione delle pagine del tuo sito pur continuando a visualizzare gli annunci AdSense su tali pagine, non ammettere l'accesso di tutti i bot diversi da Mediapartners-Google a tali pagine. In tal modo, le pagine non verranno visualizzate nei risultati di ricerca, ma il robot Mediapartners-Google potrà analizzarle per determinare gli annunci da mostrare. Il robot Mediapartners-Google non condivide le pagine con gli altri user-agent di Google.
User-agent: Mediapartners-Google*
Disallow: / [impedisce]
Allow: /* [permette]
# Adsbot-Google - E' un nuovo speeder Google per analizzare la qualità delle landing page che verrà poi usato come segno di qualità da Google per assegna un annuncio Adwords
User-agent: Adsbot-Google
Allow: /
# Googlebot-Mobile - E' un nuovo strumento Google per migliorare la search experience degli utenti mobile.
User-agent: Googlebot-Mobile
Allow: /
Per comodità riporto l’intero listato delle regole
# Sitemap
Sitemap: http://ioewp.com/sitemap.xml
# Tutti i Robost
User-agent: *
# Disabilita accesso file e directory WordPress
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/backup-db/
# Disabilita indicizzazione elementi che possono generare diversi URL per un singolo post
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /category/*/*
# Disabilita indicizzazione elementi che contengono querystring
Disallow: /*?
Disallow: /*?*
Disallow: ?wptheme=
User-agent: ia_archiver
User-agent: ia_archiver-web.archive.org
User-agent: duggmirror
Disallow: /
Potete verificare il vostro file ROBOTS.txt con questo link Google Test