File Robots.txt

Creare un corretto file robots.txt

Per ottenere una corretta indicizzazione nei motori di ricerca è fondamentale saper impostare correttamente il file Robots.txt e le regole che determinano le restrizioni di lettura dei contenuti “duplicati” da parte degli “speeder”.

Va sottolineato che il file Robots.txt serve per indicare quei file o directory che NON si vogliono rendere visibili ai motori di ricerca tramite gli spider e NON per indicare cosa è visibile. Quindi indicare Allow: / è un controsenso e viene interpretato come errore.

Una piccola premessa in merito alla definizione di “indicizzazione” e “scansione”. La prima Indicizzazione, indica di inserire i nostri contenuti nell’indice del motore di ricerca, quindi diciamo di inserire nell’indice di ricerca organica una nostra pagina web. La seconda Scansione, indica di processare i dati per una loro analisi.

Ora vediamo come ottimizzare il file ROBOTS.txt

In primo luogo indichiamo dove trovare la site map del sito

# Sitemap
Sitemap: http://ioewp.com/sitemap.xml.gz

Indichiamo quali Robots possono leggere e seguire le nostre regole. (* indica TUTTI i Robots)

# Tutti i Robost
User-agent: *

Ora andiamo a bloccare il motore di WordPress, cioè i suoi file  e directory pieni di script e che non costituiscono “contenuto interessante”.

# Disabilita accesso file e directory WordPress
# importante, fate seguire il nome della directory da una barra /
Disallow: /cgi-bin/ (directory default Linux)
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/backup-db/ (nel caso abbiate installato il plugin di backup WP-DBManager)

Evitiamo di indicizzare contenuti “duplicati” che potrebbero penalizzare la nostra indicizzazione [protected]

# Disabilita indicizzazione elementi che possono generare diversi URL per un singolo post
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /category/*/*

Blocchiamo l’indicizzazione di URL che generano “querystring”

# Disabilita indicizzazione elementi che contengono querystring
Disallow: /*?
Disallow: /*?*
Disallow: ?wptheme=

Queste regole sono opzionali e si riferiscono a particolari casi e speeder

# Google Image - Motore delle Immagini permette l'indicizzazione delle immagini del nostro sito
User-agent: Googlebot-Image
Disallow: / [impedisce]
Allow: /* [permette]

# Google AdSense - Per impedire la scansione delle pagine del tuo sito pur continuando a visualizzare gli annunci AdSense su tali pagine, non ammettere l'accesso di tutti i bot diversi da Mediapartners-Google a tali pagine. In tal modo, le pagine non verranno visualizzate nei risultati di ricerca, ma il robot Mediapartners-Google potrà analizzarle per determinare gli annunci da mostrare. Il robot Mediapartners-Google non condivide le pagine con gli altri user-agent di Google.
User-agent: Mediapartners-Google*
Disallow: / [impedisce]
Allow: /* [permette]

# Adsbot-Google - E' un nuovo speeder Google per analizzare la qualità delle landing page che verrà poi usato come segno di qualità da Google per assegna un annuncio Adwords
User-agent: Adsbot-Google
Allow: /

# Googlebot-Mobile - E' un nuovo strumento Google per migliorare la search experience degli utenti mobile.
User-agent: Googlebot-Mobile
Allow: /

Per comodità riporto l’intero listato delle regole

# Sitemap
Sitemap: http://ioewp.com/sitemap.xml
# Tutti i Robost
User-agent: *
# Disabilita accesso file e directory WordPress
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-content/backup-db/
# Disabilita indicizzazione elementi che possono generare diversi URL per un singolo post
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /category/*/*
# Disabilita indicizzazione elementi che contengono querystring
Disallow: /*?
Disallow: /*?*
Disallow: ?wptheme=

User-agent: ia_archiver
User-agent: ia_archiver-web.archive.org
User-agent: duggmirror
Disallow: /

Potete verificare il vostro file ROBOTS.txt con questo link Google Test

Lascia un commento

Elemento aggiunto al carrello.
0 items - 0,00 
0
    0
    Il tuo carrello
    Carrello vuotoTorna allo shop