Creare il file robots.txt può facilitare i motori di ricerca nell’indicizzazione del sito.
Per chi non sa cosa sia esso è semplicemente una traccia, delle istruzioni che i motori di ricerca seguono durante la spiderizzazione (vedi Spiderizzare ossia l’atto dello spider di google o di altri motori, di passare sulle pagine e indicizzarle nei registri) del sito
In pratica grazie a questo file di testo molto semplice diciamo quali parti del sito lasciar stare e quindi questo aumenta la potenza dedicata alle parti in cui il motore deve spiderizzare .
Possiamo creare robots.txt file semplicemente con il notepad o con qualsiasi altro editor di testo. Basta ricordarsi di salvarlo nel formato .txt e con il nome esatto robots.txt
Successivamente lo si deve caricare nella root del nostro sito.
Il codice base per un robots.txt è il seguente
User-agent: *
Disallow: [qui mettiamo i file e le cartelle da escludere]
In partica User-agent: * identifica tutti gli spider dei motori di ricerca (google, bing, ecc.) e Disallow: dice di escludere i file e le cartelle che si segnalano dopo.
Es. per dire ai motori di escludere completamente la cartella che contiene i file dell’amministrazione di WordPress basterà creare un robots.txt con le seguenti istruzioni:
User-agent: *
Disallow: /wp-admin/
Per WordPress ho realizzato un file robot.txt partendo da quelli di altre persone e modificandolo.
Potete copiarlo e utilizzarlo liberamente per il vostro sito con WordPress.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed/
Disallow: /trackback/
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Disallow: /backup/
Disallow: /cgi-bin/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
User-agent: Googlebot-Image
Allow: /wp-content/uploads/