Diventa Autore per CoreTech | Scopri di più





Il file robots.txt: che cos’è, come si fa e perché si usa?

28/07/16 CoreTech,CoreTech Blog

In questo articolo vogliamo parlare del file robots.txt, un semplice file di testo che però ha una grossa importanza in termini di indicizzazione sui motori di ricerca e SEO. Scopriamo insieme di più.

CHE COS’È

Il file robots.txt, emanazione del Protocollo di Esclusione Robot, è un file che si trova nella cartella principale del sito e fornisce istruzioni ai Bot Internet (chiamati anche Internet Robots o Crawler, a questo indirizzo è possibile trovarne una lista ) che lo visitano.
Un crawler è un programma che analizza in modo automatizzato ed analitico i contenuti di un sito Web (in genere per conto di un motore di ricerca) scaricando una copia della risorsa visitata.

PERCHÈ SI USA?

Con il file robots.txt è possibile indicare quali parti del sito si desidera non vengano consultate dai bot ed altre opzioni tra cui l’indirizzo della mappa del sito (site map), molto importante ai fini dell’indicizzazione specialmente in Google. Non è uno standard basato su una RFC, pertanto non è detto che tutti i bot seguano le direttive.

I bot generano richieste che hanno un costo computazionale e di traffico che può rapidamente portare ad un sovraccarico del vostro Web server, dunque uno degli scopi principali del file robots.txt è preservare il server da richieste eccessive; l’altro motivo principale è di volere che determinate pagine non vengano indicizzate (nel caso dei crawler dei motori di ricerca).

Attenzione: non tutti i crawler seguono le indicazioni del file robots.txt; ci sono persone con ben pochi scrupoli che creano dei bot, ad esempio per raccogliere indirizzi email per fini di spam, che deliberatamente non seguono le indicazioni contenute nel file robots.txt. Per questo motivo si raccomanda di non inserire gli indirizzi delle sezioni private e di amministrazione del sito. Per queste pagine si possono utilizzare i tag meta robots per evitare che i siti di ricerca indicizzino pagine con contenuto privato e sensibile.

COME SI FA?

Direttiva Significato
User-agent Indica a quale bot sono riferite le istruzioni. Il carattere asterisco * è il carattere wildcard
Disallow Indica il percorso (cartella o pagina) da non indicizzare. Il carattere slash / indica l’intero sito
Sitemap È il percorso che identifica il file che contiene la mappa del sito (fate riferimento a questo articolo)
Allow Permette la visita delle cartelle/file specificati ai bot
Host Indica l’host di riferimento nel caso di siti con vari mirror

Esempi:

User-agent: * 
Allow:

Tutti i bot possono visitare tutto il sito (lo stesso risultato si ottiene con un file robots.txt vuoto o non creandolo)

User-agent: *
Disallow: /

Tutti i robot non possono visitare alcuna pagina o entrare in alcuna cartella

User-agent: *
Disallow: /login/
Disallow: /tmp/

Tutti i robot non possono visitare le cartelle login e tmp

User-agent: *
Disallow: /private/secret.html

Tutti i bot non possono accedere alla pagina secret.html contenuta nella cartella private

User-agent: BadBot
Disallow: /

Al bot BadBot viene precluso l’accesso all’intero sito

User-agent: BadBot
User-agent: Googlebot
Disallow: /private/

Ai bot BadBot e Googlebot viene precluso l’accesso alla cartella private

Sitemap https://esempio.it/sitemap.xml

Aggiunge la sitemap