Diventa Autore per CoreTech | Scopri di più
28/07/16 CoreTech,CoreTech Blog
In questo articolo vogliamo parlare del file robots.txt, un semplice file di testo che però ha una grossa importanza in termini di indicizzazione sui motori di ricerca e SEO. Scopriamo insieme di più.
CHE COS’È
Il file robots.txt, emanazione del Protocollo di Esclusione Robot, è un file che si trova nella cartella principale del sito e fornisce istruzioni ai Bot Internet (chiamati anche Internet Robots o Crawler, a questo indirizzo è possibile trovarne una lista ) che lo visitano.
Un crawler è un programma che analizza in modo automatizzato ed analitico i contenuti di un sito Web (in genere per conto di un motore di ricerca) scaricando una copia della risorsa visitata.
PERCHÈ SI USA?
Con il file robots.txt è possibile indicare quali parti del sito si desidera non vengano consultate dai bot ed altre opzioni tra cui l’indirizzo della mappa del sito (site map), molto importante ai fini dell’indicizzazione specialmente in Google. Non è uno standard basato su una RFC, pertanto non è detto che tutti i bot seguano le direttive.
I bot generano richieste che hanno un costo computazionale e di traffico che può rapidamente portare ad un sovraccarico del vostro Web server, dunque uno degli scopi principali del file robots.txt è preservare il server da richieste eccessive; l’altro motivo principale è di volere che determinate pagine non vengano indicizzate (nel caso dei crawler dei motori di ricerca).
Attenzione: non tutti i crawler seguono le indicazioni del file robots.txt; ci sono persone con ben pochi scrupoli che creano dei bot, ad esempio per raccogliere indirizzi email per fini di spam, che deliberatamente non seguono le indicazioni contenute nel file robots.txt. Per questo motivo si raccomanda di non inserire gli indirizzi delle sezioni private e di amministrazione del sito. Per queste pagine si possono utilizzare i tag meta robots per evitare che i siti di ricerca indicizzino pagine con contenuto privato e sensibile.
COME SI FA?
Direttiva | Significato |
---|---|
User-agent | Indica a quale bot sono riferite le istruzioni. Il carattere asterisco * è il carattere wildcard |
Disallow | Indica il percorso (cartella o pagina) da non indicizzare. Il carattere slash / indica l’intero sito |
Sitemap | È il percorso che identifica il file che contiene la mappa del sito (fate riferimento a questo articolo) |
Allow | Permette la visita delle cartelle/file specificati ai bot |
Host | Indica l’host di riferimento nel caso di siti con vari mirror |
Esempi:
User-agent: * Allow:
Tutti i bot possono visitare tutto il sito (lo stesso risultato si ottiene con un file robots.txt vuoto o non creandolo)
User-agent: * Disallow: /
Tutti i robot non possono visitare alcuna pagina o entrare in alcuna cartella
User-agent: * Disallow: /login/ Disallow: /tmp/
Tutti i robot non possono visitare le cartelle login e tmp
User-agent: * Disallow: /private/secret.html
Tutti i bot non possono accedere alla pagina secret.html contenuta nella cartella private
User-agent: BadBot Disallow: /
Al bot BadBot viene precluso l’accesso all’intero sito
User-agent: BadBot User-agent: Googlebot Disallow: /private/
Ai bot BadBot e Googlebot viene precluso l’accesso alla cartella private
Sitemap https://esempio.it/sitemap.xml
Aggiunge la sitemap