Introduzione ai file robots.txt

Un file robots.txt fa capire ai crawler dei motori di ricerca a quali URL possono accedere sul tuo sito. Viene usato principalmente per evitare di sovraccaricare di richieste il sito; non è un meccanismo che permette di escludere una pagina web da Google. Per escludere una pagina web da Google, blocca l'indicizzazione con il meta tag noindexnoindex oppure proteggi tramite password la pagina.

Per cosa viene utilizzato un file robots.txt?

Un file robots.txt viene usato principalmente per gestire il traffico dei crawler verso il tuo sito e solitamente per escludere un file da Google, a seconda del tipo di file:

Effetto del file robots.txt su diversi tipi di file
Pagina web

Puoi utilizzare un file robots.txt per le pagine web (HTML, PDF o altri formati non multimediali che Google può leggere) per gestire il traffico di scansione, se ritieni che il server possa essere sovraccaricato di richieste dal crawler di Google, oppure per evitare che venga eseguita la scansione di pagine simili o non importanti del tuo sito.

Se la tua pagina web è bloccata da un file robots.txt, il relativo URL può comunque essere visualizzato nei risultati di ricerca, ma il risultato di ricerca non avrà una descrizione. I file immagine, i file video, i PDF e altri file non HTML verranno esclusi. Se vedi questo risultato di ricerca per la tua pagina e vuoi sistemarlo, rimuovi la voce del file robots.txt che blocca la pagina. Se vuoi escludere completamente la pagina dai risultati di ricerca, usa un altro metodo.

File multimediale

Utilizza un file robots.txt per gestire il traffico di scansione e anche per impedire la visualizzazione di file immagine, video e audio nei risultati di ricerca di Google. Ciò non impedisce ad altri utenti o altre pagine di rimandare al tuo file immagine, video o audio.

File di risorse Puoi utilizzare un file robots.txt per bloccare i file di risorse, come file immagine, script o stile non importanti, se ritieni che le pagine caricate senza tali risorse non subiranno conseguenze significative in seguito alla perdita. Tuttavia, se l'assenza di queste risorse complica la comprensione della pagina per il crawler di Google, non bloccarle, altrimenti Google non potrà garantire buoni risultati nell'analisi delle tue pagine che dipendono da tali risorse.

Comprendere i limiti di un file robots.txt

Prima di creare o modificare un file robots.txt, dovresti conoscere i limiti di questo metodo di blocco degli URL. A seconda dei tuoi obiettivi e della tua situazione, può essere opportuno prendere in considerazione altri metodi per assicurarti che i tuoi URL non siano rintracciabili sul Web.

  • Le istruzioni del file robots.txt potrebbero non essere supportate da tutti i motori di ricerca.
    Le istruzioni nei file robots.txt non possono imporre il comportamento del crawler per il tuo sito, ma spetta al crawler rispettarle. Googlebot e altri web crawler affidabili seguono le istruzioni contenute in un file robots.txt, ma non è detto che altri crawler facciano altrettanto. Pertanto, per proteggere le informazioni dai web crawler, ti consigliamo di utilizzare altri metodi di blocco, ad esempio la protezione tramite password dei file privati presenti sul tuo server.
  • Interpretazione diversa della sintassi a seconda del crawler.
    Anche se i web crawler affidabili si attengono alle istruzioni di un file robots.txt, alcuni potrebbero interpretarle in modo diverso. È necessario conoscere la sintassi più appropriata da applicare ai diversi web crawler, poiché alcuni potrebbero non comprendere determinate istruzioni.
  • Una pagina non consentita nel file robots.txt può comunque essere indicizzata se altri siti includono rimandi a questa pagina.
    Sebbene Google non esegua la scansione o l'indicizzazione dei contenuti bloccati dal file robots.txt, potrebbe comunque trovare e indicizzare un URL non consentito se altre posizioni del Web hanno link che rimandano a tale URL. Di conseguenza, l'indirizzo URL e, potenzialmente, anche altre informazioni disponibili pubblicamente, quali l'anchor text nei link che rimandano alla pagina, potrebbero continuare a essere visualizzati nei risultati di ricerca di Google. Per evitare che l'URL venga visualizzato nei risultati di ricerca di Google, dovresti proteggere tramite password i file sul server oppure usare l'intestazione della risposta o il meta tag noindex (o ancora rimuovere completamente la pagina).

Creare un file robots.txt

Se ritieni di averne bisogno, scopri come creare un file robots.txt.