Specifiche relative al meta tag Robots, a data-nosnippet e X-Robots-Tag

Questo documento descrive come le impostazioni a livello di pagina e di testo ti consentono di adattare il modo in cui Google presenta i tuoi contenuti nei risultati di ricerca. Puoi specificare le impostazioni a livello di pagina includendo un meta tag nelle pagine HTML o in un'intestazione HTTP. Puoi specificare le impostazioni a livello di testo con l'attributo data-nosnippet in elementi HTML all'interno di una pagina.

Ricorda che queste impostazioni possono essere lette e seguite solo se ai crawler viene consentito di accedere alle pagine che le includono.

La regola <meta name="robots" content="noindex"> si applica ai crawler dei motori di ricerca. Per bloccare i crawler non di ricerca, ad esempio AdsBot-Google, potresti dover aggiungere regole indirizzate al crawler specifico, ad esempio <meta name="AdsBot-Google" content="noindex">.

Utilizzare il meta tag robots

Il meta tag robots ti consente di controllare in maniera granulare a livello di pagina il modo in cui una singola pagina deve essere indicizzata e mostrata agli utenti nei risultati della Ricerca Google. Inserisci il meta tag robots nella sezione <head> di una determinata pagina, in questo modo:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex">
(…)
</head>
<body>(…)</body>
</html>

In questo esempio, il meta tag robots indica ai motori di ricerca di non mostrare la pagina nei risultati. Il valore dell'attributo name (robots) specifica che la regola si applica a tutti i crawler. Entrambi gli attributi name e content non fanno distinzione tra maiuscole e minuscole. Per indicare un crawler specifico, sostituisci il valore robots dell'attributo name con il token dello user agent del crawler di interesse. Google supporta due token dello user agent nel meta tag robots; gli altri valori vengono ignorati:

  1. googlebot: per tutti i risultati testuali.
  2. googlebot-news: per i risultati di notizie.

Ad esempio, per indicare a Google di non mostrare specificamente una pagina nei risultati di ricerca, puoi specificare googlebot come nome del meta tag:

<meta name="googlebot" content="noindex">

Per mostrare una pagina nei risultati di ricerca web di Google, ma non in Google News, utilizza il meta tag googlebot-news:

<meta name="googlebot-news" content="noindex">

Per specificare più crawler singolarmente, utilizza più meta tag robots:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

Per bloccare l'indicizzazione di risorse non HTML, come file PDF, file video o file immagini, utilizza invece l'intestazione della risposta X-Robots-Tag.

Utilizzare l'intestazione HTTP X-Robots-Tag

X-Robots-Tag può essere utilizzato come elemento della risposta dell'intestazione HTTP di un URL specifico. Qualsiasi regola utilizzabile in un meta tag robots può essere specificata anche come X-Robots-Tag. Di seguito è riportato un esempio di risposta HTTP con un X-Robots-Tag che indica ai crawler di non indicizzare una pagina:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

È possibile combinare più intestazioni X-Robots-Tag all'interno della risposta HTTP. In alternativa, puoi specificare un elenco di regole separate da virgole. Di seguito è riportato un esempio di risposta dell'intestazione HTTP che contiene un X-Robots-Tag noarchive combinato con un X-Robots-Tag unavailable_after.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag può eventualmente specificare uno user agent prima delle regole. Ad esempio, il seguente insieme di intestazioni HTTP X-Robots-Tag può essere usato per consentire la visualizzazione di una pagina nei risultati di ricerca su motori diversi a determinate condizioni.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Le regole specificate senza uno user agent sono valide per tutti i crawler. L'intestazione HTTP, il nome dello user agent e i valori specificati non sono sensibili alle maiuscole.

Regole di indicizzazione e pubblicazione valide

Le regole seguenti, disponibili anche in formato leggibile dal computer, possono essere utilizzate per controllare l'indicizzazione e la pubblicazione di uno snippet con il meta tag robots e X-Robots-Tag. Ogni valore rappresenta una regola specifica. È possibile combinare più regole in un elenco separato da virgole o in meta tag separati. Per queste regole non viene fatta distinzione tra maiuscole e minuscole.

Regole

all

Non sono presenti limitazioni per l'indicizzazione e la pubblicazione. Questa regola è il valore predefinito e non ha alcun effetto se viene inclusa in modo esplicito.

noindex

Non mostrare questa pagina, questo elemento multimediale o questa risorsa nei risultati di ricerca. Se non specifichi questa regola, la pagina, l'elemento multimediale o la risorsa potrebbero essere indicizzati e visualizzati nei risultati di ricerca.

Per rimuovere informazioni da Google, segui la nostra guida passo passo.

nofollow

Non seguire i link su questa pagina. Se non specifichi questa regola, Google potrebbe utilizzare i link sulla pagina per individuare le pagine collegate. Scopri di più su nofollow.

none

Equivalente a noindex, nofollow.

noarchive

Non mostrare un link Copia cache nei risultati di ricerca. Se non specifichi questa regola, Google potrebbe generare una pagina memorizzata nella cache e gli utenti potrebbero accedervi tramite i risultati di ricerca.

nositelinkssearchbox

Non mostrare una casella di ricerca dei sitelink nei risultati di ricerca per questa pagina. Se non specifichi questa regola, Google potrebbe generare una casella di ricerca specifica per il tuo sito nei risultati di ricerca, insieme ad altri link diretti al tuo sito.

nosnippet

Non mostrare uno snippet di testo o un'anteprima video nei risultati di ricerca per questa pagina. La miniatura statica di un'immagine (se disponibile) potrebbe ancora essere visibile, se può migliorare l'esperienza utente. Ciò si applica ai risultati di ricerca in qualsiasi forma (per quanto riguarda Google: Ricerca Google, Google Immagini, Discover). Inoltre, nelle panoramiche di SGE di Google non verranno mostrati i contenuti bloccati utilizzando nosnippet.

Se non specifichi questa regola, Google potrebbe generare uno snippet di testo e un'anteprima video in base alle informazioni trovate nella pagina.

indexifembedded

Google può indicizzare i contenuti di una pagina se è incorporata in un'altra pagina tramite iframes o tag HTML simili, nonostante una regola noindex.

indexifembedded ha effetto solo se è accompagnato da noindex.

max-snippet: [numero]

Usa un massimo di [numero] caratteri come snippet testuale per questo risultato di ricerca. Tieni presente che all'interno di una pagina dei risultati di ricerca un URL potrebbe comparire per più risultati di ricerca. Questa istruzione non influisce sulle anteprime di immagini o video e si applica ai risultati di ricerca in qualsiasi forma (ad esempio Ricerca Google, Google Immagini, Discover e assistente). Inoltre, le panoramiche di SGE di Google non mostrano contenuti oltre il limite specificato. Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce contenuti in forma di dati strutturati in-page o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici. Questa regola viene ignorata se non viene specificato un valore [numero] analizzabile.

Se non specifichi questa regola, Google sceglierà la lunghezza dello snippet.

Valori speciali:

  • 0: non deve essere mostrato nessuno snippet. Equivalente a nosnippet.
  • -1: Google sceglierà la lunghezza dello snippet che ritiene più efficace per aiutare gli utenti a scoprire i tuoi contenuti e indirizzarli al tuo sito.

Esempi:

Per interrompere la visualizzazione di uno snippet nei risultati di ricerca:

<meta name="robots" content="max-snippet:0">

Per consentire che nello snippet vengano visualizzati fino a 20 caratteri:

<meta name="robots" content="max-snippet:20">

Per specificare che non esiste un limite al numero di caratteri che possono essere visualizzati nello snippet:

<meta name="robots" content="max-snippet:-1">

max-image-preview: [impostazione]

Imposta la dimensione massima dell'anteprima di un'immagine per questa pagina nei risultati di ricerca.

Se non specifichi la regola max-image-preview, Google potrebbe mostrare un'anteprima dell'immagine delle dimensioni predefinite.

Valori accettati per [impostazione]:

  • none: non deve essere mostrata nessuna anteprima dell'immagine.
  • standard: è possibile mostrare un'anteprima predefinita dell'immagine.
  • large: è possibile mostrare un'anteprima dell'immagine che sia larga al massimo quanto l'area visibile.

Ciò si applica ai risultati di ricerca in qualsiasi forma (ad esempio Ricerca Google, Google Immagini, Discover e assistente). Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce i contenuti sotto forma di dati strutturati in-page (come versioni AMP e canonica di un articolo) o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici.

Se non vuoi che Google usi miniature più grandi quando le pagine AMP e la versione canonica di un articolo vengono mostrate nella Ricerca o in Discover, specifica un valore max-image-preview pari a standard o none.

Esempio:

<meta name="robots" content="max-image-preview:standard">

max-video-preview: [numero]

Usa un massimo di [numero] secondi come snippet video per i video di questa pagina nei risultati di ricerca.

Se non specifichi la regola max-video-preview, lasci che sia Google a stabilire la durata dell'anteprima dello snippet video eventualmente visualizzato nei risultati di ricerca.

Valori speciali:

  • 0: al massimo, può essere usata un'immagine statica, conformemente all'impostazione max-image-preview.
  • -1: nessun limite.

Ciò si applica ai risultati di ricerca in tutte le forme (Ricerca Google, Google Immagini, Google Video, Discover, assistente). Questa regola viene ignorata se non viene specificato un valore [numero] analizzabile.

Esempio:

<meta name="robots" content="max-video-preview:-1">

notranslate

Non proporre la traduzione di questa pagina nei risultati di ricerca. Se non specifichi questa regola, Google potrebbe fornire una traduzione del link del titolo e dello snippet di un risultato di ricerca per i risultati che non sono nella lingua della query di ricerca. Se l'utente fa clic sul link del titolo tradotto, tutte le ulteriori interazioni dell'utente con la pagina avvengono tramite Google Traduttore, che traduce automaticamente i link seguiti.

noimageindex

Non indicizzare le immagini in questa pagina. Se non specifichi questo valore, le immagini nella pagina potrebbero essere indicizzate e visualizzate nei risultati di ricerca.

unavailable_after: [data/ora]

Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificate. La data e l'ora devono essere specificate in un formato ampiamente adottato inclusi, a titolo esemplificativo, RFC 822, RFC 850 e ISO 8601. Questa regola viene ignorata se non viene specificato alcun valore data/ora valido. Per impostazione predefinita, i contenuti non hanno data di scadenza.

Se non specifichi questa regola, la pagina potrebbe essere visualizzata nei risultati di ricerca a tempo indeterminato. Googlebot ridurrà notevolmente la frequenza di scansione dell'URL dopo la data e l'ora specificate.

Esempio:

<meta name="robots" content="unavailable_after: 2020-09-21">

Gestire le regole di indicizzazione e pubblicazione combinate

Puoi creare una regola con più regole raggruppando meta tag robots separati da virgole o usando più meta tag. Di seguito è riportato un esempio di meta tag robots che indica ai web crawler di non indicizzare la pagina e di non sottoporre a scansione nessun link sulla pagina:

Elenco separato da virgole

<meta name="robots" content="noindex, nofollow">

Più tag meta

<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">

Di seguito è riportato un esempio che limita lo snippet di testo a 20 caratteri e consente un'anteprima delle immagini di grandi dimensioni:

<meta name="robots" content="max-snippet:20, max-image-preview:large">

Per le situazioni in cui vengono specificati più crawler con diverse regole, il motore di ricerca utilizza la somma delle regole negative. Ad esempio:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Googlebot identificherà la pagina contenente questi meta tag come una pagina con regola noindex, nofollow.

Utilizzare l'attributo HTML data-nosnippet

Puoi contrassegnare le parti testuali di una pagina HTML da non utilizzare come snippet. Puoi eseguire questa operazione a livello di elemento HTML con l'attributo HTML data-nosnippet negli elementi span, div e section. data-nosnippet è considerato un attributo booleano. Come con tutti gli attributi booleani, eventuali valori specificati vengono ignorati. Per poter essere leggibile dal computer, la sezione HTML deve contenere codice HTML valido e tutti i tag appropriati devono essere chiusi di conseguenza.

Esempi:

<p>This text can be shown in a snippet
<span data-nosnippet>and this part would not be shown</span>.</p>

<div data-nosnippet>not in snippet</div>
<div data-nosnippet="true">also not in snippet</div>
<div data-nosnippet="false">also not in snippet</div>
<!-- all values are ignored -->

<div data-nosnippet>some text</html>
<!-- unclosed "div" will include all content afterwards -->

<mytag data-nosnippet>some text</mytag>
<!-- NOT VALID: not a span, div, or section -->

<p>This text can be shown in a snippet.</p>
<div data-nosnippet>
  <p>However, this is not in snippet.</p>
  <ul>
    <li>Stuff not in snippet</li>
    <li>More stuff not in snippet</li>
  </ul>
</div>

Normalmente, Google visualizza le pagine per poterle indicizzare, ma la visualizzazione non è garantita. Per questo motivo, l'estrazione di data-nosnippet può avvenire sia prima sia dopo la visualizzazione. Per evitare incertezze rispetto alla visualizzazione, non aggiungere o rimuovere l'attributo data-nosnippet dei nodi esistenti tramite JavaScript. Se aggiungi elementi DOM tramite JavaScript, includi l'attributo data-nosnippet necessario durante l'aggiunta iniziale dell'elemento al DOM della pagina. Se vengono usati elementi personalizzati, aggregali o visualizzali con gli elementi div, span o section se devi usare data-nosnippet.

Utilizzare i dati strutturati

I meta tag Robots regolano la quantità di contenuti che Google estrae automaticamente dalle pagine web per visualizzarli nei risultati di ricerca. Molti publisher, però, usano anche i dati strutturati di schema.org per rendere disponibili determinate informazioni per la presentazione nella ricerca. Le limitazioni dei meta tag Robots non incidono sull'uso dei dati strutturati, ad eccezione di article.description e dei valori description per i dati strutturati specificati per altre opere creative. Per specificare la lunghezza massima di un'anteprima in base a questi valori description, utilizza la regola max-snippet. Ad esempio, i dati strutturati recipe in una pagina sono idonei per essere inseriti nel carosello di ricette, anche se l'anteprima di testo sarà limitata. Puoi limitare la lunghezza di un'anteprima di testo con max-snippet, ma questo meta tag robots non viene applicato se le informazioni vengono fornite usando dati strutturati per i risultati avanzati.

Per gestire l'uso dei dati strutturati delle tue pagine web, modifica direttamente i tipi e i valori dei dati strutturati aggiungendo o rimuovendo le informazioni per fornire solo i dati che vuoi rendere disponibili. Tieni presente inoltre che i dati strutturati restano utilizzabili per i risultati di ricerca quando sono dichiarati all'interno di un elemento data-nosnippet.

Implementazione pratica di X-Robots-Tag

Puoi aggiungere X-Robots-Tag alle risposte HTTP di un sito tramite i file di configurazione del software server web del tuo sito. Ad esempio, sui server web basati su Apache puoi usare i file .htaccess e httpd.conf. Il vantaggio di usare X-Robots-Tag con le risposte HTTP è che puoi specificare le regole di scansione da applicare globalmente a un sito. Il supporto delle espressioni regolari consente un elevato livello di flessibilità.

Ad esempio, per aggiungere un X-Robots-Tag noindex, nofollow alla risposta HTTP di tutti i file .PDF dell'intero sito, aggiungi lo snippet seguente al file .htaccess principale del sito oppure httpd.conf su Apache o al file .conf del sito su NGINX.

Apache

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Puoi utilizzare l'intestazione X-Robots-Tag per i file non HTML come i file immagine in cui non è possibile utilizzare i meta tag robots nell'HTML. Di seguito è riportato un esempio di come aggiungere una regola noindex X-Robots-Tag per i file immagine (.png, .jpeg, .jpg, .gif) in un intero sito:

Apache

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

NGINX

location ~* \.(png|jpe?g|gif)$ {
  add_header X-Robots-Tag "noindex";
}

Puoi anche impostare le intestazioni X-Robots-Tag per i singoli file statici:

Apache

# the htaccess file must be placed in the directory of the matched file.
<Files "unicorn.pdf">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

NGINX

location = /secrets/unicorn.pdf {
  add_header X-Robots-Tag "noindex, nofollow";
}

Combinare le regole del file robots.txt con le regole di indicizzazione e pubblicazione

I meta tag robots e le intestazioni HTTP X-Robots-Tag vengono rilevati quando un URL viene sottoposto a scansione. Se una pagina viene esclusa dalla scansione tramite il file robots.txt, le informazioni relative alle regole di indicizzazione e pubblicazione non vengono rilevate e, pertanto, vengono ignorate. Se occorre seguire le regole di indicizzazione o pubblicazione, gli URL contenenti queste regole non possono essere esclusi dalla scansione.