Specifiche relative al meta tag robots, all'attributo data-nosnippet e all'intestazione X-Robots-Tag
Questo documento descrive come le impostazioni a livello di pagina e di testo ti consentono di adattare il modo in cui Google presenta i tuoi contenuti nei risultati di ricerca. Puoi specificare le impostazioni a livello di pagina includendo un meta tag
nelle pagine HTML o in un'intestazione HTTP. Puoi specificare le impostazioni a livello di testo con l'attributo data-nosnippet
in elementi HTML all'interno di una pagina.
Ricorda che queste impostazioni possono essere lette e seguite solo se ai crawler viene consentito di accedere alle pagine che le includono.
Il tag o l'istruzione <meta name="robots" content="noindex">
si applica ai
crawler dei motori di ricerca. Per bloccare i crawler non di ricerca, ad esempio AdsBot-Google
, potresti dover aggiungere istruzioni indirizzate al crawler specifico, ad esempio <meta name="AdsBot-Google" content="noindex">
.
Utilizzare il meta tag robots
Il meta tag robots ti consente di controllare in maniera granulare a livello di pagina il modo in cui una singola pagina deve essere indicizzata e mostrata agli utenti nei risultati della Ricerca Google. Inserisci il meta tag robots nella sezione <head>
di una determinata pagina, in questo modo:
<!DOCTYPE html> <html><head> <meta name="robots" content="noindex"> (…) </head> <body>(…)</body> </html>
In questo esempio, il meta tag robots indica ai motori di ricerca di non mostrare la pagina nei risultati. Il valore dell'attributo name
(robots
) specifica che l'istruzione si applica a tutti i crawler. Per indicare un crawler specifico, sostituisci il valore robots
dell'attributo name
con il nome del crawler di interesse. I crawler specifici sono noti anche come user agent (un crawler utilizza il proprio user agent per richiedere una pagina). Il nome dello user agent del web crawler standard di Google è Googlebot
. Per impedire solo a Google di indicizzare la pagina, aggiorna il tag come indicato di seguito:
<meta name="googlebot" content="noindex">
Il tag ora indica specificatamente a Google di non mostrare la pagina nei risultati di ricerca. Entrambi gli
attributi name
e content
non sono sensibili alle maiuscole.
I motori di ricerca possono avere crawler differenti per scopi diversi. Consulta l'elenco completo dei crawler di Google. Ad esempio, per mostrare una pagina nei risultati di ricerca web di Google, ma non in Google News, utilizza il meta tag riportato di seguito:
<meta name="googlebot-news" content="noindex">
Per specificare più crawler singolarmente, utilizza più meta tag robots:
<meta name="googlebot" content="noindex"> <meta name="googlebot-news" content="nosnippet">
Per bloccare l'indicizzazione di risorse non HTML, come file PDF, file video o file immagini, utilizza invece l'intestazione della risposta X-Robots-Tag
.
Utilizzare l'intestazione HTTP X-Robots-Tag
X-Robots-Tag
può essere utilizzato come elemento della
risposta dell'intestazione HTTP di un URL specifico. Qualsiasi istruzione utilizzabile in un meta tag robots
può anche essere specificata come un X-Robots-Tag
. Di seguito è
riportato un esempio di risposta HTTP con un X-Robots-Tag
che indica ai crawler di non indicizzare una pagina:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)
È possibile combinare più intestazioni X-Robots-Tag
all'interno della risposta HTTP. In alternativa, puoi specificare un elenco di istruzioni separate da virgole. Di seguito è riportato un esempio
di risposta dell'intestazione HTTP che
contiene un X-Robots-Tag
noarchive
combinato
con un X-Robots-Tag
unavailable_after
.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST (…)
X-Robots-Tag
può eventualmente specificare uno user agent prima delle
istruzioni. Ad esempio, il seguente insieme di intestazioni HTTP X-Robots-Tag
può essere usato per consentire la visualizzazione di una pagina nei risultati di ricerca su motori diversi a determinate condizioni.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
Le istruzioni specificate senza uno user agent sono valide per tutti i crawler. L'intestazione HTTP, il nome dello user agent e i valori specificati non sono sensibili alle maiuscole.
Istruzioni di indicizzazione e pubblicazione valide
Le istruzioni seguenti possono essere usate per controllare l'indicizzazione e la pubblicazione di uno snippet con il meta tag robots e X-Robots-Tag
. All'interno dei risultati di ricerca, uno snippet è un breve estratto di testo usato per dimostrare la pertinenza di un documento rispetto alla query di un utente. Nella tabella che segue vengono mostrate tutte le istruzioni seguite da Google e il relativo significato. Ogni valore rappresenta un'istruzione specifica. È possibile combinare più istruzioni in un elenco separato da virgole o in meta tag a parte. Le istruzioni
non sono sensibili alle maiuscole.
Istruzioni | |
---|---|
|
Non sono presenti limitazioni per l'indicizzazione e la pubblicazione. Questa istruzione è il valore predefinito e non ha alcun effetto se viene inclusa in modo esplicito. |
|
Non mostrare questa pagina, questo elemento multimediale o questa risorsa nei risultati di ricerca. Se non specifichi questa istruzione, la pagina, l'elemento multimediale o la risorsa potrebbero essere indicizzati e visualizzati nei risultati di ricerca. Per rimuovere informazioni da Google, segui la nostra guida passo passo. |
|
Non seguire i link su questa pagina. Se non specifichi questa istruzione, Google potrebbe utilizzare i link sulla pagina per individuare le pagine collegate. Scopri di più su
nofollow .
|
|
Equivalente a noindex, nofollow .
|
|
Non mostrare un link Copia cache nei risultati di ricerca. Se non specifichi questa istruzione, Google potrebbe generare una pagina memorizzata nella cache e gli utenti potrebbero accedervi tramite i risultati di ricerca. |
|
Non mostrare una casella di ricerca dei sitelink nei risultati di ricerca per questa pagina. Se non specifichi questa istruzione, Google potrebbe generare una casella di ricerca specifica per il tuo sito nei risultati di ricerca, insieme ad altri link diretti al tuo sito. |
|
Non mostrare uno snippet di testo nei risultati di ricerca di questa pagina. La miniatura statica di un'immagine (se disponibile) potrebbe ancora essere visibile, se può migliorare l'esperienza utente. Ciò si applica ai risultati di ricerca in qualsiasi forma (per quanto riguarda Google: Ricerca Google, Google Immagini, Discover). Se non specifichi questa istruzione, Google potrebbe generare uno snippet di testo e un'anteprima video in base alle informazioni trovate nella pagina. |
|
Google può indicizzare i contenuti di una pagina se è incorporata in un'altra pagina tramite
|
|
Usa un massimo di [numero] caratteri come snippet testuale per questo risultato di ricerca. Tieni presente che all'interno di una pagina dei risultati di ricerca un URL potrebbe comparire per più risultati di ricerca. Questa istruzione non influisce sulle anteprime di immagini o video e si applica ai risultati di ricerca in qualsiasi forma (ad esempio Ricerca Google, Google Immagini, Discover e assistente). Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce contenuti in forma di dati strutturati in-page o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici. Questa istruzione viene ignorata se non viene specificato un valore [numero] analizzabile. Se non specifichi questa istruzione, Google sceglierà la lunghezza dello snippet. Valori speciali:
Esempi: Per interrompere la visualizzazione di uno snippet nei risultati di ricerca: <meta name="robots" content="max-snippet:0"> Per consentire che nello snippet vengano visualizzati fino a 20 caratteri: <meta name="robots" content="max-snippet:20"> Per specificare che non esiste un limite al numero di caratteri che possono essere visualizzati nello snippet: <meta name="robots" content="max-snippet:-1"> |
|
Imposta la dimensione massima dell'anteprima di un'immagine per questa pagina nei risultati di ricerca.
Se non specifichi l'istruzione Valori accettati per [impostazione]:
Ciò si applica ai risultati di ricerca in qualsiasi forma (ad esempio Ricerca Google, Google Immagini, Discover e assistente). Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce i contenuti sotto forma di dati strutturati in-page (come versioni AMP e canonica di un articolo) o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici.
Se non vuoi che Google usi miniature più grandi quando le pagine AMP e la versione canonica di un articolo vengono mostrate nella Ricerca o in Discover, specifica un valore Esempio: <meta name="robots" content="max-image-preview:standard"> |
|
Usa un massimo di [numero] secondi come snippet video per i video di questa pagina nei risultati di ricerca.
Se non specifichi l'istruzione Valori speciali:
Ciò si applica ai risultati di ricerca in tutte le forme (Ricerca Google, Google Immagini, Google Video, Discover, assistente). Questa istruzione viene ignorata se non viene specificato un valore [numero] analizzabile. Esempio: <meta name="robots" content="max-video-preview:-1"> |
|
Non proporre la traduzione di questa pagina nei risultati di ricerca. Se non specifichi questa istruzione, Google potrebbe fornire una traduzione del link del titolo e dello snippet di un risultato di ricerca per i risultati che non sono nella lingua della query di ricerca. Se l'utente fa clic sul link del titolo tradotto, tutte le ulteriori interazioni dell'utente con la pagina avvengono tramite Google Traduttore, che traduce automaticamente i link seguiti. |
|
Non indicizzare le immagini in questa pagina. Se non specifichi questo valore, le immagini nella pagina potrebbero essere indicizzate e visualizzate nei risultati di ricerca. |
|
Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificate. La data e l'ora devono essere specificate in un formato ampiamente adottato inclusi, a titolo esemplificativo, RFC 822, RFC 850 e ISO 8601. Questa istruzione viene ignorata se non viene specificato alcun valore data/ora valido. Per impostazione predefinita, i contenuti non hanno data di scadenza. Se non specifichi questa istruzione, la pagina potrebbe essere visualizzata nei risultati di ricerca a tempo indeterminato. Googlebot ridurrà notevolmente la frequenza di scansione dell'URL dopo la data e l'ora specificate. Esempio: <meta name="robots" content="unavailable_after: 2020-09-21"> |
Gestire istruzioni di indicizzazione e pubblicazione combinate
Puoi creare una combinazione di più istruzioni raggruppando meta tag robots separati da virgole o usando più meta tag. Di seguito è riportato un esempio di meta tag robots che indica ai web crawler di non indicizzare la pagina e di non sottoporre a scansione nessun link sulla pagina:
Elenco separato da virgole
<meta name="robots" content="noindex, nofollow">
Più meta tag
<meta name="robots" content="noindex"> <meta name="robots" content="nofollow">
Di seguito è riportato un esempio che limita lo snippet di testo a 20 caratteri e consente un'anteprima delle immagini di grandi dimensioni:
<meta name="robots" content="max-snippet:20, max-image-preview:large">
Per le situazioni in cui vengono specificati più crawler con diverse istruzioni, il motore di ricerca utilizza la somma delle istruzioni negative. Ad esempio:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
Googlebot identificherà la pagina contenente questi meta tag come
una pagina con istruzione noindex, nofollow
.
Utilizzare l'attributo HTML data-nosnippet
Puoi contrassegnare le parti testuali di una pagina HTML da non utilizzare come snippet. Puoi eseguire questa operazione
a livello di elemento HTML con l'attributo HTML data-nosnippet
negli elementi span
,
div
e section
. data-nosnippet
è considerato un
attributo booleano.
Come con tutti gli attributi booleani, eventuali valori
specificati vengono ignorati. Per poter essere leggibile dal computer,
la sezione HTML deve contenere codice HTML valido e tutti i tag appropriati devono essere chiusi
di conseguenza.
Esempi:
<p>This text can be shown in a snippet <span data-nosnippet>and this part would not be shown</span>.</p> <div data-nosnippet>not in snippet</div> <div data-nosnippet="true">also not in snippet</div> <div data-nosnippet="false">also not in snippet</div> <!-- all values are ignored --> <div data-nosnippet>some text</html> <!-- unclosed "div" will include all content afterwards --> <mytag data-nosnippet>some text</mytag> <!-- NOT VALID: not a span, div, or section -->
Normalmente, Google visualizza le pagine per poterle indicizzare, ma la visualizzazione non è garantita.
Per questo motivo, l'estrazione di data-nosnippet
può avvenire sia prima sia dopo
la visualizzazione. Per evitare incertezze rispetto alla visualizzazione, non aggiungere o rimuovere
l'attributo data-nosnippet
dei nodi esistenti tramite JavaScript.
Se aggiungi elementi DOM tramite JavaScript, includi
l'attributo data-nosnippet
necessario durante l'aggiunta iniziale dell'elemento
al DOM della pagina. Se vengono usati elementi personalizzati, aggregali o visualizzali
con gli elementi div
, span
o section
se devi usare data-nosnippet
.
Utilizzare i dati strutturati
I meta tag robots regolano la quantità di contenuti che Google estrae automaticamente dalle pagine web
per visualizzarli nei risultati di ricerca. Molti publisher, però, usano anche i dati strutturati di schema.org per rendere
disponibili determinate informazioni per la presentazione nella ricerca. Le limitazioni dei meta tag robots non incidono sull'uso dei
dati strutturati, ad eccezione di article.description
e dei
valori description
per i dati strutturati specificati per altre opere creative. Per specificare la lunghezza massima di un'anteprima in base a questi valori description
,
usa il meta tag robots max-snippet
. Ad esempio, i dati strutturati recipe
in una pagina sono idonei per essere inseriti nel carosello di ricette, anche se l'anteprima di testo sarà limitata. Puoi limitare la lunghezza di un'anteprima di testo con max-snippet
,
ma questo meta tag robots non viene applicato se le informazioni vengono fornite usando dati strutturati
per i risultati multimediali.
Per gestire l'uso dei dati strutturati delle tue pagine web, modifica direttamente
i tipi e i valori dei dati strutturati aggiungendo o rimuovendo le informazioni per fornire
solo i dati che vuoi rendere disponibili. Tieni presente inoltre che i dati strutturati restano utilizzabili per i risultati di ricerca
quando sono dichiarati all'interno di un elemento data-nosnippet
.
Implementazione pratica di X-Robots-Tag
Puoi aggiungere X-Robots-Tag
alle risposte HTTP di un sito tramite i file di configurazione
del software server web del tuo sito. Ad esempio, sui server web basati su Apache puoi usare
i file .htaccess e httpd.conf. Il vantaggio di usare X-Robots-Tag
con le risposte
HTTP è che puoi specificare le istruzioni di scansione da applicare globalmente a un sito. Il supporto delle espressioni regolari consente un elevato livello di flessibilità.
Ad esempio, per aggiungere un X-Robots-Tag
noindex, nofollow
alla risposta HTTP di tutti i file PDF di un intero sito, aggiungi lo snippet seguente al file .htaccess o .httpd.conf root del sito su Apache o al file .conf del sito su NGINX.
Apache
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }
NGINX
Puoi utilizzare l'intestazione X-Robots-Tag
per i file non HTML come i file immagine in cui non è possibile utilizzare i meta tag robots nell'HTML. Di seguito è riportato un esempio di come aggiungere un'istruzione X-Robots-Tag
noindex
per i file immagine (.png, .jpeg, .jpg, .gif) su un intero sito.
Apache
<Files ~ "\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>
NGINX
location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }
Puoi anche impostare le intestazioni X-Robots-Tag
per i singoli file statici:
Apache
# the htaccess file must be placed in the directory of the matched file. <Files "unicorn.pdf"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location = /secrets/unicorn.pdf { add_header X-Robots-Tag "noindex, nofollow"; }
Combinare le istruzioni del file robots.txt con le istruzioni di indicizzazione e pubblicazione
I meta tag robots e le intestazioni HTTP X-Robots-Tag
vengono rilevati quando un URL viene sottoposto a scansione. Se una pagina viene esclusa dalla scansione tramite il file robots.txt, le informazioni relative
alle istruzioni di indicizzazione e pubblicazione non vengono rilevate e, pertanto, vengono ignorate. Se occorre seguire le istruzioni di indicizzazione o pubblicazione, gli URL contenenti tali istruzioni non possono essere esclusi dalla scansione.