Specifiche relative al meta
tag Robots, a data-nosnippet
e X-Robots-Tag
Questo documento descrive come le impostazioni a livello di pagina e di testo ti consentono di adattare il modo in cui Google presenta i tuoi contenuti nei risultati di ricerca. Puoi specificare le impostazioni a livello di pagina includendo un meta
tag
nelle pagine HTML o in un'intestazione HTTP. Puoi specificare le impostazioni a livello di testo con l'attributo data-nosnippet
in elementi HTML all'interno di una pagina.
Ricorda che queste impostazioni possono essere lette e seguite solo se ai crawler viene consentito di accedere alle pagine che le includono.
La regola <meta name="robots" content="noindex">
si applica al crawler dei motori di ricerca. Per bloccare i crawler non di ricerca, ad esempio AdsBot-Google
, potresti dover aggiungere regole indirizzate al crawler specifico, ad esempio <meta name="AdsBot-Google" content="noindex">
.
Utilizzare il meta
tag robots
Il meta
tag robots ti consente di controllare in maniera granulare a livello di pagina il modo in cui una singola pagina deve essere indicizzata e mostrata agli utenti nei risultati della Ricerca Google. Inserisci il meta
tag robots nella sezione <head>
di una determinata pagina, in questo modo:
<!DOCTYPE html> <html><head> <meta name="robots" content="noindex"> (…) </head> <body>(…)</body> </html>
In questo esempio, il meta
tag robots indica ai motori di ricerca di non mostrare la pagina nei risultati. Il valore dell'attributo name
(robots
) specifica che la regola si applica a tutti i crawler. Entrambi gli attributi name
e content
non fanno distinzione tra maiuscole e minuscole. Per indicare un crawler specifico, sostituisci il valore robots
dell'attributo name
con il token dello user agent del crawler di interesse. Google supporta due token dello user agent nel meta
tag robots; gli altri valori vengono ignorati:
googlebot
: per tutti i risultati testuali.googlebot-news
: per i risultati di notizie.
Ad esempio, per indicare a Google di non mostrare specificamente una pagina nei risultati di ricerca, puoi specificare googlebot
come nome del meta
tag:
<meta name="googlebot" content="noindex">
Per mostrare una pagina nei risultati di ricerca web di Google, ma non in Google News, utilizza il meta
tag googlebot-news
:
<meta name="googlebot-news" content="noindex">
Per specificare più crawler singolarmente, utilizza più meta
tag robots:
<meta name="googlebot" content="noindex"> <meta name="googlebot-news" content="nosnippet">
Per bloccare l'indicizzazione di risorse non HTML, come file PDF, file video o file immagini, utilizza invece l'intestazione della risposta X-Robots-Tag
.
Utilizzare l'intestazione HTTP X-Robots-Tag
X-Robots-Tag
può essere utilizzato come elemento della
risposta dell'intestazione HTTP di un URL specifico. Qualsiasi regola utilizzabile in un meta
tag robots può essere specificata anche come X-Robots-Tag
. Di seguito è
riportato un esempio di risposta HTTP con un X-Robots-Tag
che indica ai crawler di non indicizzare una pagina:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)
È possibile combinare più intestazioni X-Robots-Tag
all'interno della risposta HTTP. In alternativa, puoi specificare un elenco di regole separate da virgole. Di seguito è riportato un esempio
di risposta dell'intestazione HTTP che
contiene un X-Robots-Tag
noarchive
combinato
con un X-Robots-Tag
unavailable_after
.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST (…)
X-Robots-Tag
può eventualmente specificare uno user agent prima delle
regole. Ad esempio, il seguente insieme di intestazioni HTTP X-Robots-Tag
può essere usato per consentire la visualizzazione di una pagina nei risultati di ricerca su motori diversi a determinate condizioni.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
Le regole specificate senza uno user agent sono valide per tutti i crawler. L'intestazione HTTP, il nome dello user agent e i valori specificati non sono sensibili alle maiuscole.
Regole di indicizzazione e pubblicazione valide
Le regole seguenti, disponibili anche in formato leggibile dal computer, possono essere utilizzate per controllare l'indicizzazione e la pubblicazione di uno snippet con il meta
tag robots e X-Robots-Tag
. Ogni valore rappresenta una regola specifica. È possibile combinare più regole in un elenco separato da virgole o in meta
tag separati. Queste regole non fanno distinzione tra maiuscole e minuscole.
Regole | |
---|---|
|
Non sono presenti limitazioni per l'indicizzazione e la pubblicazione. Questa regola è il valore predefinito e non ha alcun effetto se viene inclusa in modo esplicito. |
|
Non mostrare questa pagina, questo elemento multimediale o questa risorsa nei risultati di ricerca. Se non specifichi questa regola, la pagina, l'elemento multimediale o la risorsa potrebbero essere indicizzati e visualizzati nei risultati di ricerca. Per rimuovere informazioni da Google, segui la nostra guida passo passo. |
|
Non seguire i link su questa pagina. Se non specifichi questa regola, Google potrebbe utilizzare i link sulla pagina per individuare le pagine collegate. Scopri di più su
nofollow .
|
|
Equivalente a noindex, nofollow .
|
|
Non mostrare un link Copia cache nei risultati di ricerca. Se non specifichi questa regola, Google potrebbe generare una pagina memorizzata nella cache e gli utenti potrebbero accedervi tramite i risultati di ricerca. |
|
Non mostrare una casella di ricerca dei sitelink nei risultati di ricerca per questa pagina. Se non specifichi questa regola, Google potrebbe generare una casella di ricerca specifica per il tuo sito nei risultati di ricerca, insieme ad altri link diretti al tuo sito. |
|
Non mostrare uno snippet di testo o un'anteprima video nei risultati di ricerca per questa pagina. La miniatura statica di un'immagine (se disponibile) potrebbe ancora essere visibile, se può migliorare l'esperienza utente. Ciò si applica a tutte le forme di risultati di ricerca (su Google: ricerca web, Google Immagini, Discover, riepiloghi dell'AI) e impedisce che i contenuti vengano utilizzati come input diretto per i riepiloghi dell'AI. Se non specifichi questa regola, Google potrebbe generare uno snippet di testo e un'anteprima video in base alle informazioni trovate nella pagina. Per impedire che determinate sezioni dei tuoi contenuti compaiano negli snippet dei risultati di ricerca, utilizza
l'attributo HTML |
|
Google può indicizzare i contenuti di una pagina se è incorporata in un'altra pagina tramite
|
|
Usa un massimo di [numero] caratteri come snippet testuale per questo risultato di ricerca. Tieni presente che all'interno di una pagina dei risultati di ricerca un URL potrebbe comparire per più risultati di ricerca. Questa istruzione non influisce sulle anteprime di immagini o video Questo si applica a tutti i tipi di risultati di ricerca (ad esempio Ricerca Google, Google Immagini, Discover, assistente, riepiloghi dell'AI) e limiterà la quantità di contenuti che possono essere utilizzati come input diretto per i riepiloghi dell'IA. Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce contenuti in forma di dati strutturati in-page o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici. Questa regola viene ignorata se non viene specificato un valore [numero] analizzabile. Se non specifichi questa regola, Google sceglierà la lunghezza dello snippet. Valori speciali:
Esempi: Per interrompere la visualizzazione di uno snippet nei risultati di ricerca: <meta name="robots" content="max-snippet:0"> Per consentire che nello snippet vengano visualizzati fino a 20 caratteri: <meta name="robots" content="max-snippet:20"> Per specificare che non esiste un limite al numero di caratteri che possono essere visualizzati nello snippet: <meta name="robots" content="max-snippet:-1"> |
|
Imposta la dimensione massima dell'anteprima di un'immagine per questa pagina nei risultati di ricerca.
Se non specifichi la regola Valori accettati per [impostazione]:
Ciò si applica ai risultati di ricerca in qualsiasi forma (ad esempio Ricerca Google, Google Immagini, Discover e assistente). Tuttavia, il limite non si applica nei casi in cui un publisher ha concesso separatamente l'autorizzazione a usare i contenuti. Ad esempio, se il publisher fornisce i contenuti sotto forma di dati strutturati in-page (come versioni AMP e canonica di un articolo) o se ha un contratto di licenza con Google, questa impostazione non interrompe gli usi consentiti più specifici.
Se non vuoi che Google usi miniature più grandi quando le pagine AMP e la versione canonica di un articolo vengono mostrate nella Ricerca o in Discover, specifica un valore Esempio: <meta name="robots" content="max-image-preview:standard"> |
|
Usa un massimo di [numero] secondi come snippet video per i video di questa pagina nei risultati di ricerca.
Se non specifichi la regola Valori speciali:
Ciò si applica ai risultati di ricerca in tutte le forme (Ricerca Google, Google Immagini, Google Video, Discover, assistente). Questa regola viene ignorata se non viene specificato un valore [numero] analizzabile. Esempio: <meta name="robots" content="max-video-preview:-1"> |
|
Non proporre la traduzione di questa pagina nei risultati di ricerca. Se non specifichi questa regola, Google potrebbe fornire una traduzione del link del titolo e dello snippet di un risultato di ricerca per i risultati che non sono nella lingua della query di ricerca. Se l'utente fa clic sul link del titolo tradotto, tutte le ulteriori interazioni dell'utente con la pagina avvengono tramite Google Traduttore, che traduce automaticamente i link seguiti. |
|
Non indicizzare le immagini in questa pagina. Se non specifichi questo valore, le immagini nella pagina potrebbero essere indicizzate e visualizzate nei risultati di ricerca. |
|
Non mostrare questa pagina nei risultati di ricerca dopo la data/l'ora specificate. La data e l'ora devono essere specificate in un formato ampiamente adottato inclusi, a titolo esemplificativo, RFC 822, RFC 850 e ISO 8601. Questa regola viene ignorata se non viene specificato alcun valore data/ora valido. Per impostazione predefinita, i contenuti non hanno data di scadenza. Se non specifichi questa regola, la pagina potrebbe essere visualizzata nei risultati di ricerca a tempo indeterminato. Googlebot ridurrà notevolmente la frequenza di scansione dell'URL dopo la data e l'ora specificate. Esempio: <meta name="robots" content="unavailable_after: 2020-09-21"> |
gestire le regole di indicizzazione e pubblicazione combinate
Puoi creare una regola con più regole raggruppando meta
tag robots separati da virgole o usando più meta
tag. Di seguito è riportato un esempio di meta
tag robots che indica ai web crawler di non indicizzare la pagina e di non sottoporre a scansione
nessun link sulla pagina:
Elenco separato da virgole
<meta name="robots" content="noindex, nofollow">
Più tag meta
<meta name="robots" content="noindex"> <meta name="robots" content="nofollow">
Di seguito è riportato un esempio che limita lo snippet di testo a 20 caratteri e consente un'anteprima delle immagini di grandi dimensioni:
<meta name="robots" content="max-snippet:20, max-image-preview:large">
Per le situazioni in cui vengono specificati più crawler con diverse regole, il motore di ricerca utilizza la somma delle regole negative. Ad esempio:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
Googlebot identificherà la pagina contenente questi meta
tag come una pagina con regola noindex, nofollow
.
Utilizzare l'attributo HTML data-nosnippet
Puoi contrassegnare le parti testuali di una pagina HTML da non utilizzare come snippet. Puoi eseguire questa operazione
a livello di elemento HTML con l'attributo HTML data-nosnippet
negli elementi span
,
div
e section
. data-nosnippet
è considerato un
attributo booleano.
Come con tutti gli attributi booleani, eventuali valori
specificati vengono ignorati. Per poter essere leggibile dal computer,
la sezione HTML deve contenere codice HTML valido e tutti i tag appropriati devono essere chiusi
di conseguenza.
Esempi:
<p>This text can be shown in a snippet <span data-nosnippet>and this part would not be shown</span>.</p> <div data-nosnippet>not in snippet</div> <div data-nosnippet="true">also not in snippet</div> <div data-nosnippet="false">also not in snippet</div> <!-- all values are ignored --> <div data-nosnippet>some text</html> <!-- unclosed "div" will include all content afterwards --> <mytag data-nosnippet>some text</mytag> <!-- NOT VALID: not a span, div, or section --> <p>This text can be shown in a snippet.</p> <div data-nosnippet> <p>However, this is not in snippet.</p> <ul> <li>Stuff not in snippet</li> <li>More stuff not in snippet</li> </ul> </div>
Normalmente, Google visualizza le pagine per poterle indicizzare, ma la visualizzazione non è garantita.
Per questo motivo, l'estrazione di data-nosnippet
può avvenire sia prima sia dopo
la visualizzazione. Per evitare incertezze rispetto alla visualizzazione, non aggiungere o rimuovere
l'attributo data-nosnippet
dei nodi esistenti tramite JavaScript.
Se aggiungi elementi DOM tramite JavaScript, includi
l'attributo data-nosnippet
necessario durante l'aggiunta iniziale dell'elemento
al DOM della pagina. Se vengono usati elementi personalizzati, aggregali o visualizzali
con gli elementi div
, span
o section
se devi usare data-nosnippet
.
Utilizzare i dati strutturati
I meta
tag Robots regolano la quantità di contenuti che Google estrae automaticamente dalle pagine web
per visualizzarli nei risultati di ricerca. Molti publisher, però, usano anche i dati strutturati di schema.org per rendere
disponibili determinate informazioni per la presentazione nella ricerca. Le limitazioni dei meta
tag Robots non incidono sull'uso dei
dati strutturati, ad eccezione di article.description
e dei
valori description
per i dati strutturati specificati per altre opere creative. Per specificare la lunghezza massima di un'anteprima in base a questi valori description
, utilizza la regola max-snippet
. Ad esempio, i dati strutturati recipe
in una pagina sono idonei per essere inseriti nel carosello di ricette, anche se l'anteprima di testo sarà limitata. Puoi limitare la lunghezza di un'anteprima di testo con max-snippet
,
ma questo meta
tag robots non viene applicato se le informazioni vengono fornite usando dati strutturati
per i risultati avanzati.
Per gestire l'uso dei dati strutturati delle tue pagine web, modifica direttamente
i tipi e i valori dei dati strutturati aggiungendo o rimuovendo le informazioni per fornire
solo i dati che vuoi rendere disponibili. Tieni presente inoltre che i dati strutturati restano utilizzabili per i risultati di ricerca
quando sono dichiarati all'interno di un elemento data-nosnippet
.
Implementazione pratica di X-Robots-Tag
Puoi aggiungere X-Robots-Tag
alle risposte HTTP di un sito tramite i file di configurazione
del software server web del tuo sito. Ad esempio, sui server web basati su Apache puoi usare
i file .htaccess e httpd.conf. Il vantaggio di usare X-Robots-Tag
con le risposte
HTTP è che puoi specificare le regole di scansione da applicare globalmente a un sito. Il supporto delle espressioni regolari consente un elevato livello di flessibilità.
Ad esempio, per aggiungere un X-Robots-Tag
noindex, nofollow
alla risposta HTTP di tutti i file .PDF
dell'intero sito, aggiungi lo snippet seguente al file .htaccess
principale del sito oppure httpd.conf
su
Apache o al file .conf
del sito su NGINX.
Apache
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location ~* \.pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }
Puoi utilizzare l'intestazione X-Robots-Tag
per i file non HTML come i file immagine in cui non è possibile utilizzare i meta
tag robots nell'HTML. Di seguito è riportato un esempio di come aggiungere una regola noindex
X-Robots-Tag
per i file immagine (.png
, .jpeg
, .jpg
, .gif
) in un intero sito:
Apache
<Files ~ "\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>
NGINX
location ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }
Puoi anche impostare le intestazioni X-Robots-Tag
per i singoli file statici:
Apache
# the htaccess file must be placed in the directory of the matched file. <Files "unicorn.pdf"> Header set X-Robots-Tag "noindex, nofollow" </Files>
NGINX
location = /secrets/unicorn.pdf { add_header X-Robots-Tag "noindex, nofollow"; }
Combinare le regole del file robots.txt con le regole di indicizzazione e pubblicazione
I meta
tag robots e le intestazioni HTTP X-Robots-Tag
vengono rilevati quando un URL viene sottoposto a scansione. Se una pagina viene esclusa dalla scansione tramite il file robots.txt, le informazioni relative
alle regole di indicizzazione e pubblicazione non vengono rilevate e, pertanto, vengono ignorate. Se occorre seguire le regole di indicizzazione o pubblicazione, gli URL contenenti queste regole non possono essere esclusi dalla scansione.