Noindex: come usarlo per escludere le pagine da Google

SEO Gennaro Mancini 16 Maggio 2024

È come un semaforo rosso che blocca ai motori di ricerca l’accesso a determinate risorse del nostro sito, un comando chiaro e diretto di non includere la pagina nell’indice dei risultati di ricerca. Il tag noindex è una delle direttive SEO più potenti che abbiamo a disposizione perché, come una sorta di interruttore, può rendere una pagina web invisibile agli occhi dei motori di ricerca. Tuttavia, per utilizzarlo correttamente è essenziale comprendere a fondo la sua natura e le sue implicazioni, perché i rischi nel caso di errore sono molto elevati.

Che cos’è il tag noindex

Il tag noindex è un comando che si può inserire nell’intestazione HTML di una pagina web per comunicare ai motori di ricerca che quella pagina non deve essere inclusa nel loro indice e quindi nei risultati di ricerca.

Prenditi cura del tuo sito!

SEO Spider è l’analisi SEO tecnica per verificare tutti i tag del sito e scoprire gli errori che bloccano prestazioni e rendimenti.

Scopri di più

Più precisamente, il tag noindex è una direttiva specificata all’interno del meta tag <meta name=”robots” content=”noindex”> che si inserisce nell’header HTML di una pagina web. Quando nel corso delle sue scansioni Googlebot incontra questa informazione, eliminerà completamente la pagina dai risultati della Ricerca Google, a prescindere dalla presenza o meno di altri siti contenenti link che rimandano alla pagina.

Il noindex è riconosciuto e rispettato dalla maggior parte dei motori di ricerca. Non è un comando imperativo, ma i motori di ricerca di solito lo rispettano.

È bene comprendere che il noindex non impedisce necessariamente al crawler di visitare e analizzare la pagina né di processare i link presenti. Semplicemente, la pagina non verrà mostrata nei risultati di ricerca. In pratica, è come dire a Google: “Guarda, questa pagina esiste, ma preferirei che non la mostrassi nei risultati di ricerca”.

A cosa serve il noindex

Il tag noindex rientra nelle più ampie direttive dei tag meta robots, che i principali motori di ricerca hanno iniziato a implementare intorno al 2007.

In genere i webmaster utilizzano la direttiva “noindex” per impedire l’indicizzazione di contenuti non destinati ai motori di ricerca. Essenzialmente, questo comando serve a evitare che pagine non essenziali o in lavorazione finiscano sotto gli occhi degli utenti che cercano contenuti pertinenti.

Ad esempio, se stiamo testando una nuova pagina o abbiamo contenuti duplicati che non vogliamo penalizzino il nostro ranking, il noindex è lo strumento adatto per “nasconderli” temporaneamente o permanentemente. Tuttavia, non è la soluzione migliore per rimuovere rapidamente una pagina del sito dai risultati di ricerca di Google, situazione in cui è preferibile usare subito l’apposito strumento per le rimozioni.

In generale, il tag noindex rappresenta un alleato prezioso per ottimizzare il nostro sito web e garantirne una corretta indicizzazione da parte dei motori di ricerca. Utilizzandolo con criterio, possiamo infatti nascondere contenuti non necessari o dannosi, tutelando la qualità del nostro sito e la sua reputazione online.

Quando usare il tag noindex e perché implementarlo

Il tag noindex è uno strumento SEO di grande precisione, utilizzato per gestire la visibilità delle pagine web nei motori di ricerca. La sua implementazione deve essere ponderata, poiché può influenzare significativamente la presenza online di un sito, e quindi è importante conoscere almeno a grandi linee quando è opportuno utilizzare il noindex e le motivazioni alla base della sua implementazione.

Innanzitutto, il noindex è particolarmente utile per le pagine in costruzione o quelle che contengono contenuti non ancora pronti per essere mostrati al pubblico. Questo permette ai webmaster di lavorare sulle pagine in background, senza che queste compaiano nei risultati di ricerca, evitando così di presentare agli utenti un’esperienza incompleta o in fase di revisione.

Un altro scenario comune è l’esigenza di nascondere pagine con contenuti sensibili o che non si desidera siano facilmente accessibili. Il noindex può servire a mantenere un certo livello di privacy per contenuti che, per loro natura, non sono destinati a una distribuzione ampia.

La duplicazione di contenuto è un’altra sfida che i webmaster affrontano regolarmente. Pagine che presentano contenuti identici o molto simili possono essere penalizzate dai motori di ricerca per via della loro ridondanza. Utilizzando il noindex, possiamo evitare che versioni duplicate di una pagina vengano indicizzate, concentrando così l’autorità e il ranking su una singola, autorevole versione, che andrà segnalata ai motori di ricerca con l’apposito rel=canonical.

Ci sono poi pagine che, sebbene facciano parte integrante di un sito, non aggiungono valore dal punto di vista della ricerca, come le pagine di politica sulla privacy, i termini e condizioni, carrello degli acquisti o pagine di pagamento su un sito Web di e-commerce o le pagine di conferma post-conversione. Queste pagine, pur essendo importanti dal punto di vista informativo o legale, non sono quelle che un utente si aspetta di trovare attraverso una ricerca. Il noindex aiuta a mantenere l’attenzione sui contenuti che effettivamente attirano traffico qualificato.

Per quanto riguarda i contenuti obsoleti, stagionali o le offerte a tempo limitato, il noindex è elemento centrale per il content pruning, una strategia efficace per gestire la loro visibilità e il crawl budget del sito. Una volta che un evento è passato o una promozione è scaduta, non ha più senso che queste pagine occupino spazio nell’indice dei motori di ricerca, potenzialmente confondendo gli utenti con informazioni non più attuali.

Le pagine di test A/B o le versioni ottimizzate per dispositivi mobili possono anche beneficiare dell’uso del noindex, in quanto permette di sperimentare e testare senza influenzare il ranking delle pagine principali.

A livello più ampio, l’utilizzo del tag noindex è utile quando non abbiamo accesso root al server e abbiamo necessità di gestire l’indicizzazione delle pagine web a livello individuale, senza possibilità (o competenze specifiche) di modificare le configurazioni a livello di server. L’accesso root a un server ci consente di effettuare cambiamenti globali e profondi, come modificare il file di configurazione del server web (ad esempio, .htaccess su server Apache) o modificare le impostazioni del file robots.txt, che influenzano il comportamento dei crawler dei motori di ricerca su tutto il sito. Tuttavia, non tutti gli amministratori di siti web hanno il privilegio di accesso root, specialmente coloro che utilizzano piattaforme di hosting condiviso o gestito, dove tali modifiche sono limitate o gestite dal provider di hosting. In questi casi, il tag noindex diventa uno strumento prezioso perché può essere implementato a livello di pagina singola, direttamente all’interno del codice HTML, senza la necessità di modificare le impostazioni del server.

L’interazione con i motori di ricerca: come cambia l’interpretazione

E quindi, il tag noindex è uno strumento efficace per gestire la visibilità delle pagine web nei motori di ricerca perché comunica ai crawler la nostra preferenza di non avere una determinata pagina elencata nei risultati di ricerca.

Questa direttiva è fondamentale per il controllo dell’indicizzazione del contenuto di un sito web: se la sua implementazione è abbastanza standardizzata, la sua “interpretazione” viene gestita in modo leggermente diverso a seconda del motore di ricerca in questione.

Ci sono infatti differenze minori nel modo in cui ogni motore di ricerca gestisce il tag noindex, anche se la regola generale è che la maggior parte dei motori di ricerca rispetterà la direttiva di non indicizzare le pagine contrassegnate.

In generale, infatti, quando incontrano un tag noindex i motori di ricerca dovrebbero rimuovere la pagina dall’indice se già presente, e non includerla in futuro.

Tuttavia, è importante ricordare che il tag noindex non impedisce ai crawler di accedere alla pagina, ma li istruisce a non includerla nei loro indici pubblici. Questo non significa quindi che i crawler smetteranno di visitare la pagina: Google, in particolare, può continuare a esplorarla – anche se con frequenza molto ridotta – per comprendere meglio la struttura del sito e per raccogliere dati su link interni ed esterni.

Inoltre, dobbiamo essere consapevoli che anche se una pagina non è indicizzata, può comunque essere scoperta se collegata da altre pagine indicizzate. In questi casi, i motori di ricerca potrebbero mostrare l’URL della pagina nei risultati di ricerca con un titolo generico o una descrizione mancante, poiché non possono mostrare il contenuto della pagina stessa.

In termini pratici, i principali motori di ricerca seguono un comportamento simile verso il noindex: ad esempio, Yandex – il motore di ricerca più usato in Russia – rispetta il tag (se il suo bot scopre il noindex su una pagina, non la includerà nei suoi risultati di ricerca) e fornisce anche strumenti per i webmaster per gestire l’indicizzazione delle loro pagine. Fa lo stesso anche Bing (e i motori di ricerca basati sul suo sistema, come Yahoo e DuckDuckGo), che non include nei risultati di ricerca la pagina etichettata con noindex e offre anche strumenti aggiuntivi attraverso Bing Webmaster Tools che consentono ai webmaster di controllare l’indicizzazione delle loro pagine in modo più granulare.

Per quanto riguarda Google, il motore di ricerca più utilizzato al mondo mette anche a disposizione una guida a “Bloccare l’indicizzazione della Ricerca con noindex” in cui specifica di rispettare il tag noindex in modo molto diretto. Quando Googlebot esplora una pagina e rileva la presenza del tag noindex all’interno dell’elemento <head>, procede a rimuovere la pagina dall’indice se questa era già stata indicizzata in precedenza. Inoltre, Google non mostrerà la pagina nei risultati di ricerca futuri. Tuttavia, è importante notare che Google può ancora visitare e analizzare la pagina per raccogliere informazioni sui link in entrata e in uscita, che possono essere utili per mappare la struttura del sito e per scoprire nuovi contenuti.

Rischi del noindex: gli errori e i guai per la SEO

L’utilizzo del tag noindex deve essere fatto con attenzione, lo abbiamo specificato, perché in casi di errori può portare a conseguenze indesiderate.

Marcare accidentalmente pagine importanti con noindex significa escluderle dai risultati di ricerca, e quindi perdere traffico e potenziali conversioni. Molto “banalmente”, dobbiamo utilizzare questa direttiva con attenzione e strategia, assicurandoci di contrassegnare solo le pagine che effettivamente vogliamo nascondere.

Uno degli errori più gravi è proprio l’applicazione accidentale del tag noindex a pagine importanti che dovrebbero essere indicizzate, che può accadere durante aggiornamenti del sito, migrazioni o modifiche al CMS. Se pagine che dovrebbero generare traffico e conversioni vengono escluse dall’indice dei motori di ricerca, il sito potrebbe subire una significativa perdita di visibilità e, di conseguenza, di traffico organico.

Un altro errore è utilizzare il noindex su pagine che hanno accumulato backlink di qualità, che sono un segnale di fiducia e autorità per i motori di ricerca: il noindex elimina la possibilità che la pagina possa sfruttare questa autorità per migliorare il suo posizionamento nei risultati di ricerca, inficiando anche la fiducia verso il sito nel suo complesso.

È poi essenziale rimuovere tempestivamente il tag noindex dopo aver completato il lavoro su una pagina in costruzione o aver finalizzato i contenuti – quando siamo quindi pronti per la pubblicazione online: se ciò non avviene, la pagina continuerà a rimanere invisibile nei risultati di ricerca, perdendo opportunità di raggiungere il pubblico.

L’uso del noindex su pagine che sono parte integrante della navigazione del sito può confondere i motori di ricerca e gli utenti: l’esclusione di categorie o tag può influenzare negativamente la capacità degli utenti di trovare contenuti correlati e di navigare efficacemente nel sito.

Nel contesto della SEO internazionale, poi, l’applicazione impropria del noindex a varianti linguistiche o regionali di una pagina può impedire a utenti di altre nazioni di trovare contenuti rilevanti, danneggiando la presenza globale del sito.

Infine, l’uso combinato del noindex con altre direttive SEO, come il canonical o il nofollow, può creare conflitti e confusione per i motori di ricerca, portando a risultati non intenzionali nell’indicizzazione e nel ranking delle pagine – soprattutto in caso di utilizzo combinato di noindex,nofollow, che dice ai motori di ricerca di non indicizzare la pagina né di seguire i link presenti.

Per evitare queste conseguenze negative, è fondamentale avere un processo di controllo e verifica in atto prima di implementare il noindex. Dovremmo cioè esaminare attentamente l’architettura del sito e l’importanza di ogni pagina prima di decidere di escluderla dall’indice. Inoltre, è consigliabile monitorare regolarmente l’indicizzazione del sito attraverso strumenti come Google Search Console per assicurarsi che le pagine corrette siano visibili e che non ci siano errori.

Bloccare l’indicizzazione: differenza tra noindex e file robots.txt

Bisogna puoi uscire da un equivoco comune in cui si cade parlando di modi per influenzare l’indicizzazione delle pagine web, ovvero l’utilizzo di tag noindex e il blocco di pagine tramite il file robots.txt, che operano in maniera distinta e, soprattutto, hanno effetti e “pesi” diversi.

Come detto, il noindex comunica espressamente ai motori di ricerca di non mostrare quella pagina nei risultati di ricerca, anche se in precedenza era “aperta”; i crawler possono ancora visitare e scansionare la pagina, permettendo ai link in essa contenuti di essere seguiti e di influenzare il ranking di altre pagine del sito.

D’altro canto, il file robots.txt fornisce istruzioni ai crawler su quali pagine o sezioni del sito non devono essere esplorate: se una pagina è bloccata dal file robots.txt, i crawler non dovrebbero accedervi, il che significa che i link presenti su quella pagina non verranno seguiti. C’è un grande “ma”: se una pagina bloccata è già stata indicizzata o riceve link da pagine accessibili, potrebbe infatti apparire comunque nei risultati di ricerca, solitamente con un titolo ma senza una descrizione, poiché i motori di ricerca non possono analizzare il suo contenuto.

Inoltre, l’uso combinato di noindex e robots.txt può portare a conflitti: se blocchiamo una pagina con robots.txt, i crawler non potranno accedere al tag noindex presente nella pagina, potenzialmente causando confusione sui segnali di indicizzazione.

Come dice Google, quindi, affinché la regola noindex sia efficace “la pagina o la risorsa non deve essere bloccata da un file robots.txt e deve essere altrimenti accessibile al crawler”. Se la pagina è bloccata da un file robots.txt oppure non è possibile accedervi, il crawler non rileverà mai la regola noindex e la pagina potrà essere ancora visualizzata nei risultati di ricerca, ad esempio se altre pagine contengono link che rimandano alla pagina.

Facendo sempre riferimento a Google, è bene ricordare quali sono le opzioni valide per bloccare l’indicizzazione di una pagina:

Noindex nei meta tag robots direttamente nel codice HTML della pagina.
Codici di stato HTTP 404 e 410.
Protezione delle pagine con password.
Uso del disallow nel file robots.txt.
Strumento per la rimozione degli URL all’interno della Google Search Console.

Come si usa il noindex e come si mette

Passiamo agli aspetti pratici.

Esistono due modi per implementare noindex: sotto forma di tag <meta> e sotto forma di intestazione della risposta HTTP. L’effetto ottenuto sarà identico, chiarisce la guida di Google, e quindi possiamo scegliere il metodo più pratico e più appropriato al tipo di contenuti che pubblichiamo sul sito.

Sempre Google aggiunge che non supporta la specifica della regola noindex nel file robots.txt. Per la precisione, questa regola non è mai stata ufficialmente supportata ed è stata definitivamente deprecata il 1 settembre 2019, quando sono entrate in vigore le nuove regole per l’indicizzazione delle pagine da parte di Googlebot e, in particolare, per l’esclusione dall’indice del motore di ricerca.

Implementare il noindex nel codice HTML

Il metodo più comune per contrassegnare una pagina come non disponibile all’indicizzazione è inserire il tag noindex direttamente nel codice HTML della pagina specifica. Questo si può fare aggiungendo il tag <meta name=”robots” content=”noindex”> all’interno dell’elemento <head> della pagina. È un’operazione piuttosto semplice che può essere eseguita manualmente o attraverso CMS che offrono opzioni per gestire tali impostazioni.

Possiamo anche limitare questa direttiva a un solo crawler, specificando l’user agent nel tag meta:

In questo caso, stiamo impedendo solo ai web crawler di Google di indicizzare una pagina.

Implementare il noindex con intestazione HTTP

Una possibile alternativa è l’utilizzo di un’intestazione HTTP X-Robots-Tag con un valore noindex o none, che di solito serve a gestire risorse non HTML, come PDF, file video e file immagine. Questo è un esempio di risposta HTTP con un’intestazione X-Robots-Tag che indica ai motori di ricerca di non indicizzare una pagina:

HTTP/1.1 200 OK

(…)

X-Robots-Tag: noindex

(…)

Implementare il noindex con i CMS

Lo dice anche Google: se utilizziamo un CMS, come Wix, WordPress o Blogger, potremmo non essere in grado di modificare direttamente il codice HTML o potrebbe essere preferibile non farlo. In questi casi, per bloccare l’indicizzazione possiamo far riferimento all’apposita pagina delle impostazioni del motore di ricerca del CMS specifico o qualche altro meccanismo per indicare ai motori di ricerca i metatag. I più esperti possono scegliere ad esempio la configurazione tramite file .htaccess su server Apache, mentre gli utenti meno competenti o più timorosi si possono affidare alla rassicurante facilità di un plugin WordPress et similia. Plugin SEO popolari come Yoast SEO, All in One SEO Pack o Rank Math offrono questa funzionalità, attraverso cui è possibile applicare il noindex a una singola pagina, a un gruppo di pagine o a tutto il sito.

Monitoraggio e manutenzione delle direttive: come controllare il noindex

Dopo aver implementato il tag noindex, è importante monitorare l’effetto che ha sul traffico del sito e sulla visibilità nei motori di ricerca, in modo da verificare che le pagine siano effettivamente escluse dall’indice e a identificare eventuali problemi di implementazione.

Per controllare le direttive impostate su una pagina web, ci sono diversi metodi e strumenti che possiamo essere utilizzati per esaminare le istruzioni fornite ai motori di ricerca.

Esaminare il Codice Sorgente

Il primo passo è visualizzare il codice sorgente della pagina. Questo può essere fatto semplicemente navigando alla pagina con il browser, facendo clic destro su di essa e selezionando “Visualizza sorgente pagina” o “View Page Source” (l’opzione esatta può variare a seconda del browser). Una volta visualizzato il codice sorgente, eseguiamo una ricerca in pagina per verificare la presenza della direttiva noindex.

Utilizzare Strumenti SEO

Esistono numerosi strumenti SEO, sia gratuiti che a pagamento, che possono aiutarci a controllare le direttive impostate su una pagina web. Ad esempio, la Google Search Console permette di visualizzare come Google vede la pagina, comprese le direttive noindex e le informazioni sul blocco tramite robots.txt. Strumenti come Screaming Frog permettono di eseguire una scansione del sito e raccogliere informazioni su direttive come noindex e canonical, oltre a controllare lo stato del file robots.txt. In maniera simile, anche il SEO Spider di SEOZoom fornisce queste informazioni cruciali per la gestione complessiva del sito.

Altri sistemi

Esistono infine estensioni del browser che possono fornire rapidamente informazioni sulle direttive SEO di una pagina mentre la stiamo navigando. Ancora, strumenti come cURL o servizi online possono essere utilizzati per visualizzare gli header HTTP e controllare la presenza di direttive come X-Robots-Tag: noindex.

Come fare debug dei problemi

Per risolvere problemi legati al tag noindex, è essenziale innanzitutto che la pagina sia accessibile e analizzabile dai motori di ricerca, che altrimenti non possono rilevare tag <meta> e intestazioni HTTP.

Gestisci il tuo sito a livello PRO

Con SEO Spider hai il supporto che ti serve per individuare e superare errori e ostacoli

Scopri di più

Se la pagina che abbiamo bloccato è ancora presente nei risultati, è probabile che Google non abbia ancora eseguito la scansione della pagina da quando abbiamo aggiunto il tag noindex. A seconda dell’importanza della pagina su internet, infatti, Googlebot potrebbe impiegare mesi per visitarla di nuovo. Per accelerare il processo, possiamo sollecitare una nuova scansione tramite lo strumento Controllo URL disponibile in Google Search Console, che ci permette di richiedere una nuova scansione della pagina da parte di Google.

Un altro motivo per cui Google non è in grado di vedere il tag potrebbe essere che il file robots.txt sta bloccando questo URL dai web crawler, e quindi è necessario sbloccare la pagina modificando il file robots.txt.

Infine, come detto, è importante che la regola noindex sia visibile a Googlebot. Per verificare se l’implementazione di noindex è corretta, possiamo usare ancora lo strumento Controllo URL per verificare il codice HTML ricevuto da Googlebot durante la scansione della pagina. In alternativa, possiamo usare il Rapporto sullo stato della copertura dell’indice in Search Console per monitorare le pagine del sito da cui Googlebot ha estratto una regola noindex.