“Mi si nota di più se vengo e me ne sto in disparte o se non vengo per niente?” – una citazione nota, usata e forse abusata, di un famoso film di Nanni Moretti. Cosa c’entra tutto questo con l’indicizzazione di un sito?
Partiamo da un assunto di base: in rete è indispensabile essere presenti ed essere visibili, farsi notare quindi. Avere un sito internet che non compaia nei primi risultati non serve a molto ed equivale a non esistere. Un problema che non è poi così raro riscontrare e che porta spesso a porsi la fatidica domanda: “perché il mio sito non è ben posizionato?”
Una precisazione a monte, fondamentale per proseguire poi nel discorso: indicizzazione e posizionamento, spesso e volentieri citati a braccetto o comunque non in modo corretto, non sono la stessa cosa. Si parla di due concetti complementari ma profondamente diversi.
Quali sono le differenze tra indicizzazione e posizionamento?
In sostanza un sito può essere indicizzato se ha tutto nella norma, quindi preso in considerazione, ma non sappiamo dove; potrebbe essere in prima come in centesima pagina. Una volta che un sito è stato indicizzato può partire la seconda parte del lavoro del Seo. Che può comprendere l’ottimizzazione onsite, l’ottimizzazione offsite con campagne di Link Building o Digital PR ecc…
Il problema è che spesso a questa seconda fase non ci si arriva perché il sito può avere criticità evidenti che non gli consentono di essere indicizzato. Inutile quindi investire in attività di posizionamento se lo spider di Google non riesce a scansionare un sito o parte di questo.
Detto che le problematiche possono essere diverse e vanno sempre analizzate singolarmente, caso per caso, vediamo quali sono le principali cinque ragioni per le quali, solitamente, un sito non viene indicizzato e quindi non è presente nell’indice di Google.
L’errore più banale ma spesso il più riscontrato. Il sito ha un tag ‘noindex’ impostato. Ovvero, una direttiva che va ad indicare allo spider del motore di ricerca di non indicizzarlo. Ciò blocca il crawling del bot di Google ed impedisce che il sito venga mostrato nelle serp.
L’errore può essere risolto in maniera piuttosto immediata: se il sito è creato in WordPress è possibile spuntare la relativa casella ‘Scoraggia i motori di ricerca ad effettuare l’indicizzazione di questo sito’ dalle impostazioni di lettura. Altrimenti si può modificare direttamente il tag ‘noindex’ inserito nella root principale del sito.
Il file Robot è un elemento determinante in base al quale si va ad indicare a Google quali sezioni del sito prendere in considerazione e quali no. Qui, nel Robot, non si parla più di ‘index’ ma di ‘disallow’. Ovvero, non si dice al bot di indicizzare o meno, ma di scansionare o non scansionare.
La differenza può sembrare sottile ma è rilevante: nel primo caso si dirà allo spider di scansionare il sito ma non inserirlo nell’indice del motore di ricerca; nel secondo caso, con il disallow, si andrà a dirgli di non scansionarlo. L’analisi del file Robot è quindi necessaria: se appare un qualcosa del tipo User-agent: * Disallow: /, si sta andando a dire allo spider di non scansionare il sito.
Sulla base di quanto riportato nei due punti precedenti è possibile desumere un altro errore tipico che porta il sito a non essere indicizzato o ad avere problemi di indicizzazioni riferiti a determinate categorie. Attenzione anche al modo in cui i due elementi, noindex e nofollow, sono combinati.
Se si inserisce ad esempio un’indicazione per il bot di ‘noindex’ per una data categoria del sito, poi non la si può mettere in ‘disallow’, perché si andrà a dire allo spider di non scansionare una determinata area… all’interno della quale è presente una direttiva di noindex che invece deve essere scansionata. Uno dei problemi di indicizzazione di aree e macroaree di un sito è spesso l’uso non corretto di queste due direttive, che creano confusione al bot di Google.
Il file .htaccess è uno dei file di configurazione base di un sito utilizzato dal server web Apache. Le direttive contenute nel file .htaccess vanno a creare precise regole per il web server, riferite anche, ad esempio, alla struttura dei permalink, quindi delle url. Il file .htaccess è utilizzato di default da qualsiasi sito in WordPress: i motivi per i quali solitamente si mette mano a questo file sono per creare un redirect dell’intero dominio, per reindirizzare il traffico dalla versione http a quella in https, per bloccare un indirizzo ip ed ancora per aggiungere una password a determinate aree del sito. Ecco allora che inserire impostazioni non propriamente corrette nel file .htaccess può causare problemi seri di indicizzazione all’intero sito. Un esempio tradizionale (spesso anche dovute ad intrusioni esterne con modifica delle regole del file) è legato ai loop infiniti che non consentono mai di caricare in modo corretto il sito.
Un altro elemento fondamentale in ottica Seo che facilita la lettura di un sito da parte dello spider di Google. Una sitemap è un file che va ad indicare al bot quali pagine del sito dovrebbero essere sottoposte a scansione; un’indicazione e non una imposizione, dato che Google poi può comunque agire decidere di prendere in considerazione o meno queste direttive (può tranquillamente indicizzare pagine non presenti nella sitemap). Tuttavia di base una sitemap non impostata in modo corretto può portare problemi di indicizzazione: è bene crearle ed inviarla tramite Search Console (nella maggior parte dei casi i servizi di hosting la creano ormai in automatico), ovvero il pannello Strumenti per Webmaster di Google dal quale è possibile anche monitorare eventuali problemi di scansione ed errori della sitemap.
Ed allora, per tornare a monte del discorso, “Mi si nota di più se vengo e me ne sto in disparte o se non vengo per niente?” – Se si dovesse parlare di indicizzazione, entrambe le soluzioni prese in considerazione sarebbero errate. Nella Seo è indispensabile essere presenti, indicizzati e, possibilmente, stare al centro dell’attenzione.