Come impedire a un sito di indicizzarsi in robots.txt: istruzioni e consigli

Sommario:

Come impedire a un sito di indicizzarsi in robots.txt: istruzioni e consigli
Come impedire a un sito di indicizzarsi in robots.txt: istruzioni e consigli
Anonim

Il lavoro di un ottimizzatore SEO è molto ampio. Si consiglia ai principianti di annotare l'algoritmo di ottimizzazione per non perdere alcun passaggio. In caso contrario, la promozione difficilmente sarà definita riuscita, poiché il sito subirà costantemente fallimenti ed errori che dovranno essere corretti per molto tempo.

Uno dei passaggi di ottimizzazione è lavorare con il file robots.txt. Ogni risorsa dovrebbe avere questo documento, perché senza di esso sarà più difficile far fronte all'ottimizzazione. Svolge molte funzioni che dovrai comprendere.

Assistente robot

Il file robots.txt è un documento di testo semplice che può essere visualizzato nel Blocco note standard del sistema. Durante la creazione, è necessario impostare la codifica su UTF-8 in modo che possa essere letta correttamente. Il file funziona con i protocolli http, https e FTP.

Questo documento è un assistente per la ricerca dei robot. Nel caso non lo sapessi, ogni sistema utilizza "ragni" che eseguono rapidamente la scansione del World Wide Web per restituire siti pertinenti per le query.utenti. Questi robot devono avere accesso ai dati delle risorse, robots.txt funziona per questo.

Affinché gli spider trovino la loro strada, devi inviare il documento robots.txt alla directory principale. Per verificare se il sito ha questo file, inserisci "https://site.com.ua/robots.txt" nella barra degli indirizzi del browser. Invece di "site.com.ua" devi inserire la risorsa di cui hai bisogno.

Lavorare con robots.txt
Lavorare con robots.txt

Funzioni documento

Il file robots.txt fornisce ai crawler diversi tipi di informazioni. Può fornire un accesso parziale in modo che il "ragno" esegua la scansione di elementi specifici della risorsa. L'accesso completo consente di controllare tutte le pagine disponibili. Un divieto totale impedisce anche ai robot di iniziare a controllare e lasciano il sito.

Dopo aver visitato la risorsa, i "ragni" ricevono una risposta adeguata alla richiesta. Potrebbero essercene diversi, tutto dipende dalle informazioni in robots.txt. Ad esempio, se la scansione è andata a buon fine, il robot riceverà il codice 2xx.

Forse il sito è stato reindirizzato da una pagina all' altra. In questo caso, il robot riceve il codice 3xx. Se questo codice si verifica più volte, lo spider lo seguirà fino a quando non riceverà un' altra risposta. Sebbene, di regola, utilizzi solo 5 tentativi. In caso contrario, viene visualizzato il popolare errore 404.

Se la risposta è 4xx, il robot può eseguire la scansione dell'intero contenuto del sito. Ma nel caso del codice 5xx, il controllo potrebbe interrompersi completamente, poiché spesso indica errori temporanei del server.

Robot di ricerca
Robot di ricerca

Per cosahai bisogno di robots.txt?

Come avrai intuito, questo file è la guida dei robot alla radice del sito. Ora viene utilizzato per limitare parzialmente l'accesso a contenuti inappropriati:

  • pagine con informazioni personali degli utenti;
  • siti mirror;
  • risultati della ricerca;
  • moduli di invio dati, ecc.

Se non è presente alcun file robots.txt nella radice del sito, il robot eseguirà la scansione di tutti i contenuti. Di conseguenza, nei risultati di ricerca potrebbero apparire dati indesiderati, il che significa che sia tu che il sito ne soffrirai. Se sono presenti istruzioni speciali nel documento robots.txt, il "ragno" le seguirà e fornirà le informazioni desiderate dal proprietario della risorsa.

Lavorare con un file

Per utilizzare robots.txt per bloccare l'indicizzazione del sito, devi capire come creare questo file. Per fare ciò, segui le istruzioni:

  1. Crea un documento in Blocco note o Blocco note++.
  2. Imposta l'estensione del file ".txt".
  3. Inserisci i dati e i comandi richiesti.
  4. Salva il documento e caricalo nella root del sito.

Come puoi vedere, in una delle fasi è necessario impostare i comandi per i robot. Sono di due tipi: consentire (Consenti) e vietare (Non consentire). Inoltre, alcuni ottimizzatori possono specificare la velocità di scansione, l'host e il collegamento alla mappa della pagina della risorsa.

Come chiudere un sito dall'indicizzazione
Come chiudere un sito dall'indicizzazione

Per iniziare a lavorare con robots.txt e bloccare completamente l'indicizzazione del sito, devi anche comprendere i simboli utilizzati. Ad esempio, in un documentoutilizzare "/", che indica che l'intero sito è selezionato. Se viene utilizzato "", è necessaria una sequenza di caratteri. In questo modo sarà possibile specificare una cartella specifica che può essere scansionata o meno.

Caratteristiche dei bot

I "ragni" per i motori di ricerca sono diversi, quindi se lavori per più motori di ricerca contemporaneamente, dovrai tenere conto di questo momento. I loro nomi sono diversi, il che significa che se vuoi contattare un robot specifico, dovrai specificarne il nome: "User Agent: Yandex" (senza virgolette).

Se vuoi impostare le direttive per tutti i motori di ricerca, devi usare il comando: "User Agent: " (senza virgolette). Per bloccare correttamente l'indicizzazione del sito tramite robots.txt, è necessario conoscere le specifiche dei motori di ricerca più diffusi.

Il fatto è che i motori di ricerca più popolari Yandex e Google hanno diversi bot. Ognuno di loro ha i suoi compiti. Ad esempio, Yandex Bot e Googlebot sono i principali "ragni" che eseguono la scansione del sito. Conoscendo tutti i bot, sarà più facile mettere a punto l'indicizzazione della tua risorsa.

Come funziona il file robots.txt
Come funziona il file robots.txt

Esempi

Quindi, con l'aiuto di robots.txt, puoi chiudere il sito dall'indicizzazione con semplici comandi, l'importante è capire di cosa hai bisogno nello specifico. Ad esempio, se vuoi che Googlebot non si avvicini alla tua risorsa, devi dargli il comando appropriato. Apparirà come: "User-agent: Googlebot Disallow: /" (senza virgolette).

Ora dobbiamo capire cosa contiene questo comando e come funziona. Quindi "User-agent"viene utilizzato per utilizzare una chiamata diretta a uno dei bot. Successivamente, indichiamo a quale, nel nostro caso è Google. Il comando "Disallow" deve iniziare su una nuova riga e impedire al robot di entrare nel sito. Il simbolo della barra in questo caso indica che tutte le pagine della risorsa sono selezionate per l'esecuzione del comando.

A cosa serve robots.txt?
A cosa serve robots.txt?

In robots.txt, puoi disabilitare l'indicizzazione per tutti i motori di ricerca con un semplice comando: "User-agent:Disallow: /" (senza virgolette). Il carattere asterisco in questo caso indica tutti i robot di ricerca. Tipicamente, un tale comando è necessario per mettere in pausa l'indicizzazione del sito e avviare il lavoro cardinale su di esso, che altrimenti potrebbe influire sull'ottimizzazione.

Se la risorsa è grande e ha molte pagine, spesso contiene informazioni proprietarie che non è desiderabile divulgare o può influire negativamente sulla promozione. In questo caso, devi capire come chiudere la pagina dall'indicizzazione in robots.txt.

Puoi nascondere una cartella o un file. Nel primo caso è necessario ricominciare contattando uno specifico bot o tutti, quindi utilizziamo il comando “User-agent”, e di seguito specifichiamo il comando “Disallow” per una cartella specifica. Apparirà così: "Disallow: / folder /" (senza virgolette). In questo modo nascondi l'intera cartella. Se contiene qualche file importante che vorresti mostrare, allora devi scrivere il comando seguente: “Allow: /folder/file.php” (senza virgolette).

Controlla file

Se si utilizza robots.txt per chiudere il sitoSei riuscito ad indicizzare, ma non sai se tutte le tue direttive hanno funzionato correttamente, puoi verificare la correttezza del lavoro.

Per prima cosa, devi controllare di nuovo la posizione del documento. Ricorda che deve essere esclusivamente nella cartella principale. Se si trova nella cartella principale, non funzionerà. Quindi, apri il browser e inserisci il seguente indirizzo: “https://tuosito. com/robots.txt (senza virgolette). Se ricevi un errore nel tuo browser web, il file non è dove dovrebbe essere.

Come chiudere una cartella dall'indicizzazione
Come chiudere una cartella dall'indicizzazione

Le direttive possono essere controllate in strumenti speciali utilizzati da quasi tutti i webmaster. Stiamo parlando dei prodotti Google e Yandex. Ad esempio, in Google Search Console è presente una barra degli strumenti in cui è necessario aprire "Scansione" e quindi eseguire lo "Strumento di ispezione file Robots.txt". È necessario copiare tutti i dati dal documento nella finestra e avviare la scansione. Esattamente lo stesso controllo può essere eseguito in Yandex. Webmaster.

Consigliato: