Come impedire a un sito di indicizzarsi in robots.txt: istruzioni e consigli

2025 Autore: Trinity Chesterton | [email protected]. Ultima modifica: 2025-01-23 10:10

Il lavoro di un ottimizzatore SEO è molto ampio. Si consiglia ai principianti di annotare l'algoritmo di ottimizzazione per non perdere alcun passaggio. In caso contrario, la promozione difficilmente sarà definita riuscita, poiché il sito subirà costantemente fallimenti ed errori che dovranno essere corretti per molto tempo.

Uno dei passaggi di ottimizzazione è lavorare con il file robots.txt. Ogni risorsa dovrebbe avere questo documento, perché senza di esso sarà più difficile far fronte all'ottimizzazione. Svolge molte funzioni che dovrai comprendere.

Assistente robot

Il file robots.txt è un documento di testo semplice che può essere visualizzato nel Blocco note standard del sistema. Durante la creazione, è necessario impostare la codifica su UTF-8 in modo che possa essere letta correttamente. Il file funziona con i protocolli http, https e FTP.

Questo documento è un assistente per la ricerca dei robot. Nel caso non lo sapessi, ogni sistema utilizza "ragni" che eseguono rapidamente la scansione del World Wide Web per restituire siti pertinenti per le query.utenti. Questi robot devono avere accesso ai dati delle risorse, robots.txt funziona per questo.

Affinché gli spider trovino la loro strada, devi inviare il documento robots.txt alla directory principale. Per verificare se il sito ha questo file, inserisci "https://site.com.ua/robots.txt" nella barra degli indirizzi del browser. Invece di "site.com.ua" devi inserire la risorsa di cui hai bisogno.

Funzioni documento

Il file robots.txt fornisce ai crawler diversi tipi di informazioni. Può fornire un accesso parziale in modo che il "ragno" esegua la scansione di elementi specifici della risorsa. L'accesso completo consente di controllare tutte le pagine disponibili. Un divieto totale impedisce anche ai robot di iniziare a controllare e lasciano il sito.

Dopo aver visitato la risorsa, i "ragni" ricevono una risposta adeguata alla richiesta. Potrebbero essercene diversi, tutto dipende dalle informazioni in robots.txt. Ad esempio, se la scansione è andata a buon fine, il robot riceverà il codice 2xx.

Forse il sito è stato reindirizzato da una pagina all' altra. In questo caso, il robot riceve il codice 3xx. Se questo codice si verifica più volte, lo spider lo seguirà fino a quando non riceverà un' altra risposta. Sebbene, di regola, utilizzi solo 5 tentativi. In caso contrario, viene visualizzato il popolare errore 404.

Se la risposta è 4xx, il robot può eseguire la scansione dell'intero contenuto del sito. Ma nel caso del codice 5xx, il controllo potrebbe interrompersi completamente, poiché spesso indica errori temporanei del server.

Per cosahai bisogno di robots.txt?

Come avrai intuito, questo file è la guida dei robot alla radice del sito. Ora viene utilizzato per limitare parzialmente l'accesso a contenuti inappropriati:

pagine con informazioni personali degli utenti;
siti mirror;
risultati della ricerca;
moduli di invio dati, ecc.

Se non è presente alcun file robots.txt nella radice del sito, il robot eseguirà la scansione di tutti i contenuti. Di conseguenza, nei risultati di ricerca potrebbero apparire dati indesiderati, il che significa che sia tu che il sito ne soffrirai. Se sono presenti istruzioni speciali nel documento robots.txt, il "ragno" le seguirà e fornirà le informazioni desiderate dal proprietario della risorsa.

Lavorare con un file

Per utilizzare robots.txt per bloccare l'indicizzazione del sito, devi capire come creare questo file. Per fare ciò, segui le istruzioni:

Crea un documento in Blocco note o Blocco note++.
Imposta l'estensione del file ".txt".
Inserisci i dati e i comandi richiesti.
Salva il documento e caricalo nella root del sito.

Come puoi vedere, in una delle fasi è necessario impostare i comandi per i robot. Sono di due tipi: consentire (Consenti) e vietare (Non consentire). Inoltre, alcuni ottimizzatori possono specificare la velocità di scansione, l'host e il collegamento alla mappa della pagina della risorsa.

Come chiudere un sito dall'indicizzazione

Per iniziare a lavorare con robots.txt e bloccare completamente l'indicizzazione del sito, devi anche comprendere i simboli utilizzati. Ad esempio, in un documentoutilizzare "/", che indica che l'intero sito è selezionato. Se viene utilizzato "", è necessaria una sequenza di caratteri. In questo modo sarà possibile specificare una cartella specifica che può essere scansionata o meno.

Caratteristiche dei bot

I "ragni" per i motori di ricerca sono diversi, quindi se lavori per più motori di ricerca contemporaneamente, dovrai tenere conto di questo momento. I loro nomi sono diversi, il che significa che se vuoi contattare un robot specifico, dovrai specificarne il nome: "User Agent: Yandex" (senza virgolette).

Se vuoi impostare le direttive per tutti i motori di ricerca, devi usare il comando: "User Agent: " (senza virgolette). Per bloccare correttamente l'indicizzazione del sito tramite robots.txt, è necessario conoscere le specifiche dei motori di ricerca più diffusi.

Il fatto è che i motori di ricerca più popolari Yandex e Google hanno diversi bot. Ognuno di loro ha i suoi compiti. Ad esempio, Yandex Bot e Googlebot sono i principali "ragni" che eseguono la scansione del sito. Conoscendo tutti i bot, sarà più facile mettere a punto l'indicizzazione della tua risorsa.

Esempi

Quindi, con l'aiuto di robots.txt, puoi chiudere il sito dall'indicizzazione con semplici comandi, l'importante è capire di cosa hai bisogno nello specifico. Ad esempio, se vuoi che Googlebot non si avvicini alla tua risorsa, devi dargli il comando appropriato. Apparirà come: "User-agent: Googlebot Disallow: /" (senza virgolette).

Ora dobbiamo capire cosa contiene questo comando e come funziona. Quindi "User-agent"viene utilizzato per utilizzare una chiamata diretta a uno dei bot. Successivamente, indichiamo a quale, nel nostro caso è Google. Il comando "Disallow" deve iniziare su una nuova riga e impedire al robot di entrare nel sito. Il simbolo della barra in questo caso indica che tutte le pagine della risorsa sono selezionate per l'esecuzione del comando.

In robots.txt, puoi disabilitare l'indicizzazione per tutti i motori di ricerca con un semplice comando: "User-agent:Disallow: /" (senza virgolette). Il carattere asterisco in questo caso indica tutti i robot di ricerca. Tipicamente, un tale comando è necessario per mettere in pausa l'indicizzazione del sito e avviare il lavoro cardinale su di esso, che altrimenti potrebbe influire sull'ottimizzazione.

Se la risorsa è grande e ha molte pagine, spesso contiene informazioni proprietarie che non è desiderabile divulgare o può influire negativamente sulla promozione. In questo caso, devi capire come chiudere la pagina dall'indicizzazione in robots.txt.

Puoi nascondere una cartella o un file. Nel primo caso è necessario ricominciare contattando uno specifico bot o tutti, quindi utilizziamo il comando “User-agent”, e di seguito specifichiamo il comando “Disallow” per una cartella specifica. Apparirà così: "Disallow: / folder /" (senza virgolette). In questo modo nascondi l'intera cartella. Se contiene qualche file importante che vorresti mostrare, allora devi scrivere il comando seguente: “Allow: /folder/file.php” (senza virgolette).

Controlla file

Se si utilizza robots.txt per chiudere il sitoSei riuscito ad indicizzare, ma non sai se tutte le tue direttive hanno funzionato correttamente, puoi verificare la correttezza del lavoro.

Per prima cosa, devi controllare di nuovo la posizione del documento. Ricorda che deve essere esclusivamente nella cartella principale. Se si trova nella cartella principale, non funzionerà. Quindi, apri il browser e inserisci il seguente indirizzo: “https://tuosito. com/robots.txt (senza virgolette). Se ricevi un errore nel tuo browser web, il file non è dove dovrebbe essere.

Come chiudere una cartella dall'indicizzazione

Le direttive possono essere controllate in strumenti speciali utilizzati da quasi tutti i webmaster. Stiamo parlando dei prodotti Google e Yandex. Ad esempio, in Google Search Console è presente una barra degli strumenti in cui è necessario aprire "Scansione" e quindi eseguire lo "Strumento di ispezione file Robots.txt". È necessario copiare tutti i dati dal documento nella finestra e avviare la scansione. Esattamente lo stesso controllo può essere eseguito in Yandex. Webmaster.

Consigliato:

Idee per creare un sito: una piattaforma per un sito, scopo, segreti e sfumature della creazione di un sito

Internet è diventata parte integrante della vita umana. Senza di essa, è già impossibile immaginare l'istruzione, la comunicazione e, non ultimo, il guadagno. Molti hanno pensato di utilizzare il World Wide Web per scopi commerciali. Lo sviluppo di siti Web è un'idea imprenditoriale che ha il diritto di esistere. Ma come può osare iniziare una persona che ha un'idea piuttosto vaga di quale sia il punto? Molto semplice. Per fare questo, ha solo bisogno di conoscere idee utili per creare un sito web

Promozione di un sito giovane: consigli. Sviluppo e promozione del sito web

La promozione di un sito giovane è un lungo processo in più fasi. Conoscenze speciali e piccoli segreti di ottimizzatori SEO esperti aiuteranno ad affrontare le peculiarità della promozione

Come si configura correttamente Robots.txt?

In pratica, i file robots.txt indicano se determinati programmi utente, responsabili del debug del software, possono eseguire la scansione di parti di un sito Web. Queste istruzioni di bypass sono definite negando/consentendo il comportamento di determinati bot personalizzati

Come incollare una pellicola protettiva su uno smartphone: istruzioni passo passo, consigli e consigli degli esperti

I gadget moderni - telefoni, tablet e altri - hanno il luogo più vulnerabile per i danni: il display. Se è danneggiato, la facilità d'uso spesso diminuisce, quindi è evidente che non è necessario permettere a questo elemento di rompersi. Pellicole e occhiali protettivi fanno proprio questo per la maggior parte di questo compito

Ottimizzazione SEO del sito: istruzioni passo passo, descrizione, consigli e recensioni

I proprietari delle proprie risorse Internet, indipendentemente dal loro focus tematico, devono conoscere l'ottimizzazione SEO. Con esso, puoi attirare più utenti. Di conseguenza, il numero di visualizzazioni sarà aumentato. Come si può effettuare autonomamente l'ottimizzazione SEO del sito? Le istruzioni passo passo saranno fornite in questa recensione

Come impedire a un sito di indicizzarsi in robots.txt: istruzioni e consigli

Sommario:

Assistente robot

Funzioni documento

Per cosahai bisogno di robots.txt?

Lavorare con un file

Caratteristiche dei bot

Esempi

Controlla file

Consigliato:

Idee per creare un sito: una piattaforma per un sito, scopo, segreti e sfumature della creazione di un sito

Promozione di un sito giovane: consigli. Sviluppo e promozione del sito web

Come si configura correttamente Robots.txt?

Come incollare una pellicola protettiva su uno smartphone: istruzioni passo passo, consigli e consigli degli esperti

Ottimizzazione SEO del sito: istruzioni passo passo, descrizione, consigli e recensioni

Smartphone Alcatel One Touch - recensioni e recensioni

Fotocamera reflex Nikon: recensioni dei proprietari, istruzioni. Quale modello di fotocamera è migliore

"Telecard": recensioni. "Telekarta" - un set di televisione satellitare

Cos'è un forum

Targeting - che cos'è? Tipi e impostazioni di targeting

IPhone 5: sblocco di uno smartphone tramite il programma

Come ripristinare una SIM "TELE2": modalità e procedure

Recensione dei telefoni a pulsanti con "Vatsap"

Come sbloccare il tuo telefono Huawei se hai dimenticato la password? Possibili opzioni

Maps.Me: recensioni degli utenti, descrizione dell'app, funzionalità di utilizzo

Consumi d'acqua in lavastoviglie: confronto per modello

Quanto pesa una lavatrice? Panoramica dei modelli di lavatrice

Dimensioni di una lavatrice a carica dall' alto: panoramica e consigli per la scelta

L'evoluzione dei televisori: la storia dell'apparenza, i primi televisori, la modernizzazione, le fasi di sviluppo e le prospettive

LED - che cos'è? Il principio di funzionamento del LED