Come si configura correttamente Robots.txt?

Sommario:

Come si configura correttamente Robots.txt?
Come si configura correttamente Robots.txt?
Anonim

Il txt Robots corretto per il sito html crea modelli di azione per i bot dei motori di ricerca, dicendo loro cosa possono controllare. Questo file viene spesso definito Protocollo di esclusione robot. La prima cosa che i bot cercano prima di eseguire la scansione di un sito Web è robots.txt. Può indicare o indicare alla Sitemap di non controllare determinati sottodomini. Quando desideri che i motori di ricerca cerchino ciò che viene trovato più di frequente, robots.txt non è richiesto. È molto importante in questo processo che il file sia formattato correttamente e non indicizzi la pagina utente con i dati personali dell'utente.

Principio di scansione robotica

Il principio della scansione robotica
Il principio della scansione robotica

Quando un motore di ricerca incontra un file e vede un URL vietato, non lo esegue la scansione, ma può indicizzarlo. Questo perché anche se i robot non sono autorizzati a visualizzare il contenuto, possono ricordare i backlink che puntano all'URL proibito. A causa del blocco dell'accesso al collegamento, l'URL apparirà nei motori di ricerca, ma senza frammenti. Se unaper la strategia di marketing in entrata, è richiesto il corretto Robots txt per bitrix (Bitrix), che forniscono la verifica del sito su richiesta dell'utente da parte degli scanner.

D' altra parte, se il file non è formattato correttamente, il sito potrebbe non essere visualizzato nei risultati di ricerca e non essere trovato. I motori di ricerca non possono ignorare questo file. Un programmatore può visualizzare il file robots.txt di qualsiasi sito andando al suo dominio e seguendolo con robots.txt, ad esempio www.domain.com/robots.txt. Utilizzando uno strumento come la sezione di ottimizzazione SEO di Unamo, dove puoi inserire qualsiasi dominio, e il servizio mostrerà informazioni sull'esistenza del file.

Restrizioni per la scansione:

  1. L'utente ha contenuti obsoleti o sensibili.
  2. Le immagini sul sito non verranno incluse nei risultati di ricerca di immagini.
  3. Il sito non è ancora pronto per l'indicizzazione della demo da parte del robot.

Tieni presente che le informazioni che un utente desidera ricevere da un motore di ricerca sono disponibili per chiunque inserisca l'URL. Non utilizzare questo file di testo per nascondere dati sensibili. Se il dominio presenta un errore 404 (non trovato) o 410 (passato), il motore di ricerca controlla il sito nonostante la presenza di robots.txt, nel qual caso ritiene che il file sia mancante. Altri errori come 500 (Errore interno del server), 403 (Proibito), timeout o "non disponibile" rispettano le istruzioni di robots.txt, tuttavia il bypass può essere ritardato fino a quando il file non è disponibile.

Creazione di un file di ricerca

Creazione di un file di ricerca
Creazione di un file di ricerca

MoltiI programmi CMS come WordPress hanno già un file robots.txt. Prima di configurare correttamente Robots txt WordPress, l'utente deve familiarizzare con le sue capacità per capire come accedervi. Se il programmatore crea lui stesso il file, deve soddisfare le seguenti condizioni:

  1. Deve essere in minuscolo.
  2. Usa la codifica UTF-8.
  3. Salva in un editor di testo come file (.txt).

Quando un utente non sa dove posizionarlo, contatta il fornitore del software del server web per scoprire come accedere alla radice di un dominio o vai alla console di Google e scaricalo. Con questa funzione Google può anche verificare se il bot funziona correttamente e l'elenco dei siti che sono stati bloccati tramite il file.

Il formato principale del txt Robots corretto per bitrix (Bitrix):

  1. Legend robots.txt.
  2. , aggiunge commenti utilizzati solo come note.
  3. Questi commenti verranno ignorati dagli scanner insieme a eventuali errori di battitura degli utenti.
  4. User-agent - indica su quale motore di ricerca sono elencate le istruzioni per il file.
  5. L'aggiunta di un asterisco () indica agli scanner che le istruzioni sono per tutti.

Indica un bot specifico, ad esempio Googlebot, Baiduspider, Applebot. Disallow indica ai crawler quali parti del sito Web non devono essere sottoposte a scansione. Si presenta così: User-agent:. L'asterisco significa "tutti i bot". Tuttavia, è possibile specificare le pagine per specifichebot. Per fare ciò, devi conoscere il nome del bot per il quale sono impostati i consigli.

Il file txt del robot corretto per Yandex potrebbe assomigliare a questo:

txt robot corretto per Yandex
txt robot corretto per Yandex

Se il bot non deve eseguire la scansione del sito, puoi specificarlo e, per trovare i nomi degli user agent, ti consigliamo di familiarizzare con le funzionalità online di useragentstring.com.

Ottimizzazione della pagina

Ottimizzazione della pagina
Ottimizzazione della pagina

Le due righe seguenti sono considerate un file robots.txt completo e un singolo file robots può contenere più righe di programmi utente e direttive che disabilitano o abilitano la scansione. Il formato principale del txt Robots corretto:

  1. Agente utente: [nome utente agente].
  2. Non consentire: [stringa URL che non è stata scansionata].

Nel file, ogni blocco di direttive è visualizzato come discreto, separato da una linea. Nel file accanto alla directory utente dell'agente, ciascuna regola viene applicata a un insieme specifico di righe separate da sezioni. Se un file ha una regola multi-agente, il robot considererà solo il gruppo di istruzioni più specifico.

Sintassi tecnica

Sintassi tecnica
Sintassi tecnica

Può essere considerato il "linguaggio" dei file robots.txt. Ci sono cinque termini che possono esistere in questo formato, i principali includono:

  1. User-agent - Web crawler con istruzioni di scansione, solitamente un motore di ricerca.
  2. Disallow è un comando utilizzato per dire all'agente utente di ignorare(omissione) di un URL specifico. C'è solo una condizione proibita per ciascuno.
  3. Consenti. Per il Googlebot che ottiene l'accesso, viene negata anche la pagina utente.
  4. Crawl-delay: specifica di quanti secondi il crawler avrà bisogno prima di eseguire la scansione. Quando il bot non lo conferma, la velocità viene impostata nella console di Google.
  5. Mappa del sito: utilizzata per individuare eventuali mappe XML associate a un URL.

Corrispondenze modello

Quando si tratta di bloccare effettivamente gli URL o di consentire un Robots txt valido, le operazioni possono essere piuttosto complicate in quanto consentono di utilizzare il pattern matching per coprire una serie di possibili parametri URL. Google e Bing utilizzano entrambi due caratteri che identificano le pagine o le sottocartelle che il SEO desidera escludere. I due caratteri sono l'asterisco () e il simbolo del dollaro ($), dove:è un carattere jolly che rappresenta qualsiasi sequenza di caratteri. $ - corrisponde alla fine dell'URL.

Google offre un ampio elenco di possibili sintassi dei modelli che spiegano all'utente come impostare correttamente un file txt di Robots. Alcuni casi d'uso comuni includono:

  1. Impedisci la visualizzazione di contenuti duplicati nei risultati di ricerca.
  2. Mantieni private tutte le sezioni del sito web.
  3. Salva le pagine interne dei risultati di ricerca in base alla dichiarazione aperta.
  4. Indica la posizione.
  5. Impedisci ai motori di ricerca di indicizzare determinatifile.
  6. Specifica di un ritardo di scansione per interrompere il ricaricamento durante la scansione di più aree di contenuto contemporaneamente.

Verifica della presenza di un file robot

Se non ci sono aree del sito che devono essere scansionate, robots.txt non è affatto necessario. Se l'utente non è sicuro dell'esistenza di questo file, deve inserire il dominio principale e digitarlo alla fine dell'URL, qualcosa del genere: moz.com/robots.txt. Un certo numero di robot di ricerca ignora questi file. Tuttavia, di norma, questi crawler non appartengono a motori di ricerca affidabili. Sono il tipo di spammer, aggregatori di posta e altri tipi di bot automatizzati che si trovano in abbondanza su Internet.

È molto importante ricordare che l'utilizzo dello standard di esclusione dei robot non è una misura di sicurezza efficace. In effetti, alcuni bot possono iniziare con pagine in cui l'utente li imposta in modalità di scansione. Ci sono diverse parti che vanno nel file di eccezione standard. Prima di indicare al robot su quali pagine non dovrebbe funzionare, devi specificare con quale robot parlare. Nella maggior parte dei casi, l'utente utilizzerà una semplice dichiarazione che significa "tutti i bot".

Ottimizzazione SEO

Ottimizzazione SEO
Ottimizzazione SEO

Prima dell'ottimizzazione, l'utente deve assicurarsi di non bloccare alcun contenuto o sezione del sito che deve essere bypassato. I collegamenti alle pagine bloccate dal txt di Robots corretto non verranno rispettati. Ciò significa:

  1. Se non sono collegati ad altre pagine disponibili per i motori di ricerca es. pagine,non bloccato da robots.txt o da un meta robot e le risorse correlate non verranno scansionate e quindi non possono essere indicizzate.
  2. Nessun collegamento può essere passato da una pagina bloccata alla destinazione del collegamento. Se esiste una pagina del genere, è meglio utilizzare un meccanismo di blocco diverso rispetto a robots.txt.

Poiché altre pagine potrebbero collegarsi direttamente a una pagina contenente informazioni personali e desideri bloccare questa pagina dai risultati di ricerca, utilizza un metodo diverso, come la protezione con password o i metadati noindex. Alcuni motori di ricerca hanno più programmi utente. Ad esempio, Google utilizza Googlebot per le ricerche organiche e Googlebot-Image per le ricerche di immagini.

La maggior parte dei programmi utente dello stesso motore di ricerca segue le stesse regole, quindi non è necessario specificare direttive per ciascuno dei diversi crawler, ma essere in grado di farlo può ottimizzare la scansione dei contenuti del sito. Il motore di ricerca memorizza nella cache i contenuti del file e in genere aggiorna i contenuti memorizzati nella cache almeno una volta al giorno. Se l'utente modifica il file e desidera aggiornarlo più velocemente del solito, può inviare l'URL robots.txt a Google.

Motori di ricerca

Verifica dell'esistenza di un file robot
Verifica dell'esistenza di un file robot

Per capire come funziona correttamente Robots txt, devi conoscere le capacità dei motori di ricerca. In breve, la loro abilità sta nel fatto che inviano "scanner", che sono programmi chenavigazione in Internet per informazioni. Quindi memorizzano alcune di queste informazioni per trasmetterle successivamente all'utente.

Per molte persone, Google è già Internet. In effetti, hanno ragione, poiché questa è forse la sua invenzione più importante. E sebbene i motori di ricerca siano cambiati molto dalla loro nascita, i principi alla base sono sempre gli stessi. I crawler, noti anche come "bot" o "spider", trovano pagine da miliardi di siti web. I motori di ricerca danno loro indicazioni su dove andare, mentre i singoli siti possono anche comunicare con i bot e dire loro quali pagine specifiche dovrebbero guardare.

In genere, i proprietari di siti non vogliono apparire nei motori di ricerca: pagine di amministrazione, portali di back-end, categorie e tag e altre pagine di informazioni. Il file robots.txt può essere utilizzato anche per impedire ai motori di ricerca di controllare le pagine. In breve, robots.txt dice ai web crawler cosa fare.

Blocca pagine

Questa è la parte principale del file di esclusione del robot. Con una semplice dichiarazione, l'utente dice a un bot oa un gruppo di bot di non eseguire la scansione di determinate pagine. La sintassi è semplice, ad esempio, per negare l'accesso a tutto ciò che si trova nella directory "admin" del sito, scrivi: Disallow: /admin. Questa riga impedirà ai bot di eseguire la scansione di yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html e qualsiasi altra cosa nella directory admin.

Per non consentire una pagina, specificala semplicemente nella riga disallow: Disallow: /public/exception.html. Ora la pagina "eccezione".non migrerà, ma tutto il resto nella cartella "pubblica".

Per includere più pagine, elencale semplicemente:

Directory e pagine
Directory e pagine

Queste quattro righe del txt Robots corretto per symphony si applicheranno a qualsiasi agente utente elencato nella parte superiore della sezionerobots.txt per

Ban pagine
Ban pagine

Mappa del sito:

Altri comandi:live - non consente ai web crawler di indicizzare cpresources/ o provider/.

User Agent:Disallow: /cpresources/.

Nega: / venditore / Non consentire: /.env.

Definizione degli standard

L'utente può specificare pagine specifiche per diversi bot combinando i due elementi precedenti, ecco come appare. Di seguito viene presentato un esempio del txt Robots corretto per tutti i motori di ricerca.

Definizione di standard
Definizione di standard

Le sezioni "admin" e "private" saranno invisibili a Google e Bing, ma Google continuerà a vedere la directory "segreta", mentre Bing no. È possibile specificare le regole generali per tutti i bot utilizzando l'user agent asterisco, quindi fornire istruzioni specifiche ai bot nelle sezioni seguenti. Con le conoscenze di cui sopra, l'utente può scrivere un esempio del txt Robots corretto per tutti i motori di ricerca. Avvia il tuo editor di testo preferito e dì ai robot che non sono i benvenuti in alcune parti del sito.

Suggerimenti per migliorare le prestazioni del server

SublimeText èun editor di testo versatile e il gold standard per molti programmatori. I suoi suggerimenti per la programmazione si basano inoltre su una codifica efficiente. gli utenti apprezzano la presenza di scorciatoie nel programma. Se l'utente desidera vedere un esempio di un file robots.txt, deve accedere a qualsiasi sito e aggiungere "/robots.txt" alla fine. Ecco parte del file robots.txt GiantBicycles.

Il programma prevede la creazione di pagine che gli utenti non vogliono mostrare nei motori di ricerca. E ha anche alcune cose esclusive che poche persone conoscono. Ad esempio, mentre il file robots.txt indica ai bot dove non andare, il file della mappa del sito fa il contrario e li aiuta a trovare ciò che stanno cercando, e mentre i motori di ricerca probabilmente sanno già dove si trova la mappa del sito, non viene nel modo.

Ci sono due tipi di file: pagina HTML o file XML. Una pagina HTML è quella che mostra ai visitatori tutte le pagine disponibili su un sito web. Nel suo stesso robots.txt, appare così: Sitemap://www.makeuseof.com/sitemap_index.xml. Se il sito non è indicizzato dai motori di ricerca, nonostante sia stato scansionato più volte dai web robot, devi assicurarti che il file sia presente e che i suoi permessi siano impostati correttamente.

Per impostazione predefinita, questo accadrà a tutte le installazioni di SeoToaster, ma se necessario, puoi ripristinarlo in questo modo: File robots.txt - 644. A seconda del server PHP, se questo non funziona per l'utente, si consiglia di provare quanto segue: File robots.txt - 666.

Impostazione del ritardo di scansione

La direttiva sul ritardo di bypass informa alcunimotori di ricerca quanto spesso possono indicizzare una pagina del sito. Viene misurato in secondi, anche se alcuni motori di ricerca lo interpretano in modo leggermente diverso. Alcune persone vedono il ritardo di scansione 5 quando gli viene detto di attendere cinque secondi dopo ogni scansione per iniziare quella successiva.

Altri interpretano questo come un'istruzione per scansionare solo una pagina ogni cinque secondi. Il robot non può scansionare più velocemente per risparmiare la larghezza di banda del server. Se il server deve corrispondere al traffico, può impostare un ritardo di bypass. In generale, nella maggior parte dei casi, gli utenti non devono preoccuparsi di questo. Ecco come viene impostato il crawl delay di otto secondi - Crawl-delay: 8.

Ma non tutti i motori di ricerca obbediranno a questa direttiva, quindi quando disattivi le pagine, puoi impostare diversi ritardi di scansione per alcuni motori di ricerca. Dopo aver impostato tutte le istruzioni nel file, puoi caricarlo sul sito, assicurati prima che sia un semplice file di testo e che abbia il nome robots.txt e possa essere trovato su tuosito.com/robots.txt.

Miglior bot WordPress

Miglior Bot WordPress
Miglior Bot WordPress

Ci sono alcuni file e directory su un sito WordPress che devono essere bloccati ogni volta. Le directory che gli utenti non dovrebbero consentire sono la directory cgi-bin e le directory WP standard. Alcuni server non consentono l'accesso alla directory cgi-bin, ma gli utenti devono includerla nella direttiva disallow prima di configurare correttamente Robots txt WordPress

Directory WordPress standard,che dovrebbero bloccare sono wp-admin, wp-content, wp-includes. Queste directory non contengono dati inizialmente utili ai motori di ricerca, ma esiste un'eccezione, ovvero esiste una sottodirectory denominata uploads nella directory wp-content. Questa sottodirectory deve essere consentita nel file robot.txt in quanto include tutto ciò che viene caricato utilizzando la funzione di caricamento multimediale di WP. WordPress utilizza tag o categorie per strutturare i contenuti.

Se si utilizzano delle categorie, allora per creare il Robots txt corretto per Wordpress, come specificato dal produttore del programma, è necessario bloccare gli archivi dei tag dalla ricerca. Innanzitutto, controllano il database andando al pannello "Amministrazione"> "Impostazioni"> "Permalink".

Per impostazione predefinita, la base è il tag, se il campo è vuoto: Disallow: / tag /. Se viene utilizzata una categoria, devi disabilitare la categoria nel file robot.txt: Disallow: /category/. Per impostazione predefinita, la base è il tag, se il campo è vuoto: Disallow: / tag /. Se viene utilizzata una categoria, devi disabilitare la categoria nel file robot.txt: Disallow: / category /.

File utilizzati principalmente per la visualizzazione di contenuti, verranno bloccati dal file txt Robots corretto per Wordpress:

txt di robot per wordpress
txt di robot per wordpress

Configurazione di base di Joomla

Una volta che l'utente ha installato Joomla, è necessario visualizzare l'impostazione corretta di Joomla Robots txt nella configurazione globale, che si trova nel pannello di controllo. Alcune impostazioni qui sono molto importanti per la SEO. Per prima cosa trova il nome del sito e assicurati cheviene utilizzato il nome breve del sito. Quindi trovano un gruppo di impostazioni a destra della stessa schermata, chiamato Impostazioni SEO. Quello che sicuramente dovrà cambiare è il secondo: usa un URL di riscrittura.

Sembra complicato, ma in pratica aiuta Joomla a creare URL più puliti. Più evidente se rimuovi la riga index.php dagli URL. Se lo modifichi in un secondo momento, gli URL cambieranno e a Google non piacerà. Tuttavia, quando si modifica questa impostazione, è necessario eseguire diversi passaggi contemporaneamente per creare il file txt robots corretto per Joomla:

  1. Trova il file htaccess.txt nella cartella principale di Joomla.
  2. Segnalo come.htaccess (nessuna estensione).
  3. Includi il nome del sito nei titoli delle pagine.
  4. Trova le impostazioni dei metadati nella parte inferiore della schermata di configurazione globale.

Robot nel cloud MODX

Robot nel cloud MODX
Robot nel cloud MODX

In precedenza, MODX Cloud offriva agli utenti la possibilità di controllare il comportamento di consentire la pubblicazione del file robots.txt in base a un interruttore nella dashboard. Sebbene ciò fosse utile, era possibile consentire accidentalmente l'indicizzazione su siti di staging/sviluppo attivando un'opzione nel dashboard. Allo stesso modo, è stato facile disabilitare l'indicizzazione sul sito di produzione.

Oggi il servizio presuppone la presenza di file robots.txt nel file system con la seguente eccezione: qualsiasi dominio che termina con modxcloud.com fungerà da Disallow: /directive per tutti gli user agent, indipendentemente dalla presenza o assenza del fascicolo. I siti di produzione che ricevono traffico di visitatori reali dovranno utilizzare il proprio dominio se l'utente desidera indicizzare il proprio sito.

Alcune organizzazioni utilizzano il txt Robots corretto per modx per eseguire più siti Web da un'unica installazione utilizzando Contexts. Un caso in cui ciò potrebbe essere applicato sarebbe un sito di marketing pubblico combinato con micro siti di landing page e possibilmente una intranet non pubblica.

Tradizionalmente questo è stato difficile da fare per le installazioni multiutente poiché condividono la stessa radice di rete. Con MODX Cloud, questo è facile. Carica semplicemente un file aggiuntivo su un sito Web chiamato robots-intranet.example.com.txt con il seguente contenuto e bloccherà l'indicizzazione con robot ben funzionanti e tutti gli altri nomi host ricadranno su file standard a meno che non ci siano altri nodi di nome specifici.

Robots.txt è un file importante che aiuta l'utente a collegarsi al sito su Google, sui principali motori di ricerca e su altri siti web. Situato nella radice di un server Web, il file indica ai robot Web di eseguire la scansione di un sito, impostare le cartelle che deve o non deve indicizzare, utilizzando una serie di istruzioni denominata Protocollo di esclusione del bot. Un esempio del txt Robots corretto per tutti i motori di ricerca obots.txt è particolarmente facile da fare con SeoToaster. È stato creato un menu speciale nel pannello di controllo, quindi il bot non dovrà mai lavorare troppo per accedervi.

Consigliato: