Cos'è l'indicizzazione dei siti web? Come succede? Puoi trovare le risposte a queste e ad altre domande nell'articolo. L'indicizzazione web (indicizzazione nei motori di ricerca) è il processo di aggiunta di informazioni su un sito al database da parte di un robot dei motori di ricerca, che viene successivamente utilizzato per cercare informazioni su progetti web che hanno subito tale procedura.
I dati sulle risorse web sono spesso costituiti da parole chiave, articoli, collegamenti, documenti. È anche possibile indicizzare audio, immagini e così via. È noto che l'algoritmo di rilevamento delle parole chiave dipende dal motore di ricerca.
Ci sono alcune limitazioni sui tipi di informazioni indicizzate (file flash, javascript).
Gestione dell'iniziazione
L'indicizzazione di un sito è un processo complesso. Per gestirlo (ad esempio per vietare l'allegato di una determinata pagina), è necessario utilizzare il file robots.txt e istruzioni come Consenti, Non consentire, Ritardo scansione, User-agent e altri.
Inoltre, tag e oggetti di scena vengono utilizzati per l'indicizzazione, nascondendo il contenuto della risorsa dai robot di Google e Yandex (Yahoo usa il tag).
Nel motore di ricerca Goglle, i nuovi siti vengono indicizzati da un paio di giorni a una settimana e in Yandex da una a quattro settimane.
Vuoi che il tuo sito appaia nelle query dei risultati dei motori di ricerca? Quindi deve essere elaborato da Rambler, Yandex, Google, Yahoo e così via. Devi informare i motori di ricerca (spider, sistemi) dell'esistenza del tuo sito web, e quindi eseguiranno la scansione per intero o in parte.
Molti siti non vengono indicizzati da anni. Le informazioni su di loro non vengono visualizzate da nessuno tranne che dai loro proprietari.
Metodi di elaborazione
L'indicizzazione di un sito può essere eseguita in diversi modi:
- La prima opzione è l'aggiunta manuale. Devi inserire i dati del tuo sito attraverso appositi moduli offerti dai motori di ricerca.
- Nel secondo caso, lo stesso robot del motore di ricerca trova il tuo sito web tramite link e lo indicizza. Può trovare il tuo sito tramite link da altre risorse che portano al tuo progetto. Questo metodo è il più efficiente. Se un motore di ricerca trova un sito in questo modo, lo considera significativo.
Tempo
L'indicizzazione del sito non è troppo veloce. I termini variano, da 1-2 settimane. Link provenienti da risorse autorevoli (con ottime PR e Titz) velocizzano notevolmente il posizionamento del sito nel database dei motori di ricerca. Oggi Google è considerato il più lento, anche se fino al 2012 poteva fare questo lavoro in una settimana. PerPurtroppo le cose cambiano molto velocemente. È noto che Mail.ru lavora con siti Web in quest'area da circa sei mesi.
L'indicizzazione di un sito nei motori di ricerca non è possibile per ogni specialista. La tempistica di aggiunta di nuove pagine al database di un sito già elaborato dai motori di ricerca è influenzata dalla frequenza di aggiornamento del suo contenuto. Se su una risorsa appaiono costantemente nuove informazioni, il sistema la considera frequentemente aggiornata e utile alle persone. In questo caso, il suo lavoro è accelerato.
Puoi seguire l'andamento dell'indicizzazione di un sito web in apposite sezioni per webmaster o sui motori di ricerca.
Modifiche
Quindi, abbiamo già capito come viene indicizzato il sito. Va notato che i database dei motori di ricerca vengono aggiornati frequentemente. Pertanto, il numero di pagine del tuo progetto aggiunte ad esse può cambiare (sia in diminuzione che in aumento) per i seguenti motivi:
- sanzioni dei motori di ricerca contro il sito web;
- la presenza di errori nel sito;
- cambiare gli algoritmi dei motori di ricerca;
- hosting disgustoso (inaccessibilità del server in cui si trova il progetto) e così via.
Yandex risponde a domande comuni
"Yandex" è un motore di ricerca utilizzato da molti utenti. Si colloca al quinto posto tra i sistemi di ricerca mondiali in termini di numero di richieste di ricerca elaborate. Se hai aggiunto un sito, l'aggiunta al database potrebbe richiedere troppo tempo.
L'aggiunta di un URL non ne garantisce l'indicizzazione. Questo è solo uno dei metodi con cui viene detto al robot di sistemasu una nuova risorsa. Se ci sono pochi o nessun link a un sito da altri siti web, aggiungerlo ti aiuterà a trovarlo più velocemente.
Se l'indicizzazione non si è verificata, è necessario verificare se si sono verificati errori sul server al momento della creazione di un'applicazione dal robot Yandex. Se il server segnala un errore, il robot interromperà il suo lavoro e proverà a completarlo in un ordine di andata e ritorno. I dipendenti Yandex non possono aumentare la velocità di aggiunta di pagine al database del motore di ricerca.
L'indicizzazione di un sito in Yandex è un compito piuttosto difficile. Non sai come aggiungere una risorsa a un motore di ricerca? Se sono presenti collegamenti ad esso da altri siti Web, non è necessario aggiungere un sito speciale: il robot lo troverà automaticamente e lo indicizzerà. Se non disponi di tali collegamenti, puoi utilizzare il modulo "Aggiungi URL" per comunicare al motore di ricerca che il sito esiste.
Tieni presente che l'aggiunta di un URL non garantisce che la tua creazione venga indicizzata (o indicizzata).
Molte persone si chiedono quanto tempo ci vuole per indicizzare un sito in Yandex. I dipendenti di questa azienda non danno garanzie e non prevedono termini. Di norma, da quando il robot è venuto a conoscenza del sito, le sue pagine nella ricerca appaiono in due giorni, a volte in un paio di settimane.
Processo
"Yandex" è un motore di ricerca che richiede accuratezza e attenzione. L'indicizzazione del sito è composta da tre parti:
- Il robot di ricerca esegue la scansione delle pagine delle risorse.
- Contenuto(contenuto) del sito è registrato nel database (indice) del sistema di ricerca.
- In 2-4 settimane, dopo aver aggiornato il database, puoi vedere i risultati. Il tuo sito apparirà (o non apparirà) nei risultati di ricerca.
Controllo di indicizzazione
Come controllare l'indicizzazione del sito web? Ci sono tre modi per farlo:
- Inserisci il nome della tua attività nella barra di ricerca (ad esempio "Yandex") e controlla tutti i link nella prima e nella seconda pagina. Se trovi lì l'URL della tua idea, il robot ha completato il suo compito.
- Puoi inserire l'URL del tuo sito web nella barra di ricerca. Sarai in grado di vedere quanti fogli Internet sono visualizzati, ovvero indicizzati.
- Registrati sulle pagine dei webmaster in Mail.ru, Google, Yandex. Dopo aver superato la verifica del sito, sarai in grado di vedere i risultati dell'indicizzazione e altri servizi dei motori di ricerca creati per migliorare le prestazioni della tua risorsa.
Perché Yandex fallisce?
L'indicizzazione di un sito in Google si effettua nel modo seguente: il robot inserisce nel database tutte le pagine del sito, di bassa qualità e di alta qualità, senza selezionare. Ma solo i documenti utili sono inseriti nella graduatoria. E "Yandex" esclude immediatamente tutto il cestino web. Può indicizzare qualsiasi pagina, ma il motore di ricerca alla fine eliminerà tutta la spazzatura.
Entrambi i sistemi hanno un indice incrementale. Entrambe le pagine di bassa qualità influiscono sul posizionamento del sito web nel suo insieme. C'è una semplice filosofia al lavoro qui. Risorse preferite di un particolarel'utente occuperà posizioni più alte nella sua emissione. Ma questo stesso individuo avrà difficoltà a trovare un sito che non gli sia piaciuto l'ultima volta.
Ecco perché, in primo luogo, è necessario coprire le copie dei documenti Web dall'indicizzazione, verificare la presenza di pagine vuote e impedire che i contenuti di bassa qualità vengano indicizzati.
Accelera Yandex
Come posso velocizzare l'indicizzazione del sito in Yandex? Segui questi passaggi:
- Installa il browser Yandex sul tuo computer e usalo per navigare tra le pagine del sito.
- Conferma i diritti per gestire la risorsa in Yandex. Webmaster.
- Pubblica un link all'articolo su Twitter. È noto che Yandex collabora con questa azienda dal 2012.
- Aggiungi ricerca da Yandex per il sito. Nella sezione "Indicizzazione", puoi inserire i tuoi URL.
- Inserisci il codice "Yandex. Metrica" senza spuntare "L'invio di pagine per l'indicizzazione è vietato".
- Produci una Sitemap che esiste solo per il robot e non è visibile al pubblico. La verifica inizierà con lui. L'indirizzo Sitemap è inserito in robots.txt o nel modulo appropriato in "Webmaster" - "Impostazioni di indicizzazione" - "File Sitemap".
Azioni intermedie
Cosa bisogna fare fino a quando la pagina web non viene indicizzata da Yandex? Il motore di ricerca nazionale dovrebbe considerare il sito come fonte primaria. Ecco perché anche prima della pubblicazione dell'articolo, è imperativo aggiungere il suo contenuto alla forma di "Testi specifici". Altrimentii plagiatori copieranno il record nella loro risorsa e saranno i primi nel database. Di conseguenza, saranno riconosciuti come autori.
Database di Google
Per Google, gli stessi consigli che abbiamo descritto sopra sono adatti, solo i servizi saranno diversi:
- Google+ (in sostituzione di Twitter);
- Google Chrome;
- Strumenti Google per programmatori - "Scansione" - "Assomiglia a Googlebot" - opzione "Scansione" - opzione "Indice";
- cerca all'interno di una risorsa di Google;
- Google Analytics (anziché Yandex. Metrics).
Divieto
Cos'è un divieto di indicizzazione del sito? Puoi sovrapporlo sia sull'intera pagina che su una parte separata di essa (link o testo). In effetti, esiste sia un divieto di indicizzazione globale che locale. Come viene implementato?
Consideriamo il divieto di aggiungere un sito web al database del motore di ricerca in Robots.txt. Utilizzando il file robots.txt, puoi escludere l'indicizzazione di una pagina o di un'intera intestazione di risorsa come questa:
- User-agent:
- Non consentire: /kolobok.html
- Non consentire: /foto/
Il primo punto dice che le istruzioni sono definite per tutti i PS, il secondo indica che l'indicizzazione del file kolobok.html è vietata e il terzo non consente di aggiungere l'intero riempimento della cartella foto alla cartella Banca dati. Se devi escludere più pagine o cartelle, specificale tutte in Robots.
Per impedire l'indicizzazione di un particolare foglio Internet, puoi utilizzare il meta tag robots. È diverso da robots.txtil fatto che dia istruzioni a tutti i PS contemporaneamente. Questo meta tag segue i principi generali del formato html. Dovrebbe essere inserito nel titolo della pagina tra i tag. Una voce per un divieto, ad esempio, potrebbe essere scritta in questo modo:.
Ajax
In che modo Yandex indicizza i siti Ajax? Oggi, la tecnologia Ajax è utilizzata da molti sviluppatori di siti web. Certo, ha un grande potenziale. Con esso, puoi creare pagine web interattive veloci e produttive.
Tuttavia, il robot del motore di ricerca "vede" l'elenco web in modo diverso rispetto all'utente e al browser. Ad esempio, una persona guarda un'interfaccia comoda con fogli Internet caricati in modo mobile. Per un crawler, il contenuto della stessa pagina può essere vuoto o presentato come il resto del contenuto HTML statico, per il quale gli script non funzionano.
Puoi usare un URL conper creare siti Ajax, ma il motore di ricerca non lo usa. Di solito la parte dell'URL dopo ilè separata. Questo deve essere preso in considerazione. Pertanto, invece di un URL come https://site.ru/example, fa un'applicazione alla pagina principale della risorsa situata su https://site.ru. Ciò significa che il contenuto del foglio Internet potrebbe non entrare nel database. Di conseguenza, non apparirà nei risultati della ricerca.
Per migliorare l'indicizzazione dei siti Ajax, Yandex ha supportato le modifiche nel robot di ricerca e le regole per l'elaborazione degli URL di tali siti web. Oggi i webmaster possono indicare al motore di ricerca Yandex la necessità di indicizzazione creando uno schema appropriato nella struttura delle risorse. Per questo è necessario:
- Sostituisci il simbolonell'URL delle paginesul !. Ora il robot capirà che può richiedere la versione HTML del contenuto di questo foglio Internet.
- La versione HTML del contenuto di tale pagina dovrebbe essere inserita in un URL dove ! sostituito con ?_escaped_fragment_=.