Come aggiungere robot txt. Come modificare il file txt di robots

21.03.2022

Sistema

La maggior parte dei robot è ben progettata e non pone problemi ai proprietari dei siti. Ma se il bot è scritto da un dilettante o "qualcosa è andato storto", può creare un carico significativo sul sito che bypassa. A proposito, gli spider non entrano affatto nel server come i virus: richiedono semplicemente le pagine di cui hanno bisogno da remoto (in effetti, questi sono analoghi dei browser, ma senza la funzione di navigazione della pagina).

Robots.txt - direttiva user-agent e bot dei motori di ricerca

Robots.txt ha una sintassi molto semplice, che è descritta in dettaglio, ad esempio, in aiuta yandex e Aiuto di Google. Di solito specifica a quale bot di ricerca sono destinate le seguenti direttive: bot name (" agente utente"), permettendo (" permettere") e vietando (" Non consentire"), e "Mappa del sito" viene anche utilizzato attivamente per indicare ai motori di ricerca esattamente dove si trova il file della mappa.

Lo standard è stato creato molto tempo fa e qualcosa è stato aggiunto in seguito. Ci sono direttive e regole di progettazione che saranno comprese solo dai robot di determinati motori di ricerca. In RuNet interessano solo Yandex e Google, il che significa che è con il loro aiuto nella compilazione di robots.txt che dovresti familiarizzare in dettaglio (ho fornito i collegamenti nel paragrafo precedente).

Ad esempio, in precedenza per il motore di ricerca Yandex era utile indicare che il tuo progetto web è il principale nella speciale direttiva "Host", che solo questo motore di ricerca comprende (beh, anche Mail.ru, perché hanno una ricerca da Yandex). Vero, all'inizio del 2018 Yandex ha ancora cancellato Host e ora le sue funzioni, come quelle di altri motori di ricerca, sono svolte da un reindirizzamento 301.

Anche se la tua risorsa non ha mirror, sarà utile indicare quale delle grafie è quella principale - .

Ora parliamo un po' della sintassi di questo file. Le direttive in robots.txt hanno il seguente aspetto:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Il codice corretto dovrebbe contenere almeno una direttiva "Disallow". dopo ogni voce "User-agent". Un file vuoto presuppone l'autorizzazione per indicizzare l'intero sito.

agente utente

Direttiva "user-agent". deve contenere il nome del bot di ricerca. Con esso, puoi impostare regole di condotta per ogni specifico motore di ricerca (ad esempio, creare un divieto di indicizzazione di una cartella separata solo per Yandex). Un esempio di scrittura di un "User-agent", indirizzato a tutti i bot che arrivano alla tua risorsa, si presenta così:

User-agent: *

Se vuoi impostare determinate condizioni in "User-agent" per un solo bot, ad esempio Yandex, devi scrivere questo:

Agente utente: Yandex

Il nome dei robot dei motori di ricerca e il loro ruolo nel file robots.txt

Bot di ogni motore di ricerca ha il suo nome (ad esempio, per un rambler è StackRambler). Qui elencherò i più famosi di loro:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Per i principali motori di ricerca, a volte ad eccezione dei bot principali, ci sono anche istanze separate per l'indicizzazione di blog, notizie, immagini e altro. Puoi ottenere molte informazioni sui tipi di bot (per Yandex) e (per Google).

Come essere in questo caso? Se devi scrivere una regola di non indicizzazione che tutti i tipi di Googlebot devono seguire, usa il nome Googlebot e anche tutti gli altri spider di questo motore di ricerca obbediranno. Tuttavia, puoi vietare, ad esempio, l'indicizzazione di immagini solo specificando il Googlebot-Image bot come User-agent. Ora non è molto chiaro, ma con gli esempi, penso che sarà più facile.

Esempi di utilizzo delle direttive Disallow e Allow in robots.txt

Lascia che ti dia alcuni semplici esempi di utilizzo di direttive spiegando le sue azioni.

Il codice seguente consente a tutti i bot (indicati da un asterisco nello User-agent) di indicizzare tutti i contenuti senza eccezioni. È dato vuota Direttiva Disallow. User-agent: * Non consentire:
Il codice seguente, al contrario, vieta completamente a tutti i motori di ricerca di aggiungere pagine di questa risorsa all'indice. Imposta questo su Disallow con "/" nel campo del valore. User-agent: * Disallow: /
In questo caso, a tutti i bot sarà vietato visualizzare i contenuti della directory /image/ (http://mysite.ru/image/ è il percorso assoluto di questa directory) User-agent: * Disallow: /image/
Per bloccare un file sarà sufficiente registrarne il percorso assoluto (leggi): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Guardando un po' avanti, dirò che è più facile usare il carattere asterisco (*) per non scrivere il percorso completo:
Non consentire: /*file_privato.html
Nell'esempio seguente, la directory "image" sarà vietata, così come tutti i file e le directory che iniziano con i caratteri "image", ovvero file: "image.htm", "images.htm", directory: "image" , " images1", "image34", ecc.): User-agent: * Disallow: /image Il fatto è che per impostazione predefinita, alla fine della voce è implicito un asterisco, che sostituisce tutti i caratteri, inclusa la loro assenza. Leggi di seguito.
attraverso consentire direttive consentiamo l'accesso. Buon complemento a Disallow. Ad esempio, con questa condizione, vietiamo al robot di ricerca Yandex di scaricare (indicizzare) tutto tranne le pagine Web il cui indirizzo inizia con /cgi-bin: User-agent: Yandex Consenti: /cgi-bin Disallow: /
Bene, o questo è un ovvio esempio di utilizzo del pacchetto Consenti e Non consentire:
User-agent: * Disallow: /catalog Consenti: /catalog/auto
Quando si descrivono i percorsi per le direttive Allow-Disallow, è possibile utilizzare i simboli "*" e "$", impostando così determinate espressioni logiche.
1. Simbolo "*"(stella) indica qualsiasi sequenza di caratteri (anche vuota). L'esempio seguente impedisce a tutti i motori di ricerca di indicizzare i file con estensione ".php": User-agent: * Disallow: *.php$
2. Perché è necessario alla fine Segno di $ (dollaro).? Il fatto è che, secondo la logica di compilazione del file robots.txt, alla fine di ogni direttiva viene aggiunto un asterisco di default (non esiste, ma sembra esserci). Ad esempio scriviamo: Disallow: /images
  Supponendo che sia uguale a:
  Non consentire: /immagini*
  Quelli. questa regola vieta l'indicizzazione di tutti i file (pagine web, immagini e altri tipi di file) il cui indirizzo inizia con /images e quant'altro segue (vedi esempio sopra). Quindi eccolo qui simbolo $ sovrascrive semplicemente l'asterisco predefinito (non specificato) alla fine. Per esempio:
  Non consentire: /images$
  Disabilita solo l'indicizzazione del file /images, non /images.html o /images/primer.html. Ebbene, nel primo esempio, abbiamo proibito di indicizzare solo i file che terminano in .php (con tale estensione), per non prendere nulla in più:
  Non consentire: *.php$

In molti motori, gli utenti (URL leggibili dall'uomo), mentre gli URL generati dal sistema hanno un punto interrogativo "?" nell'indirizzo. Puoi usarlo e scrivere una tale regola in robots.txt: User-agent: * Disallow: /*?

L'asterisco dopo il punto interrogativo si suggerisce, ma, come abbiamo scoperto un po' più in alto, è già sottinteso alla fine. Pertanto, vieteremo l'indicizzazione delle pagine di ricerca e di altre pagine di servizio create dal motore, che il robot di ricerca può raggiungere. Non sarà superfluo, perché il punto interrogativo viene spesso utilizzato da CMS come identificatore di sessione, il che può portare a pagine duplicate che entrano nell'indice.

Direttive Sitemap e Host (per Yandex) in Robots.txt

Al fine di evitare spiacevoli problemi con i mirror dei siti, in precedenza si consigliava di aggiungere la direttiva Host a robots.txt, che indirizzava il bot Yandex al mirror principale.

Direttiva host: specifica il mirror del sito principale per Yandex

Ad esempio, prima, se tu non sono ancora passati a un protocollo sicuro, era necessario indicare nell'Host non l'URL completo, ma il nome del dominio (senza http://, ovvero .ru). Se sei già passato a https, dovrai specificare l'URL completo (come https://myhost.ru).

Uno strumento meraviglioso per combattere i contenuti duplicati: il motore di ricerca semplicemente non indicizzerà la pagina se in Canonical è registrato un URL diverso. Ad esempio, per una tale pagina del mio blog (una pagina con impaginazione), Canonical punta a https: // sito e non dovrebbero esserci problemi con la duplicazione dei titoli.

Ma sto divagando...
Se il tuo progetto si basa su qualsiasi motore, allora si verificheranno contenuti duplicati con un'alta probabilità, il che significa che devi combatterlo, anche con l'aiuto di un ban in robots.txt, e soprattutto nel meta tag, perché nel primo caso Google può ignorare il ban, ma non può più dare un accidenti per il meta tag (sollevato in quel modo).
Ad esempio, in WordPress, le pagine con contenuti molto simili possono essere indicizzate dai motori di ricerca se l'indicizzazione è consentita sia per il contenuto della categoria, il contenuto dell'archivio tag e il contenuto dell'archivio temporaneo. Ma se si utilizza il meta tag Robots sopra descritto per creare un ban per l'archivio dei tag e l'archivio temporaneo (puoi lasciare i tag, ma vietare l'indicizzazione dei contenuti delle categorie), allora non si verificherà la duplicazione dei contenuti. Come farlo è descritto dal collegamento fornito appena sopra (al plug-in OlInSeoPak)
Riassumendo, dirò che il file Robots è progettato per impostare regole globali per negare l'accesso a intere directory del sito o a file e cartelle i cui nomi contengono caratteri specificati (tramite maschera). Puoi vedere esempi di impostazione di tali divieti un po' più alti.
Ora diamo un'occhiata a esempi specifici di robot progettati per diversi motori: Joomla, WordPress e SMF. Naturalmente, tutte e tre le opzioni create per diversi CMS differiranno in modo significativo (se non cardinale) l'una dall'altra. È vero, avranno tutti un momento comune e questo momento è collegato al motore di ricerca Yandex.
Perché Yandex ha un peso abbastanza grande in Runet, quindi devi tenere conto di tutte le sfumature del suo lavoro, e qui abbiamo La direttiva host aiuterà. Indicherà esplicitamente a questo motore di ricerca il mirror principale del tuo sito.
Per lei, si consiglia di utilizzare un blog User-agent separato, destinato solo a Yandex (User-agent: Yandex). Ciò è dovuto al fatto che altri motori di ricerca potrebbero non comprendere Host e, di conseguenza, la sua inclusione nel record User-agent destinato a tutti i motori di ricerca (User-agent: *) può portare a conseguenze negative e ad un'errata indicizzazione.
È difficile dire come stanno realmente le cose, perché gli algoritmi di ricerca sono una cosa in sé, quindi è meglio fare come consigliano. Ma in questo caso, dovrai duplicare nella direttiva User-agent: Yandex tutte le regole che abbiamo impostato User-agent: * . Se lasci User-agent: Yandex con un Disallow: , in questo modo consentirai a Yandex di andare ovunque e trascinare tutto nell'indice.
Robot per WordPress
Non fornirò un esempio di un file consigliato dagli sviluppatori. Puoi guardarlo tu stesso. Molti blogger non limitano affatto i robot Yandex e Google nelle loro passeggiate attraverso il contenuto del motore di WordPress. Molto spesso sui blog puoi trovare robot riempiti automaticamente con un plug-in.
Ma, secondo me, si dovrebbe ancora aiutare la ricerca nel difficile compito di setacciare il grano dalla pula. In primo luogo, i robot Yandex e Google impiegheranno molto tempo per indicizzare questa spazzatura e potrebbe non esserci affatto il tempo di aggiungere pagine Web con i tuoi nuovi articoli all'indice. In secondo luogo, i bot che eseguono la scansione dei file spazzatura del motore creeranno un carico aggiuntivo sul server del tuo host, il che non va bene.
Puoi vedere la mia versione di questo file di persona. È vecchio, non è cambiato da molto tempo, ma io cerco di seguire il principio “non aggiustare ciò che non si è rotto”, e sta a te decidere: usalo, fallo tu o sbircia da qualcun altro . Fino a poco tempo avevo ancora il divieto di indicizzare le pagine con l'impaginazione (Disallow: */page/), ma recentemente l'ho rimosso, basandomi su Canonical, di cui ho scritto sopra.
Ma in generale, l'unico file corretto per WordPress, probabilmente non esiste. È possibile, ovviamente, implementare eventuali prerequisiti in esso, ma chi ha detto che sarebbero corretti. Ci sono molte opzioni per robots.txt ideale sul web.
Darò due estremi:
puoi trovare un megafile con spiegazioni dettagliate (il carattere # separa i commenti che sarebbe meglio rimuovere in un file reale): User-agent: * # regole generali per i robot, ad eccezione di Yandex e Google, # perché le regole per loro sono sotto Disallow: /cgi-bin # cartella di hosting Disallow: /? # tutte le opzioni di query nella pagina principale Non consentire: /wp- # tutti i file WP: /wp-json/, /wp-includes, /wp-content/plugins Non consentire: /wp/ # se è presente una sottodirectory /wp/ dove il CMS è installato (in caso contrario, # regola può essere rimossa) Disallow: *?s= # search Disallow: *&s= # search Disallow: /search/ # search Disallow: /author/ # archivio dell'autore Disallow: /users/ # archivio degli autori Non consentire: */ trackback # trackback, notifiche nei commenti quando viene visualizzato un collegamento di # articolo aperto Non consentire: */feed # tutti i feed Non consentire: */rss # rss feed Non consentire: */embed # tutti gli incorporamenti Non consentire: */wlwmanifest .xml # file manifest xml Windows Live Writer (se non utilizzato, # può essere rimosso) Non consentire: /xmlrpc.php # File API di WordPress Non consentire: *utm= # collegamenti con tag utm Non consentire: *openstat= # collegamenti con tag openstat Consenti : */uploads # cartella aperta con caricamenti di file User-agent: GoogleBot # regole per Google (non duplicare i commenti) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Consenti: */uploads Consenti: /*/*.js # open js scripts inside /wp - (/*/ - per priorità) Consenti: /*/*.css # apre i file CSS all'interno di /wp- (/*/ - per priorità) Consenti: /wp-*.png # immagini nei plugin, nella cartella cache e così via. Consenti: /wp-*.jpg # immagini nei plugin, nella cartella cache, ecc. Consenti: /wp-*.jpeg # immagini nei plugin, nella cartella cache, ecc. Consenti: /wp-*.gif # immagini nei plugin, nella cartella cache, ecc. Consenti: /wp-admin/admin-ajax.php # usato dai plugin per evitare di bloccare JS e CSS User-agent: Yandex # regole per Yandex (non duplicare i commenti) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Consenti: */uploads Consenti: /*/*.js Consenti: /*/*.css Consenti: /wp-*.png Consenti: /wp-*.jpg Consenti: /wp-*.jpeg Consenti: /wp-*.gif Consenti: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex consiglia di non chiudere # dall'indicizzazione, ma di eliminare parametri tag, # Google non supporta tali regole Clean-Param: openstat # similar # Specifica uno o più file Sitemap (non è necessario duplicarli per ogni User-agent #). Google XML Sitemap crea 2 sitemap come nell'esempio seguente. Mappa del sito: http://site.ru/sitemap.xml Mappa del sito: http://site.ru/sitemap.xml.gz # Specificare il mirror principale del sito, come nell'esempio seguente (con WWW / senza WWW, se HTTPS # quindi scrivere il protocollo, se è necessario specificare la porta, specificare). Il comando host comprende # Yandex e Mail.RU, Google non tiene conto. Host: www.site.ru
Ecco un esempio di minimalismo: User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site.ru/ sitemap.xml

La verità probabilmente sta nel mezzo. Inoltre, non dimenticare di registrare il meta tag Robots per le pagine "extra", ad esempio utilizzando il meraviglioso plugin - . Aiuterà anche a creare Canonical.
Robots.txt corretto per Joomla
User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /include/ Disallow: /installazione/ Disallow: /language/ Disallow: /layouts/ Disallow: /librerie/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/
In linea di principio, qui viene preso in considerazione quasi tutto e funziona bene. L'unica cosa è che dovresti aggiungere un User-agent separato: la regola Yandex per inserire la direttiva Host che definisce il mirror principale per Yandex, oltre a specificare il percorso del file Sitemap.
Pertanto, nella forma finale, i robot corretti per Joomla, secondo me, dovrebbero assomigliare a questo:
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /include/ Disallow: /installazione/ Disallow: /language/ Disallow: /librerie/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow : /*% Non consentito: /index.php Host: vash_sait.ru (o www.vash_sait.ru) User-agent: * Consenti: /*.css?*$ Consenti: /*.js?*$ Consenti: /* .jpg?*$ Consenti: /*.png?*$ Non consentire: /amministratore/ Non consentire: /cache/ Non consentire: /include/ Non consentire: /installazione/ Non consentire: /lingua/ Non consentire: /librerie/ Non consentire: /modules/ Non consentire : /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*. pdf Non consentire: /*% Non consentire: /index.php Mappa del sito: http://percorso della mappa formato XML
Sì, nota anche che nella seconda opzione ci sono delle direttive Consenti, consentendo l'indicizzazione di stili, script e immagini. Questo è stato scritto appositamente per Google, perché il suo Googlebot a volte giura che l'indicizzazione di questi file è vietata nei robot, ad esempio dalla cartella con il tema utilizzato. Minaccia persino di abbassare la classifica per questo.
Pertanto, consentiamo che l'intera cosa venga indicizzata in anticipo utilizzando Consenti. A proposito, la stessa cosa è successa nel file di esempio per WordPress.

Buona fortuna a te! A presto sul sito delle pagine del blog
Potresti essere interessato
Domini con e senza www: la cronologia del loro aspetto, utilizzando 301 reindirizzamenti per incollarli insieme
Mirror, pagine duplicate e indirizzi URL: un controllo del tuo sito o quale potrebbe essere la causa del crash durante la sua promozione SEO SEO per principianti: 10 elementi essenziali per un audit tecnico del sito web
Bing webmaster - centro per i webmaster dal motore di ricerca Bing
Google Webmaster - Strumenti di Search Console (Google Webmaster)
Come evitare errori comuni nella promozione di un sito web
Come promuovere tu stesso il tuo sito migliorando l'ottimizzazione interna delle parole chiave e rimuovendo i contenuti duplicati
Yandex Webmaster: indicizzazione, collegamenti, visibilità del sito, selezione della regione, paternità e controllo dei virus in Yandex Webmaster

Il file robots.txt è uno dei più importanti durante l'ottimizzazione di qualsiasi sito. La sua assenza può comportare un carico elevato sul sito da parte dei robot di ricerca e rallentare l'indicizzazione e la reindicizzazione, e un'impostazione errata può portare il sito a scomparire completamente dalla ricerca o semplicemente a non essere indicizzato. Pertanto, non verrà cercato in Yandex, Google e altri motori di ricerca. Diamo un'occhiata a tutte le sfumature della corretta configurazione di robots.txt.

Innanzitutto, un breve video che ti darà un'idea generale di cosa sia un file robots.txt.

In che modo robots.txt influisce sull'indicizzazione del sito

I robot di ricerca indicizzeranno il tuo sito indipendentemente dalla presenza di un file robots.txt. Se esiste un tale file, i robot possono essere guidati dalle regole scritte in questo file. Allo stesso tempo, alcuni robot potrebbero ignorare determinate regole o alcune regole potrebbero essere specifiche solo per alcuni robot. In particolare, GoogleBot non utilizza le direttive Host e Crawl-Delay, YandexNews ha recentemente iniziato a ignorare la direttiva Crawl-Delay e YandexDirect e YandexVideoParser ignorano le direttive robot più generali (ma sono guidate da quelle specificate per loro).

Maggiori informazioni sulle eccezioni:
Yandex eccezioni
Standard di eccezione robot (Wikipedia)

Il carico massimo sul sito è creato dai robot che scaricano i contenuti dal tuo sito. Pertanto, specificando cosa indicizzare e cosa ignorare, nonché a quali intervalli di tempo scaricare, è possibile, da un lato, ridurre notevolmente il carico sul sito da parte dei robot, e dall'altro, velocizzare il download processo vietando di ignorare le pagine non necessarie.

Tali pagine non necessarie includono ajax, script json responsabili di moduli pop-up, banner, output captcha, ecc., moduli d'ordine e un carrello della spesa con tutti i passaggi per effettuare un acquisto, funzionalità di ricerca, account personale, pannello di amministrazione.

Per la maggior parte dei robot, è anche desiderabile disabilitare l'indicizzazione di tutti i JS e CSS. Ma per GoogleBot e Yandex, tali file devono essere lasciati per l'indicizzazione, poiché vengono utilizzati dai motori di ricerca per analizzare la comodità del sito e il suo posizionamento (prova di Google, prova di Yandex).

direttive robots.txt

Le direttive sono regole per i robot. Esiste una specifica W3C dal 30 gennaio 1994 e uno standard esteso dal 1996. Tuttavia, non tutti i motori di ricerca e i robot supportano determinate direttive. A questo proposito ci sarà più utile conoscere non lo standard, ma come i robot principali sono guidati da determinate direttive.

Diamo un'occhiata in ordine.

agente utente

Questa è la direttiva più importante che determina per quali robot seguono le regole.

Per tutti i robot:
User-agent: *

Per un bot specifico:
User agent: GoogleBot

Tieni presente che robots.txt non fa distinzione tra maiuscole e minuscole. Quelli. L'agente utente per Google può anche essere scritto in questo modo:
agente utente: googlebot

Di seguito una tabella dei principali user agent dei vari motori di ricerca.

Bot	Funzione
Google
Googlebot	Il principale robot di indicizzazione di Google
Notizie di Googlebot	Google News
Immagine di Googlebot	Google Immagini
Video di Googlebot	video
Mediapartner-Google
partner mediatici	Google Adsense, Google Mobile Adsense
AdsBot-Google	controllo della qualità della pagina di destinazione
AdsBot-Google-App per dispositivi mobili	Google Robot per le app
Yandex
YandexBot	Il principale robot di indicizzazione di Yandex
Yandex Immagini	Yandex.Images
Yandex Video	Yandex.Video
Yandex Media	dati multimediali
YandexBlog	robot di ricerca blog
Yandex Addurl	robot che accede alla pagina quando viene aggiunta tramite il modulo "Aggiungi URL".
Yandex Favicon	robot che indicizza le icone del sito (favicon)
Yandex Direct	Yandex.Direct
Yandex Metrika	Yandex.Metrica
Catalogo Yandex	Yandex.Catalogo
Yandex News	Yandex.Notizie
Yandex ImageResizer	robot per servizi mobili
bing
bingo	il principale robot di indicizzazione Bing
Yahoo!
Sorso	principale robot di indicizzazione Yahoo!
Mail.Ru
Mail.Ru	robot di indicizzazione principale Mail.Ru
Rambler
StackRambler	Precedentemente il principale robot di indicizzazione Rambler. Tuttavia, a partire dal 23 giugno 2011, Rambler cessa di supportare il proprio motore di ricerca e ora utilizza la tecnologia Yandex sui suoi servizi. Non più rilevante.

Non consentire e consentire

Disallow chiude le pagine e le sezioni del sito dall'indicizzazione.
Consenti apre forzatamente pagine e sezioni del sito per l'indicizzazione.

Ma qui non è tutto così semplice.

Innanzitutto, devi conoscere operatori aggiuntivi e capire come vengono utilizzati: questi sono *, $ e #.

* è un numero qualsiasi di caratteri, inclusa la loro assenza. Allo stesso tempo, non puoi mettere un asterisco alla fine della riga, resta inteso che è lì per impostazione predefinita.
$ - indica che il carattere prima di esso deve essere l'ultimo.
# - commento, tutto ciò che segue questo carattere nella riga non viene preso in considerazione dal robot.

Esempi di utilizzo:

Non consentire: *?s=
Non consentire: /categoria/$

In secondo luogo, è necessario comprendere come vengono eseguite le regole nidificate.
Ricorda che l'ordine in cui sono scritte le direttive non è importante. L'ereditarietà della regola di cosa aprire o chiudere dall'indicizzazione è determinata dalle directory specificate. Facciamo un esempio.

Consenti: *.css
Non consentire: /modello/

http://site.ru/template/ - chiuso dall'indicizzazione
http://site.ru/template/style.css - chiuso dall'indicizzazione
http://site.ru/style.css - aperto per l'indicizzazione
http://site.ru/theme/style.css - aperto per l'indicizzazione

Se desideri che tutti i file .css siano aperti per l'indicizzazione, dovrai registrarlo in aggiunta per ciascuna delle cartelle chiuse. Nel nostro caso:

Consenti: *.css
Consenti: /template/*.css
Non consentire: /modello/

Anche in questo caso, l'ordine delle direttive non è importante.

Mappa del sito

Direttiva per specificare il percorso del file XML Sitemap. L'URL viene scritto allo stesso modo della barra degli indirizzi.

Per esempio,

Mappa del sito: http://site.ru/sitemap.xml

La direttiva Sitemap è specificata ovunque nel file robots.txt senza essere legata a uno specifico user-agent. Puoi specificare più regole della mappa del sito.

Ospite

Direttiva per specificare il mirror principale del sito (nella maggior parte dei casi: con www o senza www). Si noti che il mirror principale è indicato SENZA http://, ma CON https://. Inoltre, se necessario, viene specificata la porta.
La direttiva è supportata solo dai bot Yandex e Mail.Ru. Altri robot, in particolare GoogleBot, non terranno conto del comando. L'host è registrato una sola volta!

Esempio 1:
Host: site.ru

Esempio 2:
Host: https://site.ru

Ritardo di scansione

Direttiva per impostare l'intervallo di tempo tra i download delle pagine del sito da parte del robot. Supportato dai robot Yandex, Mail.Ru, Bing, Yahoo. Il valore può essere impostato in unità intere o frazionarie (separatore - punto), tempo in secondi.

Esempio 1:
Ritardo di scansione: 3

Esempio 2:
Ritardo scansione: 0,5

Se il sito ha un piccolo carico, non è necessario impostare tale regola. Tuttavia, se l'indicizzazione delle pagine da parte di un robot porta al fatto che il sito supera i limiti o subisce carichi significativi, fino a interruzioni del server, allora questa direttiva aiuterà a ridurre il carico.

Maggiore è il valore, meno pagine il robot scaricherà in una sessione. Il valore ottimale è determinato individualmente per ogni sito. È meglio iniziare con valori non molto grandi - 0,1, 0,2, 0,5 - e aumentarli gradualmente. Per i robot dei motori di ricerca meno importanti per i risultati delle promozioni, come Mail.Ru, Bing e Yahoo, puoi inizialmente impostare valori più alti rispetto ai robot Yandex.

Pulisci param

Questa regola indica al crawler che gli URL con i parametri specificati non devono essere indicizzati. Alla regola vengono forniti due argomenti: un parametro e un URL di sezione. La direttiva è supportata da Yandex.

Clean-param: author_id http://site.ru/articles/

Clean-param: author_id&sid http://site.ru/articles/

Clean-Param: utm_source&utm_medium&utm_campaign

Altre opzioni

Nella specifica estesa robots.txt, puoi anche trovare i parametri Request-rate e Visit-time. Tuttavia, attualmente non sono supportati dai principali motori di ricerca.

Significato delle direttive:
Tasso di richiesta: 1/5 - carica non più di una pagina in cinque secondi
Orario di visita: 0600-0845 - Carica le pagine solo tra le 6:00 e le 8:45 GMT.

Chiusura di robots.txt

Se devi configurare il tuo sito in modo che NON venga indicizzato dai robot di ricerca, devi scrivere le seguenti direttive:

User-agent: *
non consentire: /

Assicurati che queste direttive siano scritte sui siti di test del tuo sito.

Impostazione corretta di robots.txt

Per la Russia e i paesi della CSI, dove la quota di Yandex è tangibile, le direttive dovrebbero essere scritte per tutti i robot e separatamente per Yandex e Google.

Per configurare correttamente robots.txt, utilizza il seguente algoritmo:

Chiudi il pannello di amministrazione del sito dall'indicizzazione
Chiusura account personale, autorizzazione, registrazione da indicizzazione
Chiudi carrello, moduli d'ordine, spedizione e dati dell'ordine dall'indicizzazione
Chiudi da indicizzazione ajax, script json
Chiudi la cartella cgi dall'indicizzazione
Chiudi plugin, temi, js, css dall'indicizzazione per tutti i robot tranne Yandex e Google
Chiudi la funzionalità di ricerca dall'indicizzazione
Chiudere dall'indicizzazione le sezioni di servizio che non portano alcun valore per il sito in ricerca (errore 404, elenco autori)
Chiudere i duplicati tecnici delle pagine dall'indicizzazione, nonché le pagine in cui tutto il contenuto è duplicato in una forma o nell'altra da altre pagine (calendari, archivi, RSS)
Chiudi dalle pagine di indicizzazione con filtri, ordina, confronta opzioni
Interrompi l'indicizzazione delle pagine con tag UTM e parametri di sessione
Controlla cosa è indicizzato da Yandex e Google utilizzando il parametro "site:" (digita "site:site.ru" nella barra di ricerca). Se ci sono pagine nella ricerca che devono anche essere chiuse dall'indicizzazione, aggiungile a robots.txt
Specifica la mappa del sito e l'host
Se necessario, scrivi Crawl-Delay e Clean-Param
Verifica la correttezza di robots.txt utilizzando gli strumenti di Google e Yandex (descritti di seguito)
Dopo 2 settimane, controlla di nuovo se ci sono nuove pagine nella SERP che non devono essere indicizzate. Se necessario, ripetere i passaggi precedenti.

esempio robots.txt

# Un esempio di file robots.txt per la creazione di un sito ipotetico https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: * /?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow : */?s = Non consentire: *sort= Non consentire: *view= Non consentire: *utm= Consenti: /plugins/*.css Consenti: /plugins/*.js Consenti: /plugins/*.png Consenti: /plugins/ *.jpg Consenti: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Consenti: /plugins/*.css Consenti: /plugins/*.js Consenti: /plugins/*.png Consenti: /plugins/*.jpg Consenti: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl- Ritardo: 0.5 Mappa del sito: https://site.ru/sitemap.xml Host: https://site.ru

Come aggiungere e dove si trova robots.txt

Dopo aver creato il file robots.txt, deve essere inserito nel tuo sito all'indirizzo site.ru/robots.txt, ad es. nella directory principale. Il crawler accede sempre al file all'URL /robots.txt

Come controllare robots.txt

Il controllo di robots.txt viene effettuato ai seguenti link:

In Yandex.Webmaster: nella scheda Analisi Strumenti>Robots.txt
IN Console di ricerca di Google- nella scheda Scansione > strumento di ispezione del file robots.txt

Errori comuni in robots.txt

Alla fine dell'articolo, fornirò alcuni errori tipici del file robots.txt.

robots.txt è mancante
in robots.txt il sito è chiuso dall'indicizzazione (Disallow: /)
il file contiene solo le direttive più elementari, non c'è uno studio dettagliato del file
le pagine con tag UTM e ID di sessione non vengono bloccate dall'indicizzazione nel file
il file contiene solo direttive
Consenti: *.css
Consenti: *.js
Consenti: *.png
Consenti: *.jpg
Consenti: *.gif
mentre i file css, js, png, jpg, gif sono chiusi da altre direttive in un certo numero di directory
La direttiva host viene scritta più volte
L'host non specifica il protocollo https
il percorso della Sitemap non è corretto oppure è stato specificato il protocollo o il mirror del sito errato

PS

PS2

Video utile di Yandex (Attenzione! Alcuni consigli sono adatti solo per Yandex).

) possiamo passare alla parte pratica, o meglio, alla preparazione del sito per la promozione. Oggi analizzeremo la domanda: come creare robots.txt?

robots.txt è un file che contiene i parametri di indicizzazione per i motori di ricerca.

La creazione di questo file è uno dei primi passi per la promozione SEO. Ed ecco perché.

A cosa serve robots.txt?

Dopo aver aggiunto il tuo sito a Yandex e Google (non l'abbiamo ancora esaminato), PS inizierà a indicizzare tutto, assolutamente tutto ciò che è nella tua cartella con il sito sul server. Questo non è molto buono in termini di promozione, perché la cartella contiene un sacco di "spazzatura" che non è necessaria per il PS, che influirà negativamente sulle posizioni nei risultati di ricerca.

È il file robots.txt che impedisce l'indicizzazione di documenti, cartelle e pagine non necessarie. Tra l'altro, qui sono indicati il percorso alla mappa del sito (l'argomento della prossima lezione) e l'indirizzo principale, un po' di più.

Non parlerò molto della mappa del sito, dirò solo una cosa: la mappa del sito migliora l'indicizzazione del sito. Ma vale la pena parlare dell'indirizzo principale in modo più dettagliato. Il fatto è che ogni sito ha inizialmente diversi mirror (copie del sito) e sono disponibili a indirizzi diversi:

www.sito
sito web
sito web/
www.sito/

Con tutti questi mirror, il sito diventa non unico. Naturalmente, a PS non piacciono i contenuti non unici, che impediscono a tali siti di aumentare nei risultati di ricerca.

Come compilare il file robots.txt?

Qualsiasi file progettato per funzionare con vari servizi esterni, nel nostro caso i motori di ricerca, deve avere regole di riempimento (sintassi). Ecco le regole per i robot:

Il nome del file robots.txt deve iniziare con una lettera minuscola. Non è necessario nominarlo né Robots.txt né ROBOTS.TXT. Destra: robots.txt;
Formato testo Unix. Il formato è tipico del normale blocco note in Windows, quindi creare robots.txt è abbastanza semplice;

operatori di robot

E ora parliamo, infatti, degli stessi operatori di robot. Sono circa 6 in totale, secondo me, ma ne servono solo 4:

agente utente. Questo operatore viene utilizzato per specificare il motore di ricerca a cui sono indirizzate le regole di indicizzazione. Con esso, puoi specificare regole diverse per PS diversi. Esempio di riempimento: User-agent: Yandex;
Non consentire. Un operatore che vieta l'indicizzazione di una particolare cartella, pagina, file. Esempio di riempimento: Disallow: /page.html;
Ospite. Questo operatore indica l'indirizzo principale (dominio) del sito. Esempio di riempimento: Host: sito;
Mappa del sito. Punta all'indirizzo della mappa del sito. Esempio di riempimento: Sitemap: site/sitemap.xml;

Pertanto, ho proibito a Yandex di indicizzare la pagina "pagina .. Ora il robot di ricerca Yandex terrà conto di queste regole e la pagina "page.html" non sarà mai nell'indice.

agente utente

Come accennato in precedenza, lo User-agent specifica il motore di ricerca a cui verranno utilizzate le regole di indicizzazione. Ecco un piccolo tavolo:

Sistema di ricerca	Parametro agente utente
Yandex	Yandex
Google	Google
Mail.ru	Mail.ru
Rambler	StackRambler

Se vuoi che le regole di indicizzazione si applichino a tutti i PS, devi inserire la seguente voce:

User-agent: *

Cioè, usa, come parametro, un normale asterisco.

Non consentire

Questo operatore è un po' più complicato, quindi devi stare attento a compilarlo. Viene scritto dopo l'operatore "User-agent". Qualsiasi errore può portare a conseguenze molto disastrose.

Cosa vietiamo?	Parametro	Esempio
Indicizzazione del sito	/	non consentire: /
File nella directory principale	/Nome del file	Non consentire: /page.html
File a un indirizzo specifico	/percorso/nome file	Non consentire: /dir/page.html
Indicizzazione delle cartelle	/nome della cartella/	Non consentire: /cartella/
Indicizzazione di una cartella a un indirizzo specifico	/percorso/nome cartella/	Non consentire: /dir/cartella/
Documenti che iniziano con un set di caratteri specifico	/simboli	/simboli
Documenti che iniziano con un insieme specifico di caratteri in un indirizzo	/percorso/simboli	/dir/simboli

Ancora una volta dico: state estremamente attenti quando lavorate con questo operatore. Succede anche che, per puro caso, una persona vieti l'indicizzazione del suo sito, e poi si stupisca che non sia nella ricerca.

Non ha senso parlare di altri operatori. Quanto scritto sopra è sufficiente.

Ti piacerebbe avere un esempio robots.txt? Presa:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Non consentire: */trackback Non consentire: */*/trackback Non consentire: */*/feed/*/ Non consentire: */feed Non consentire: /tag Host: site.ru Sitemap:site.ru/sitemap.xml

A proposito, questo esempio può essere utilizzato, come un vero file robots.txt, da persone i cui siti sono alimentati da WordPress. Bene, quelli che hanno siti ordinari, si scrivano, ah ah ah. Purtroppo non ce n'è uno per tutti, ognuno ha il suo. Ma con le informazioni che ti ho fornito, creare un robots.txt non dovrebbe essere troppo difficile.

Arrivederci amici!

Articolo precedente
Articolo successivo

Ciò richiede istruzioni per funzionare, i motori di ricerca non fanno eccezione alla regola, motivo per cui hanno creato un file speciale chiamato robots.txt. Questo file deve essere nella cartella principale del tuo sito, oppure può essere virtuale, ma deve essere aperto su richiesta: www.tuosito.ru/robots.txt

I motori di ricerca hanno imparato da tempo a distinguere i file html necessari dai set interni di script del tuo sistema CMS, o meglio, hanno imparato a riconoscere i collegamenti ad articoli di contenuto e ogni tipo di spazzatura. Pertanto, molti webmaster dimenticano già di creare robot per i loro siti e pensano che comunque andrà tutto bene. Sì, hanno ragione al 99%, perché se il tuo sito non ha questo file, i motori di ricerca sono illimitati nella ricerca di contenuti, ma ci sono sfumature che possono essere risolte in anticipo.

Se hai problemi con questo file sul sito, scrivi commenti a questo articolo e ti aiuterò rapidamente con questo, in modo assolutamente gratuito. Molto spesso, i webmaster commettono piccoli errori, il che porta il sito a una scarsa indicizzazione o addirittura all'esclusione dall'indice.

A cosa serve robots.txt?

Il file robots.txt viene creato per impostare la corretta indicizzazione del sito da parte dei motori di ricerca. Cioè, contiene regole per consentire e negare determinati percorsi del tuo sito o tipo di contenuto. Ma questa non è una panacea. Qualunque cosa le regole nel file robots non sono linee guida seguili esattamente, ma solo una raccomandazione per i motori di ricerca. Google scrive ad esempio:

Non puoi utilizzare un file robots.txt per nascondere una pagina dai risultati della Ricerca Google. Altre pagine potrebbero collegarsi ad esso e sarà comunque indicizzato.

I robot di ricerca stessi decidono cosa indicizzare e cosa no e come comportarsi sul sito. Ogni motore di ricerca ha i propri compiti e funzioni. Per quanto vorremmo, questo è un modo per non domarli.

Ma c'è un trucco che non riguarda direttamente l'argomento di questo articolo. Per impedire completamente ai robot di indicizzare e mostrare una pagina nei risultati di ricerca, è necessario scrivere:

Torniamo ai robot. Le regole in questo file possono chiudere o consentire l'accesso ai seguenti tipi di file:

File non grafici. Fondamentalmente, questi sono file html che contengono alcune informazioni. Puoi chiudere le pagine duplicate o le pagine che non forniscono informazioni utili (pagine di impaginazione, pagine di calendario, pagine di archivio, pagine di profilo, ecc.).
File grafici. Se desideri che le immagini del sito non vengano visualizzate nelle ricerche, puoi impostarlo nei robot.
File di risorse. Inoltre, con l'aiuto dei robot, puoi bloccare l'indicizzazione di vari script, file di stile CSS e altre risorse non importanti. Ma non dovresti bloccare le risorse che sono responsabili della parte visiva del sito per i visitatori (ad esempio, se chiudi i css e js del sito che mostrano bellissimi blocchi o tabelle, il robot di ricerca non lo vedrà e giurerà su esso).

Per mostrare visivamente come funzionano i robot, guarda l'immagine qui sotto:

Il robot di ricerca, seguendo il sito, esamina le regole di indicizzazione, quindi avvia l'indicizzazione in base alle raccomandazioni del file.
A seconda delle impostazioni della regola, il motore di ricerca sa cosa può essere indicizzato e cosa non può essere indicizzato.

Con la sintassi del file robots.txt

Per scrivere le regole per i motori di ricerca nel file robots, vengono utilizzate direttive con vari parametri, con l'aiuto delle quali seguono i robot. Cominciamo con la primissima e probabilmente la più importante direttiva:

Direttiva user-agent

agente utente- Con questa direttiva, specifichi il nome del robot che dovrebbe utilizzare le raccomandazioni nel file. Questi robot sono ufficialmente nel mondo di Internet - 302 pezzi. Certo, puoi scrivere le regole per tutti separatamente, ma se non hai tempo per questo, scrivi semplicemente:

User-agent: *

* - in questo esempio significa "Tutto". Quelli. il tuo file robots.txt dovrebbe iniziare con "per chi è esattamente" il file. Per non perdere tempo con tutti i nomi dei robot, scrivi un asterisco nella direttiva user-agent.

Ti fornirò elenchi dettagliati di robot dei motori di ricerca popolari:

Google- Googlebot- robot principale

Altri robot di Google

Notizie di Googlebot- robot di ricerca di notizie
Immagine di Googlebot- immagini di robot
Video di Googlebot- video del robot
Googlebot mobile- versione robot mobile
AdsBot-Google- Robot per il controllo della qualità della pagina di destinazione
Mediapartner-Google- robot adsense

Yandex - YandexBot- il robot di indexaggio principale;

Altri robot Yandex

Direttive Vieta e Consenti

Non consentire- la regola più basilare nei robot, è con l'aiuto di questa direttiva che vieti l'indicizzazione di determinati luoghi del tuo sito. La direttiva è scritta così:

Non consentire:

Molto spesso puoi vedere la direttiva Disallow: vuota, cioè presumibilmente dicendo al robot che nulla è proibito sul sito, indicizza quello che vuoi. Stai attento! Se metti / in non consentire, chiuderai completamente il sito per l'indicizzazione.

Pertanto, la versione più standard di robots.txt, che "consente l'indicizzazione dell'intero sito per tutti i motori di ricerca" si presenta così:

Agente utente: * Non consentire:

Se non sai cosa scrivere in robots.txt, ma ne hai sentito parlare da qualche parte, copia il codice sopra, salvalo in un file chiamato robots.txt e caricalo nella radice del tuo sito. Oppure non creare nulla, perché anche senza di esso, i robot indicizzeranno tutto sul tuo sito. Oppure leggi l'articolo fino alla fine e capirai cosa chiudere sul sito e cosa no.

Secondo le regole dei robot, deve essere richiesta la direttiva disallow.

Con questa direttiva, puoi disabilitare sia una cartella che un file separato.

Se lo desidera cartella nega dovresti scrivere:

Non consentire: /cartella/

Se lo desidera disabilitare un file specifico:

Non consentire: /images/img.jpg

Se lo desidera non consentire determinati tipi di file:

Non consentire: /*.png$

Le espressioni regolari non sono supportate da molti motori di ricerca. Google supporta.

permettere— direttiva permissiva in Robots.txt. Consente al robot di indicizzare un percorso o un file specifico nella directory di negazione. Fino a poco tempo, veniva utilizzato solo da Yandex. Google ha raggiunto questo e ha iniziato a usarlo anche lui. Per esempio:

Consenti: /content Non consenti: /

queste direttive vietano l'indicizzazione di tutto il contenuto del sito, ad eccezione della cartella del contenuto. Oppure ecco alcune direttive più popolari ultimamente:

Consenti: /themplate/*.js Consenti: /themplate/*.css Non consenti: /themplate

questi valori consentire l'indicizzazione di tutti i file CSS e JS sul sito, ma impedisce che tutto ciò che si trova nella cartella del modello venga indicizzato. Nell'ultimo anno, Google ha inviato molte lettere ai webmaster con i seguenti contenuti:

Googlebot non può accedere ai file CSS e JS sul sito web

E il relativo commento: Abbiamo rilevato un problema sul tuo sito che potrebbe impedirne la scansione. Googlebot non è in grado di elaborare il codice JavaScript e/o i file CSS a causa delle restrizioni nel file robots.txt. Questi dati sono necessari per valutare le prestazioni del sito. Pertanto, se l'accesso alle risorse è bloccato, ciò potrebbe peggiorare la posizione del tuo sito nella Ricerca.

Se aggiungi le due direttive di autorizzazione scritte nell'ultimo codice al tuo Robots.txt, non vedrai tali messaggi da Google.

E usando caratteri speciali in robots.txt

Ora sui segni nelle direttive. Segni di base (caratteri speciali) per vietare o consentire questo /, *, $

Informazioni sulle barre (barra in avanti) "/"

La barra è molto ingannevole in robots.txt. Ho osservato una situazione interessante diverse dozzine di volte quando, per ignoranza, hanno aggiunto a robots.txt:

User-Agente: * Non consentire: /

Perché hanno letto da qualche parte sulla struttura del sito e l'hanno copiata su se stessi sul sito. Ma in questo caso tu disabilitare l'indicizzazione dell'intero sito. Per vietare l'indicizzazione della directory, con tutti gli interni, devi assolutamente mettere / alla fine. Ad esempio, se scrivi Disallow: /seo, allora tutti i link del tuo sito che contengono la parola seo non verranno indicizzati. Anche se sarà la cartella /seo/, anche se sarà la categoria /seo-tool/, anche se sarà l'articolo /seo-best-of-the-best-soft.html, tutto questo non sarà essere indicizzato.

Guarda attentamente tutto / nel tuo robots.txt

Metti sempre / alla fine delle directory. Se imposti / su Disallow, impedirai l'indicizzazione dell'intero sito, ma se non imposti / su Consenti, disabiliterai anche l'indicizzazione dell'intero sito. / - in un certo senso significa "Tutto ciò che segue la direttiva /".

Informazioni sugli asterischi * in robots.txt

Il carattere speciale * indica qualsiasi sequenza di caratteri (anche vuota). Puoi usarlo ovunque in robot come questo:

User-agent: * Disallow: /papka/*.aspx Disallow: /*old

Vieta tutti i file con estensione aspx nella directory papka, vieta anche non solo la cartella /old, ma anche la direttiva /papka/old. Scaltro? Quindi non ti consiglio di giocare con il simbolo * nei tuoi robot.

Per impostazione predefinita in file delle regole di indicizzazione e divieto robots.txt è * su tutte le direttive!

Informazioni sul carattere speciale $

Il carattere speciale $ nei robot termina il carattere speciale *. Per esempio:

Non consentire: /menu$

Questa regola vieta '/menu' ma non '/menu.html', ad es. il file non consente i motori di ricerca solo con la direttiva /menu e non può impedire tutti i file con la parola menu nell'URL.

direttiva ospite

La regola dell'host funziona solo in Yandex, quindi è facoltativo, determina il dominio principale dai mirror del tuo sito, se presente. Ad esempio, hai un dominio dom.com, ma vengono acquistati e configurati anche i seguenti domini: dom2.com, dom3,com, dom4.com e da questi c'è un reindirizzamento al dominio principale dom.com

Affinché Yandex possa determinare rapidamente quale di essi è il sito principale (host), aggiungi la directory host al tuo robots.txt:

ospite: sito web

Se il tuo sito non ha mirror, non puoi prescrivere questa regola. Ma prima controlla il tuo sito in base all'indirizzo IP, è possibile che la tua pagina principale si apra su di esso e dovresti registrare il mirror principale. O forse qualcuno ha copiato tutte le informazioni dal tuo sito e ne ha fatto una copia esatta, la voce in robots.txt, se è stata anche rubata, ti aiuterà in questo.

La voce host deve essere una e, se necessario, con una porta prescritta. (Ospite: sito:8080)

Direttiva sul ritardo di scansione

Questa direttiva è stata creata per eliminare la possibilità di caricare il tuo server. I robot di ricerca possono inviare centinaia di richieste al tuo sito contemporaneamente e, se il tuo server è debole, può causare piccoli problemi. Per evitare che ciò accada, abbiamo escogitato una regola per i robot Crawl-Delay: questo è il periodo minimo tra i caricamenti delle pagine sul tuo sito. Si consiglia di impostare il valore predefinito per questa direttiva su 2 secondi. In Robots appare così:

Ritardo di scansione: 2

Questa direttiva funziona per Yandex. In Google, puoi impostare la velocità di scansione nel pannello del webmaster, nella sezione Impostazioni sito, nell'angolo in alto a destra con un "ingranaggio".

Direttiva Clean-param

Questo parametro è anche solo per Yandex. Se gli indirizzi delle pagine del sito contengono parametri dinamici che non influiscono sul loro contenuto (ad esempio: ID sessione, ID utente, ID referrer, ecc.), puoi descriverli utilizzando la direttiva Clean-param.

Il robot Yandex, utilizzando queste informazioni, non ricaricherà ripetutamente le informazioni duplicate. Pertanto, l'efficienza della scansione del tuo sito aumenterà e il carico sul server diminuirà.
Ad esempio, il sito ha pagine:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123

Parametro rif viene utilizzato solo per tracciare da quale risorsa è stata effettuata la richiesta e non cambia il contenuto, la stessa pagina con il libro book_id=123 verrà mostrata a tutti e tre gli indirizzi. Quindi se specifichi la direttiva in questo modo:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

il robot Yandex ridurrà tutti gli indirizzi delle pagine a uno:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
Se sul sito è disponibile una pagina senza parametri:
www.site.com/some_dir/get_book.pl?book_id=123
quindi tutto dipenderà da esso quando verrà indicizzato dal robot. Altre pagine del tuo sito verranno scansionate più spesso poiché non è necessario aggiornare le pagine:
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

#per indirizzi come: www.site1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt conterrà: User-agent: Yandex Disallow: Clean-param: s /forum/showthread.php

Direttiva sulla mappa del sito

Con questa direttiva, specifichi semplicemente la posizione del tuo sitemap.xml. Il robot lo ricorda, "grazie", e lo analizza costantemente lungo il percorso indicato. Si presenta così:

Mappa del sito: http://site/sitemap.xml

E ora diamo un'occhiata alle domande generali che sorgono durante la compilazione di un robot. Ci sono molti di questi argomenti su Internet, quindi analizzeremo i più rilevanti e più frequenti.

Corretto robots.txt

C'è molto "corretto" in questa parola, perché per un sito su un CMS sarà corretto e su un altro CMS darà errori. "Configurazione corretta" per ogni sito è individuale. In Robots.txt, devi chiudere dall'indicizzare quelle sezioni e quei file che non sono necessari agli utenti e non hanno alcun valore per i motori di ricerca. La versione più semplice e corretta di robots.txt

User-Agent: * Disallow: Sitemap: http://site/sitemap.xml User-agent: Yandex Disallow: Host: site.com

Questo file contiene le seguenti regole: impostazioni per regole di divieto per tutti i motori di ricerca (User-Agent: *), l'indicizzazione dell'intero sito è completamente consentita ("Disallow:" oppure puoi specificare "Consenti: /"), l'host di viene specificato il mirror principale per Yandex (Host: site.ncom) e la posizione del tuo Sitemap.xml (Sitemap: .

Robots.txt per WordPress

Ancora una volta, ci sono molte domande, un sito può essere negozi online, un altro blog, il terzo è una pagina di destinazione, il quarto è un sito di biglietti da visita dell'azienda e tutto questo può essere sul CMS di WordPress e sulle regole per i robot saranno completamente diversi. Ecco il mio robots.txt per questo blog:

User-Agent: * Consenti: /wp-content/uploads/ Consenti: /wp-content/*.js$ Consenti: /wp-content/*.css$ Consenti: /wp-includes/*.js$ Consenti: / wp-includes/*.css$ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /category Disallow: /Archive Disallow: */trackback/ Disallow: */feed/ Disallow: /?feed= Disallow: /job Disallow: /?.net/sitemap.xml

Ci sono molte impostazioni qui, analizziamole insieme.

Consenti in WordPress. Le prime regole di autorizzazione riguardano il contenuto di cui gli utenti hanno bisogno (queste sono le immagini nella cartella dei caricamenti) e i robot (questi sono CSS e JS per la visualizzazione delle pagine). Google spesso giura su css e js, quindi li abbiamo lasciati aperti. Era possibile utilizzare il metodo di tutti i file semplicemente inserendo "/ * .css $", ma la riga di divieto di queste cartelle dove si trovano i file non permetteva di usarli per l'indicizzazione, quindi ho dovuto scrivere il percorso nella cartella del divieto per intero.

Consenti punta sempre al percorso del contenuto vietato in Disallow. Se qualcosa non è proibito per te, non dovresti prescriverlo, presumibilmente pensando che stai dando uno slancio ai motori di ricerca, come "Dai, ecco un URL per te, indicizza più velocemente". Non funzionerà.

Non consentire in WordPress. Molte cose devono essere bandite in CMS WP. Molti plugin diversi, molte impostazioni e temi diversi, un mucchio di script e varie pagine che non contengono informazioni utili. Ma sono andato oltre e ho proibito completamente di indicizzare tutto sul mio blog, ad eccezione degli articoli stessi (post) e delle pagine (sull'autore, sui servizi). Ho anche chiuso le categorie sul blog, le aprirò quando saranno ottimizzate per le query e quando verrà visualizzata una descrizione testuale per ciascuna di esse, ma ora queste sono solo anteprime dei post duplicati di cui i motori di ricerca non hanno bisogno.

Bene Host e Sitemap sono direttive standard. Solo che era necessario eliminare l'host separatamente per Yandex, ma non me ne sono preoccupato. Concludiamo con Robots.txt per WP.

Come creare robots.txt

Non è così difficile come sembra a prima vista. Devi solo prendere un normale blocco note (blocco note) e copiare i dati per il tuo sito secondo le impostazioni di questo articolo. Ma se questo è difficile per te, ci sono risorse su Internet che ti consentono di generare robot per i tuoi siti:

Nessuno dirà di più sul tuo Robots.txt di questi compagni. Dopotutto, è per loro che crei il tuo "file proibito".

Ora parliamo di alcuni dei piccoli bug che possono essere presenti nei robot.

« Riga vuota' - non è consentito creare una stringa vuota nella direttiva user-agent.
In conflitto tra due direttive con prefissi della stessa lunghezza viene data priorità alla direttiva permettere.
Per ogni file robots.txt viene elaborato una sola direttiva Host. Se nel file sono specificate più direttive, il robot utilizza la prima.
Direttiva Pulisci Paramè trasversale, quindi può essere elencato ovunque nel file robots.txt. Se sono presenti più direttive, tutte verranno prese in considerazione dal robot.
Sei robot Yandex non seguono le regole di Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Per impedire loro di indicizzarsi sul sito, è necessario creare parametri user-agent separati per ciascuno di essi.
Direttiva sull'agente utente, deve essere sempre scritto sopra la direttiva di negazione.
Una riga, per una directory. Non è possibile scrivere più directory su una riga.
Nome del file dovrebbe essere solo così: robots.txt. Nessun Robots.txt, ROBOTS.txt e così via. Solo lettere minuscole nel titolo.
In direttiva ospite dovresti scrivere il percorso del dominio senza http e senza barre. Errato: Host: http://www.site.ru/, Corretto: Host: www.site.ru
Quando il sito utilizza un protocollo sicuro https nella direttiva ospite(per il robot Yandex) deve essere specificato con il protocollo, quindi Host: https://www.site.ru

Questo articolo verrà aggiornato man mano che arriveranno domande e sfumature interessanti.

Con te c'era il pigro Staurus.

Robots.txt è un file speciale che si trova nella directory principale del sito. Il webmaster specifica in esso quali pagine e dati chiudere dall'indicizzazione dai motori di ricerca. Il file contiene delle direttive che descrivono l'accesso alle sezioni del sito (il cosiddetto standard di eccezione robot). Ad esempio, può essere utilizzato per impostare varie impostazioni di accesso per i robot di ricerca progettati per dispositivi mobili e computer normali. È molto importante configurarlo correttamente.

robots.txt è necessario?

Opzione 2:

Questa opzione presuppone che il tuo sito abbia già robots.txt nella radice del sito.

Seleziona a sinistra Strumenti - Analisirobot.TXT

Non dimenticare che tutte le modifiche che apporti al file robots.txt non saranno disponibili immediatamente, ma solo dopo un po' di tempo.

Controllo robotx.txt per il crawler di Google

In Google Search Console, seleziona il tuo sito, vai allo strumento di revisione e visualizza i contenuti del file robots.txt. Sintattico e rompicapo gli errori in esso contenuti verranno evidenziati e il loro numero verrà indicato nella finestra di modifica.
Nella parte inferiore della pagina dell'interfaccia, inserisci l'URL desiderato nella finestra corrispondente.
Dal menu a tendina a destra, seleziona robot.
Fare clic sul pulsante VERIFICARE.
Lo stato verrà visualizzato A DISPOSIZIONE o NON DISPONIBILE. Nel primo caso, i Googlebot possono andare all'indirizzo da te specificato, ma nel secondo caso no.
Se necessario, apportare modifiche al menu e ricontrollare. Attenzione! Queste correzioni non verranno aggiunte automaticamente al file robots.txt sul tuo sito.
Copia il contenuto modificato e aggiungilo al file robots.txt sul tuo server web.

Oltre ai servizi di verifica di Yandex e Google, ce ne sono molti altri online. validatori robots.txt.

generatori di robots.txt

Servizio da SEOlib.ru.
Con questo strumento, puoi ottenere e controllare rapidamente i limiti nel file Robots.txt.
Generatore da pr-cy.ru.
Come risultato del generatore Robots.txt, riceverai del testo che deve essere salvato in un file chiamato Robots.txt e caricato nella directory principale del tuo sito.