Yandex för vilka robotar som behövs. Hur man redigerar robots txt-fil

Hallå! Det fanns en tid i mitt liv då jag absolut ingenting visste om att skapa webbplatser, och ännu mer inte visste om existensen av robots.txt-filen.

När ett enkelt intresse växte till en seriös hobby fanns det styrka och en önskan att lära sig alla finesser. På forumen kan du hitta många ämnen relaterade till den här filen, varför? Det är enkelt: robots.txt reglerar sökmotorernas åtkomst till webbplatsen, hanterar indexering, och detta är mycket viktigt!

Robots.txtär en textfil utformad för att begränsa åtkomsten för sökrobotar till avsnitt och sidor på webbplatsen som måste uteslutas från genomsökning och sökresultat.

Varför dölja visst webbplatsinnehåll? Det är osannolikt att du kommer att bli glad om sökroboten indexerar webbplatsens administrationsfiler, som kan lagra lösenord eller annan hemlig information.

Det finns olika direktiv för att reglera åtkomst:

User-agent - användaragent för vilken åtkomstregler är specificerade,
Disallow – nekar åtkomst till webbadressen,
Tillåt – ger åtkomst till webbadressen,
Webbplatskarta – anger sökvägen till,
Crawl-delay - ställer in webbadressens genomsökningsintervall (endast Yandex),
Clean-param - ignorera dynamiska URL-parametrar (endast Yandex),
Värd - indikerar huvudsidans spegel (endast Yandex).

Observera att sedan den 20 mars 2018 har Yandex officiellt slutat stödja värddirektivet. Den kan tas bort från robots.txt, och om den lämnas ignorerar roboten den helt enkelt.

Filen måste finnas i webbplatsens rotkatalog. Om webbplatsen har underdomäner har varje underdomän sin egen robots.txt.

Ha alltid säkerheten i åtanke. Den här filen kan ses av alla, så det finns ingen anledning att ange en explicit sökväg till administrativa resurser (kontrollpaneler, etc.) i den. Som ordspråket säger, ju mindre du vet, desto bättre sover du. Därför, om det inte finns några länkar till sidan och du inte vill indexera den, så behöver du inte registrera den i robotarna, ingen hittar den ändå, inte ens spindelrobotar.

När den genomsöker en webbplats kontrollerar sökroboten först om robots.txt-filen finns på webbplatsen och följer sedan dess direktiv när den genomsöker sidor.

Jag vill genast notera att sökmotorer behandlar den här filen på olika sätt. Till exempel följer Yandex villkorslöst sina regler och utesluter förbjudna sidor från indexering, medan Google uppfattar denna fil som en rekommendation och inget mer.

För att inaktivera indexering av sidor kan du använda andra metoder:

omdirigera eller till en katalog med .htaccess-filen,
metatagg noindex (inte att förväxla med taggen för att förhindra indexering av en del av texten),
attribut för länkar, samt att ta bort länkar till extra sidor.

Samtidigt kan Google framgångsrikt lägga till sidor i sökresultaten som är förbjudna att indexera, trots alla begränsningar. Dess huvudargument är att om sidan är länkad kan den visas i sökresultaten. I det här fallet rekommenderas det att inte länka till sådana sidor, men ursäkta mig, robots.txt-filen är bara utformad för att utesluta sådana sidor från sökresultaten... Enligt min mening finns det ingen logik 🙄

Tar bort sidor från sökning

Om de förbjudna sidorna fortfarande var indexerade måste du använda Google Search Console och dess verktyg för borttagning av webbadresser:

Ett liknande verktyg finns tillgängligt i Yandex Webmaster. Läs mer om att ta bort sidor från sökmotorindex i en separat artikel.

Kontrollera robots.txt

Om du fortsätter med temat med Google kan du använda ett annat Search Console-verktyg och kontrollera robots.txt-filen för att se om den är korrekt skriven för att förhindra att vissa sidor indexeras:

För att göra detta anger du bara webbadresserna som du behöver kontrollera i textfältet och klickar på knappen Kontrollera - som ett resultat av kontrollen kommer det att ta reda på om den här sidan är förbjuden att indexera eller om dess innehåll är tillgängligt för sökning robotar.

Yandex har också ett liknande verktyg som finns i Webmaster, kontrollen utförs på liknande sätt:

Om du inte vet hur man komponerar filen korrekt, skapa bara ett tomt textdokument med namnet robots.txt, och när du studerar funktionerna i CMS och strukturen på webbplatsen, komplettera den med nödvändiga direktiv.

Läs om korrekt sammanställning av filen på länken. Vi ses!

Filen robot.txt krävs för de flesta webbplatser.

Varje SEO-optimerare bör förstå innebörden av denna fil, samt kunna ordinera de mest efterfrågade direktiven.

Rätt sammansatta robotar förbättrar sajtens position i sökresultaten och är bland andra marknadsföringsmetoder ett effektivt SEO-verktyg.

För att förstå vad robot.txt är och hur det fungerar, låt oss komma ihåg hur sökmotorer fungerar.

För att kontrollera det, skriv in rotdomänen i adressfältet och lägg sedan till /robots.txt i slutet av URL:en.

Till exempel finns Moz-robotfilen på: moz.com/robots.txt. Vi går in och får sidan:

Instruktioner för "roboten"

Hur skapar jag en robots.txt-fil?

3 typer av instruktioner för robots.txt.

Om du upptäcker att robots.txt-filen saknas är det enkelt att skapa en.

Som redan nämnts i början av artikeln är detta en vanlig textfil i webbplatsens rotkatalog.

Det kan göras via adminpanelen eller en filhanterare, med vilken programmeraren arbetar med filer på sajten.

Vi kommer att ta reda på hur och vad vi ska förskriva där under artikeln.

Sökmotorer får tre typer av instruktioner från den här filen:

skanna allt, det vill säga full åtkomst (tillåt);
ingenting kan skannas - ett fullständigt förbud (Disallow);
det är omöjligt att skanna enskilda element (vilka är indikerade) - partiell åtkomst.

I praktiken ser det ut så här:

Observera att sidan fortfarande kan komma in i SERP om den har en länk installerad på den här webbplatsen eller utanför den.

För att bättre förstå detta, låt oss studera syntaxen för den här filen.

Robots.Txt Syntax

Robots.txt: hur ser det ut?

Viktiga punkter: vad du alltid bör komma ihåg om robotar.

Sju vanliga termer som ofta finns på webbsidor.

I sin enklaste form ser roboten ut så här:

Användaragent: [namnet på systemet som vi skriver direktiv för] Disallow: Webbplatskarta: [ange var vi har webbplatskartan] # Regel 1 Användaragent: Googlebot Disallow: /prim1/ Webbplatskarta: http://www.nashsite.com / sitemap.xml

Tillsammans anses dessa tre rader vara den enklaste robots.txt.

Här förhindrade vi boten från att indexera webbadressen: http://www.nashsite.com/prim1/ och angav var webbplatskartan finns.

Observera: i robotfilen är uppsättningen direktiv för en användaragent (sökmotor) separerad från uppsättningen direktiv för en annan med en radbrytning.

I en fil med flera sökmotordirektiv gäller varje förbud eller tillstånd endast den sökmotor som anges i det specifika radblocket.

Detta är en viktig punkt och bör inte glömmas bort.

Om filen innehåller regler som gäller för flera användaragenter kommer systemet att prioritera direktiv som är specifika för den angivna sökmotorn.

Här är ett exempel:

I illustrationen ovan har MSNbot, discobot och Slurp individuella regler som endast fungerar för dessa sökmotorer.

Alla andra användaragenter följer de allmänna direktiven i gruppen user-agent: *.

robots.txt-syntaxen är helt okomplicerad.

Det finns sju allmänna termer som ofta finns på webbplatser.

User-agent: Den specifika webbsökmotor (sökmotorbot) som du instruerar att genomsöka. En lista över de flesta användaragenter finns här. Totalt har den 302 system, varav två är de mest relevanta - Google och Yandex.
Disallow: Ett disallow-kommando som säger åt agenten att inte besöka URL:en. Endast en "disallow"-rad är tillåten per URL.
Tillåt (endast tillämpligt på Googlebot): Kommandot talar om för boten att den kan komma åt sidan eller undermappen även om dess överordnade sida eller undermapp har stängts.
Genomsökningsfördröjning: hur många millisekunder sökmotorn ska vänta innan den laddar och genomsöker sidinnehållet.

Observera - Googlebot stöder inte detta kommando, men genomsökningshastigheten kan ställas in manuellt i Google Search Console.

Webbplatskarta: Används för att anropa platsen för eventuella XML-kartor som är kopplade till denna URL. Detta kommando stöds endast av Google, Ask, Bing och Yahoo.
Värd: detta direktiv specificerar webbplatsens huvudspegel, som bör beaktas vid indexering. Det kan bara skrivas en gång.
Clean-param: Detta kommando används för att hantera duplicerat innehåll i dynamisk adressering.

Vanliga uttryck

Reguljära uttryck: hur de ser ut och vad de betyder.

Hur man aktiverar och inaktiverar genomsökning i robots.txt.

I praktiken kan robots.txt-filer växa och bli ganska komplexa och svårhanterliga.

Systemet gör det möjligt att använda reguljära uttryck för att tillhandahålla filens nödvändiga funktionalitet, det vill säga att arbeta flexibelt med sidor och undermappar.

* är ett jokertecken, vilket betyder att direktivet fungerar för alla sökrobotar;
$ matchar slutet av URL:en eller strängen;
# används för kommentarer från utvecklare och optimerare.

Här är några exempel på robots.txt för http://www.nashsite.com

Robots.txt URL: www.nashsite.com/robots.txt

User-agent: * (dvs. för alla sökmotorer) Disallow: / (snedstreck anger webbplatsens rotkatalog)

Vi har precis förbjudit alla sökmotorer att genomsöka och indexera hela webbplatsen.

Hur ofta krävs denna åtgärd?

Sällan, men det finns fall då det är nödvändigt att resursen inte deltar i sökresultat, utan besök görs genom särskilda länkar eller genom företagsauktorisering.

Så här fungerar vissa företags interna sajter.

Dessutom föreskrivs ett sådant direktiv om platsen är under utveckling eller modernisering.

Om du behöver tillåta sökmotorn att genomsöka allt på webbplatsen, måste du skriva följande kommandon i robots.txt:

User-agent: * Disallow:

Det finns inget i förbudet (inte tillåta), vilket betyder att allt är möjligt.

Genom att använda denna syntax i robots.txt-filen kan sökrobotar genomsöka alla sidor på http://www.nashsite.com, inklusive startsidan, administratörsområdet och kontakter.

Blockera specifika sökrobotar och enskilda mappar

Syntax för Googles sökmotor (Googlebot).

Syntax för andra sökagenter.

User-agent: Googlebot Disallow: /example-subfolder/

Denna syntax säger bara till Google (Googlebot) att inte genomsöka adressen: www.nashsite.com/example-subfolder/.

Blockera enskilda sidor för de angivna botarna:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Denna syntax säger att endast Bingbot (namnet på Bing-sökroboten) inte ska besöka sidan på: www.nashsite.com /example-subfolder/blocked-page.

Det är faktiskt allt.

Om du behärskar dessa sju kommandon och tre symboler och förstår applikationslogiken kan du skriva rätt robots.txt.

Varför det inte fungerar och vad man ska göra

Huvudåtgärdsalgoritm.

Andra metoder.

Det är ett problem att inte uppföra robots.txt.

När allt kommer omkring kommer det att ta tid att identifiera felet och sedan ta reda på det.

Läs filen igen, se till att du inte har blockerat något extra.

Om det efter ett tag visar sig att sidan fortfarande hänger i sökresultaten, titta i Google Webmaster för att se om sidan har återindexerats av sökmotorn, och kontrollera om det finns några externa länkar till den stängda sidan.

För om de är det, kommer det att bli svårare att dölja det från sökresultaten, andra metoder kommer att krävas.

Tja, innan du använder, kontrollera den här filen med en gratis testare från Google.

Snabb analys hjälper till att undvika problem och sparar tid.

Automatisk generering av robots.txt är bara bra för grundläggande filskapande. Finjustering kräver en analys av webbplatsens struktur och kataloger, som måste döljas från sökmotorer för att undvika dubbletter i indexet och utesluta onödig information från att komma in i sökdatabasen.

Robots.txt onlinegenerator - fyll i fälten i följd:

Öppna en textredigerare, klistra in resultatet i den och spara filen under namnet robots.txt

Efter det, placera filen i rotkatalogen på din webbplats. Filen måste finnas tillgänglig på http://your-site.com/robots.txt

Attributförklaringar för filen Robots.txt

"User-agent" direktiv- anger för boten för vilken sökmotor instruktionerna nedan gäller. Robots.txt-filen kan skapas både med samma instruktioner för alla sökrobotar och med separata instruktioner för varje bot.

Ej tillåta direktiv- detta direktiv specificerar vilka kataloger och filer som är förbjudna att indexeras av sökmotorer. Om du skapar separata recept för varje sökrobot, skapas separata "Disallow"-regler för varje sådant recept. Med detta direktiv kan du inaktivera indexering av webbplatsen helt (Disallow: /) eller inaktivera indexering av enskilda kataloger. Om indexering av enskilda kataloger är förbjuden, kan antalet "Disallow"-instruktioner vara obegränsat.

Värddirektivet definierar webbplatsens huvudspegel. Webbplatsen kan nås på 2 adresser: "med WWW" och "utan WWW". Om filen Robots.txt inte finns på servern eller om värdposten inte är ifylld, bestämmer sökmotorrobotarna huvudspegeln för webbplatsen efter eget gottfinnande, men om du vill göra det själv bör du ange denna regel i värddirektivet.

Direktiv om webbplatskartor anger sökvägen där filen Sitemap.xml (webbplatskarta) finns. Den här filen underlättar och snabbar upp indexeringen av webbplatsen av sökmotorrobotar. Filen Sitemap.xml är särskilt viktig för webbplatser med ett stort antal sidor och en komplex struktur (hög kapslingsnivå).

SEO-experttips: Robots.txt-filen är mycket viktig när du marknadsför en webbplats, eftersom. det indikerar för sökmotorer dina önskemål om att indexera/förbjuda_indexera avsnitt av din webbplats. Sökmotorer garanterar inte att instruktionerna i robots.txt följs, men tar hänsyn till dem vid indexering. För webbplatser skapade på populära CMS finns det vanligtvis färdiga versioner av robots.txt-filer, men om du har gjort förbättringar av funktionaliteten kan du behöva justera den manuellt.

God eftermiddag kära vänner! Ni vet alla att sökmotoroptimering är en ansvarsfull och känslig fråga. Det är nödvändigt att ta hänsyn till absolut varje liten sak för att få ett acceptabelt resultat.

Idag kommer vi att prata om robots.txt - en fil som är bekant för alla webbansvariga. Det är i det som alla de mest grundläggande instruktionerna för sökrobotar är föreskrivna. Som regel följer de de föreskrivna instruktionerna med nöje och vägrar, i händelse av felaktig sammanställning, att indexera webbresursen. Därefter kommer jag att berätta hur du skriver rätt version av robots.txt, samt hur du konfigurerar den.

I förordet har jag redan beskrivit vad det är. Nu ska jag berätta varför du behöver det. Robots.txt är en liten textfil som lagras i roten på webbplatsen. Det används av sökmotorer. Det anger tydligt indexeringsreglerna, dvs vilka delar av webbplatsen som behöver indexeras (läggs till i sökningen) och vilka som inte ska.

Vanligtvis är tekniska delar av webbplatsen stängda från indexering. Ibland blir icke-unika sidor svartlistade (copy-paste sekretesspolicy är ett exempel på detta). Här "förklaras robotar" principerna för att arbeta med avsnitt som behöver indexeras. Mycket ofta skrivs regler för flera robotar separat. Vi kommer att prata om detta vidare.

Med rätt robots.txt-konfiguration kommer din webbplats garanterat att växa i sökmotorpositioner. Robotar kommer endast att överväga användbart innehåll, vilket berövar dubbletter eller tekniska delar uppmärksamhet.

Skapa robots.txt

För att skapa en fil räcker det att använda standardfunktionaliteten i ditt operativsystem och sedan ladda upp den till servern via FTP. Var den ligger (på servern) är lätt att gissa - vid roten. Denna mapp kallas vanligtvis public_html.

Du kan enkelt komma in i den med vilken FTP-klient som helst (till exempel) eller den inbyggda filhanteraren. Naturligtvis kommer vi inte att ladda upp tomma robotar till servern. Låt oss skriva några grundläggande direktiv (regler) där.

Användaragent: *
tillåt: /

Genom att använda dessa rader i din robotfil kommer du att nå ut till alla robotar (User-agent-direktivet), så att de kan indexera din webbplats i sin helhet (inklusive alla dessa Allow: /-sidor)

Det här alternativet passar oss naturligtvis inte riktigt. Filen kommer inte att vara särskilt användbar för sökmotoroptimering. Det behöver definitivt rätt justering. Men innan dess kommer vi att täcka alla grundläggande robots.txt-direktiv och -värden.

direktiv

användaragent	En av de viktigaste, eftersom den indikerar vilka robotar som ska följa reglerna efter det. Reglerna respekteras fram till nästa User-agent i filen.
tillåta	Tillåter indexering av alla resursblock. Till exempel: "/" eller "/tag/".
Inte godkänna	Tvärtom förbjuder den indexering av avsnitt.
Webbplatskarta	Sökväg till webbplatskartan (i xml-format).
Värd	Huvudspegel (med eller utan www, eller om du har flera domäner). Det säkra https-protokollet (om tillgängligt) anges också här. Om du har en standard http behöver du inte ange den.
Crawl-fördröjning	Med dess hjälp kan du ställa in intervallet för att besöka och ladda ner filer på din webbplats för robotar. Hjälper till att minska belastningen på värden.
Rengör param	Låter dig inaktivera indexering av parametrar på vissa sidor (som www.site.com/cat/state?admin_id8883278). Till skillnad från de tidigare direktiven anges 2 värden här (adressen och själva parametern).

Det här är alla regler som stöds av flaggskeppssökmotorerna. Det är med deras hjälp som vi kommer att skapa våra robotar, som arbetar med olika varianter för olika typer av webbplatser.

Miljö

För att korrekt konfigurera robotfilen måste vi veta exakt vilka delar av webbplatsen som ska indexeras och vilka som inte ska. I fallet med en enkel html + css ensidigare, behöver vi bara skriva några grundläggande direktiv, som:

Användaragent: *
tillåt: /
Webbplatskarta: site.ru/sitemap.xml
Värd: www.site.ru

Här har vi specificerat reglerna och värdena för alla sökmotorer. Men det är bättre att lägga till separata direktiv för Google och Yandex. Det kommer att se ut så här:

Användaragent: *
tillåt: /

Användaragent: Yandex
tillåt: /
Disallow: /policy

Användaragent: GoogleBot
tillåt: /
Disallow: /taggar/

Webbplatskarta: site.ru/sitemap.xml
Värd: site.ru

Nu kommer absolut alla filer att indexeras på vår html-sida. Om vi vill utesluta någon sida eller bild måste vi ange en relativ länk till detta fragment i Disallow.

Du kan använda robotars automatiska filgenereringstjänster. Jag garanterar inte att du med deras hjälp kommer att skapa en helt korrekt version, men du kan prova det som en introduktion.

Bland dessa tjänster finns:

Med deras hjälp kan du skapa robots.txt automatiskt. Personligen rekommenderar jag starkt inte det här alternativet, eftersom det är mycket lättare att göra det manuellt genom att konfigurera det för din plattform.

På tal om plattformar menar jag alla typer av CMS, ramverk, SaaS-system och mycket mer. Därefter kommer vi att prata om hur man ställer in en WordPress- och Joomla-robotfil.

Men innan dess, låt oss lyfta fram några universella regler som kan vägleda dig när du skapar och konfigurerar robotar för nästan alla webbplatser:

Stäng från indexering (Disallow):

webbplatsadministratör;
personligt konto och registrerings-/auktoriseringssidor;
kundvagn, data från beställningsformulär (för en onlinebutik);
cgi-mappen (finns på värden);
servicesektioner;
ajax- och json-skript;
UTM- och Openstat-taggar;
olika alternativ.

Öppna (tillåt):

Bilder;
JS- och CSS-filer;
andra element som bör beaktas av sökmotorer.

Dessutom, i slutet, glöm inte att ange webbplatskartdata (sökvägen till webbplatskartan) och värd (huvudspegeln).

Robots.txt för WordPress

För att skapa en fil måste vi slänga robots.txt i roten på webbplatsen på samma sätt. I det här fallet kommer det att vara möjligt att ändra dess innehåll med samma FTP och filhanterare.

Det finns också ett bekvämare alternativ - att skapa en fil med plugins. I synnerhet Yoast SEO har en sådan funktion. Att redigera robotar direkt från adminpanelen är mycket bekvämare, så jag använder själv exakt den här metoden att arbeta med robots.txt.

Hur du bestämmer dig för att skapa den här filen är upp till dig, det är viktigare för oss att förstå vilken typ av direktiv som ska finnas där. Jag använder det här alternativet på mina WordPress-webbplatser:

User-agent: * # regler för alla robotar utom Google och Yandex

Disallow: /cgi-bin # mapp med skript
disallow: /? # begär parametrar från hemsidan
Disallow: /wp- # filer av själva CSM (med prefixet wp-)
Disallow: *?s= # \
Disallow: *&s= # något som har med sökning att göra
Disallow: /search/ # /
Disallow: /author/ # arkiv med författare
Disallow: /users/ # och användare
Disallow: */trackback # aviseringar från WP om att någon länkar till dig
Disallow: */feed # feed i xml
Disallow: */rss # och rss
Disallow: */embed # inline-element
Disallow: /xmlrpc.php # WordPress API
Disallow: *utm= # UTM-taggar
Disallow: *openstat= # openstat-etiketter
Disallow: /tagg/ # taggar (om några)
Tillåt: */uppladdningar # öppna nedladdningar (bilder, etc.)

Användaragent: GoogleBot # för Google
Disallow: /cgi-bin
disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tagg/
Tillåt: */uppladdningar
Tillåt: /*/*.js # öppna js-filer
Tillåt: /*/*.css # och CSS
Tillåt: /wp-*.png # och bilder i png-format
Tillåt: /wp-*.jpg # \
Tillåt: /wp-*.jpeg # och andra format
Tillåt: /wp-*.gif # /
# fungerar med plugins

Användaragent: Yandex # för Yandex
Disallow: /cgi-bin
disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tagg/
Tillåt: */uppladdningar
Tillåt: /*/*.js
Tillåt: /*/*.css
Tillåt: /wp-*.png
Tillåt: /wp-*.jpg
Tillåt: /wp-*.jpeg
Tillåt: /wp-*.gif
Tillåt: /wp-admin/admin-ajax.php
# rena UTM-taggar
Clean-Param: openstat # och glöm inte Openstat

webbplatskarta: # skriv sökvägen till webbplatskartan
Värd: https://site.ru # huvudspegel

Uppmärksamhet! När du kopierar rader till en fil, glöm inte att ta bort alla kommentarer (text efter #).

Detta robots.txt-alternativ är det mest populära bland webbansvariga som använder WP. Är han perfekt? Nej. Du kan försöka lägga till något eller tvärtom ta bort något. Men tänk på att när du optimerar textredigeraren för robotar är misstag inte ovanliga. Vi kommer att prata om dem vidare.

Robots.txt för Joomla

Och även om Joomla under 2018 sällan används, anser jag att detta underbara CMS inte bör ignoreras. När du marknadsför projekt på Joomla måste du säkert skapa en robotfil, annars hur vill du stänga onödiga element från indexering?

Som i föregående fall kan du skapa en fil manuellt genom att helt enkelt ladda upp den till värden, eller så kan du använda en modul för detta ändamål. I båda fallen måste du konfigurera den korrekt. Så här skulle den korrekta versionen för Joomla se ut:

Användaragent: *
Tillåt: /*.css?*$
Tillåt: /*.js?*$
Tillåt: /*.jpg?*$
Tillåt: /*.png?*$
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administratör/
Disallow: /installation/
Disallow: /cli/
Disallow: /bibliotek/
Disallow: /språk/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Användaragent: Yandex
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administratör/
Disallow: /installation/
Disallow: /cli/
Disallow: /bibliotek/
Disallow: /språk/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Användaragent: GoogleBot
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administratör/
Disallow: /installation/
Disallow: /cli/
Disallow: /bibliotek/
Disallow: /språk/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Värd: site.ru # glöm inte att ändra adressen här till din
Webbplatskarta: site.ru/sitemap.xml # och här

Som regel räcker detta för att förhindra att onödiga filer hamnar i indexet.

Konfigurationsfel

Mycket ofta gör människor misstag när de skapar och konfigurerar en robot. Här är de vanligaste:

Regler anges endast för User-agent.
Värd och webbplatskarta saknas.
Förekomsten av http-protokollet i värddirektivet (du behöver bara ange https).
Bristande efterlevnad av kapslingsregler vid öppning/stängning av bilder.
UTM- och Openstat-taggar är inte stängda.
Föreskrivning av värd- och webbplatskartor för varje robot.
Ytbehandling av filen.

Det är mycket viktigt att ställa in den här lilla filen korrekt. Om du gör grova misstag kan du förlora en betydande del av trafiken, så var extremt försiktig när du ställer upp.

Hur kontrollerar man en fil?

För dessa ändamål är det bättre att använda specialtjänster från Yandex och Google, eftersom dessa sökmotorer är de mest populära och efterfrågade (oftast de enda som används), är det ingen mening att överväga sådana sökmotorer som Bing, Yahoo eller Vandrare.

Till att börja med, överväg alternativet med Yandex. Vi går till Webmaster. Gå sedan till Verktyg - Analysera robots.txt.

Här kan du kontrollera filen för fel, samt kontrollera i realtid vilka sidor som är öppna för indexering och vilka som inte är det. Väldigt passande.

Google har exakt samma tjänst. Låt oss gå till Search Console. Vi hittar fliken Skanning, välj - Verktyg för att kontrollera robots.txt-filen.

Här finns exakt samma funktioner som i hemtjänsten.

Observera att det visar mig 2 fel. Detta beror på det faktum att Google inte känner igen direktiven för parameterrensning som jag angav för Yandex:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Du bör inte vara uppmärksam på detta, eftersom Googles robotar bara använder reglerna för GoogleBot.

Slutsats

Filen robots.txt är mycket viktig för SEO på din webbplats. Närma dig dess konfiguration med allt ansvar, för om den implementeras felaktigt kan allt gå till spillo.

Tänk på alla instruktioner som jag har delat i den här artikeln, och glöm inte att du inte behöver kopiera mina robotalternativ exakt. Det är möjligt att du kommer att behöva förstå vart och ett av direktiven ytterligare och anpassa filen för ditt specifika fall.

Och om du vill ta en djupare titt på robots.txt och skapa WordPress-webbplatser, då inbjuder jag dig att göra det. På den kommer du att lära dig hur du enkelt kan skapa en webbplats, inte att glömma att optimera den för sökmotorer.

Det första en sökrobot gör när det kommer till din webbplats är att söka och läsa robots.txt-filen. Vad är denna fil? är en uppsättning instruktioner för en sökmotor.

Det är en textfil med tillägget txt, som finns i webbplatsens rotkatalog. Denna uppsättning instruktioner talar om för sökroboten vilka sidor och webbplatsfiler som ska indexeras och vilka inte. Den indikerar också webbplatsens huvudspegel och var du ska leta efter webbplatskartan.

Vad är robots.txt-filen till för? För korrekt indexering av din webbplats. Så att det inte finns några dubbletter av sidor i sökningen, olika servicesidor och dokument. När du väl har ställt in direktiven i robotar, kommer du att rädda din webbplats från många problem med indexering och webbplatsspegling.

Hur man komponerar rätt robots.txt

Att kompilera robots.txt är lätt nog, vi skapar ett textdokument i en vanlig Windows-anteckningsbok. Vi skriver direktiv för sökmotorer i denna fil. Spara sedan den här filen med namnet "robots" och texttillägget "txt". Allt kan nu laddas upp till webbhotellet, till webbplatsens rotmapp. Observera att endast ett robotdokument kan skapas per webbplats. Om denna fil saknas på sajten så "bestämmer" boten automatiskt att allt kan indexeras.

Eftersom det är en så innehåller den instruktioner för alla sökmotorer. Dessutom kan du skriva ner både separata instruktioner för varje PS och den allmänna direkt för allt. Separering av instruktioner för olika sökrobotar görs genom User-agent-direktivet. Vi kommer att prata mer om detta nedan.

robots.txt-direktiv

"Robot"-filen kan innehålla följande indexeringsdirektiv: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Låt oss titta på varje instruktion mer detaljerat.

Användaragent direktiv

Användaragent direktiv- indikerar för vilken sökmotor det kommer att finnas instruktioner (mer exakt, för vilken speciell bot). Om det är "*" så gäller instruktionerna för alla robotar. Om en specifik bot är listad, till exempel Googlebot, gäller instruktionerna endast för Googles huvudindexeringsbot. Dessutom, om det finns instruktioner separat för Googlebot och för alla andra PS:er, kommer Google bara att läsa sina egna instruktioner och ignorera den allmänna. Yandex-boten kommer att göra detsamma. Låt oss titta på ett exempel på ett direktiv.

Användaragent: YandexBot - instruktioner endast för Yandex-indexeringsboten
User-agent: Yandex - instruktioner för alla Yandex bots
User-agent: * - instruktioner för alla bots

Tillåt och Tillåt direktiv

Tillåt och Tillåt direktiv- ge kommandon vad som ska indexeras och inte. Disallow ger kommandot att inte indexera en sida eller en hel del av webbplatsen. Och Tillåt, tvärtom, indikerar vad som behöver indexeras.

Disallow: / - förbjuder indexering av hela webbplatsen
Disallow: /papka/ - förbjuder indexering av hela innehållet i mappen
Disallow: /files.php - förbjuder indexering av filen files.php

Tillåt: /cgi-bin - tillåter indexering av cgi-bin-sidor

Det är möjligt och ofta nödvändigt att använda specialtecken i Disallow och Allow-direktiven. De behövs för att definiera reguljära uttryck.

Specialtecken * - ersätter alla teckensekvenser. Den läggs som standard till i slutet av varje regel. Även om du inte registrerade det, kommer PS att lägga det på sig själva. Användningsexempel:

Disallow: /cgi-bin/*.aspx - förbjuder indexering av alla filer med filtillägget .aspx
Disallow: /*foto - förbjuder indexering av filer och mappar som innehåller ordet foto

Specialtecknet $ - avbryter effekten av specialtecknet "*" i slutet av regeln. Till exempel:

Disallow: /example$ - förbjuder indexering av '/example', men förbjuder inte '/example.html'

Och om du skriver utan specialtecknet $, kommer instruktionen att fungera annorlunda:

Disallow: /example - tillåter inte både '/example' och '/example.html'

Direktiv om webbplatskartor

Direktiv om webbplatskartor- är utformad för att indikera för sökmotorroboten var webbplatskartan finns på webbhotellet. Webbplatskartans format bör vara sitemaps.xml. En webbplatskarta behövs för snabbare och mer komplett webbplatsindexering. Dessutom är en webbplatskarta inte nödvändigtvis en fil, det kan finnas flera. Format för direktivinmatning:

Webbplatskarta: http://site/sitemaps1.xml
Webbplatskarta: http://site/sitemaps2.xml

Värddirektivet

Värddirektivet- indikerar för roboten webbplatsens huvudspegel. Vad som än finns i sajtens spegelindex måste du alltid ange detta direktiv. Om det inte anges kommer Yandex-roboten att indexera minst två versioner av webbplatsen med och utan www. Tills spegelroboten limmar ihop dem. Inspelningsexempel:

Värd: www.site
värd: webbplats

I det första fallet kommer roboten att indexera versionen med www, i det andra fallet utan. Endast ett värddirektiv är tillåtet i robots.txt-filen. Om du skriver flera av dem kommer boten att bearbeta och bara ta hänsyn till den första.

Ett giltigt värddirektiv bör ha följande data:
— ange anslutningsprotokollet (HTTP eller HTTPS);
- ett korrekt skrivet domännamn (du kan inte skriva en IP-adress);
- portnummer, om det behövs (till exempel Host: site.com:8080).

Felaktigt gjorda direktiv kommer helt enkelt att ignoreras.

Genomsökningsfördröjningsdirektiv

Genomsökningsfördröjningsdirektiv låter dig minska belastningen på servern. Det behövs om din webbplats börjar falla under angrepp från olika botar. Genomsökningsfördröjningsdirektivet säger åt sökroboten att vänta mellan slutet av nedladdningen av en sida och början av nedladdningen av en annan sida på webbplatsen. Direktivet måste komma omedelbart efter "Disallow"- och/eller "Allow"-direktiven. Yandex sökrobot kan läsa bråkvärden. Till exempel: 1,5 (en och en halv sekund).

Clean-param-direktivet

Clean-param-direktivet behövs av webbplatser vars sidor innehåller dynamiska parametrar. Vi pratar om de som inte påverkar innehållet på sidorna. Detta är olika tjänsteinformation: sessionsidentifierare, användare, hänvisare, etc. Så för att undvika dubbletter av dessa sidor används detta direktiv. Den kommer att tala om för PS:en att inte ladda upp ompendlingsinformationen igen. Belastningen på servern och tiden det tar för roboten att genomsöka webbplatsen kommer också att minska.

Clean-param: s /forum/showthread.php

Den här posten talar om för PS att parametern s kommer att anses vara oväsentlig för alla webbadresser som börjar med /forum/showthread.php. Den maximala postlängden är 500 tecken.

Vi kom på direktiven, låt oss gå vidare till att ställa in våra robotar.

Ställa in robots.txt

Vi fortsätter direkt med att ställa in robots.txt-filen. Den måste innehålla minst två poster:

användaragent:- anger för vilken sökmotor instruktionerna nedan kommer att vara.
Inte godkänna:- Anger vilken del av webbplatsen som inte ska indexeras. Det kan stängas från att indexera både en separat sida på webbplatsen och hela avsnitt.

Dessutom kan du ange att dessa direktiv är avsedda för alla sökmotorer, eller för en specifikt. Detta specificeras i User-agent-direktivet. Om du vill att alla bots ska läsa instruktionerna, sätt en asterisk

Om du vill skriva instruktioner för en specifik robot, men du måste ange dess namn.

Användaragent: YandexBot

Ett förenklat exempel på en korrekt sammansatt robotfil skulle vara:

Användaragent: *
Disallow: /filer.php
Disallow: /sektion/
värd: webbplats

Var, * säger att instruktionerna är avsedda för alla PS;
Disallow: /filer.php- ger ett förbud mot att indexera filen file.php;
Disallow: /foto/- förbjuder indexering av hela "foto"-sektionen med alla bifogade filer;
värd: webbplats- talar om för robotarna vilken spegel som ska indexeras.

Om din webbplats inte har sidor som behöver stängas från indexering, bör din robots.txt-fil se ut så här:

Användaragent: *
Inte godkänna:
värd: webbplats

Robots.txt för Yandex (Yandex)

För att indikera att dessa instruktioner är avsedda för Yandex sökmotor, måste du ange i User-agent-direktivet: Yandex. Dessutom, om vi skriver "Yandex", kommer webbplatsen att indexeras av alla Yandex-robotar, och om vi anger "YandexBot", kommer detta att vara ett kommando endast för huvudindexeringsroboten.

Det är också nödvändigt att registrera "Värd"-direktivet, där huvudspegeln för webbplatsen ska anges. Som jag skrev ovan görs detta för att förhindra dubbletter av sidor. Din korrekta robots.txt för Yandex kommer att se ut så här.