Robots.txt, sitenin kök dizininde bulunan özel bir dosyadır. Web yöneticisi bu konuda arama motorlarında hangi sayfaların ve verilerin indekslenmeye kapatılması gerektiğini belirtir. Dosya, sitenin bölümlerine (robotlar için standart olarak adlandırılan) erişimi açıklayan yönergeler içerir. Örneğin arama robotları, mobil cihazlar ve masaüstü bilgisayarlar için çeşitli erişim ayarlarını belirlemenize yardımcı olabilir. Yogayı doğru yapmak çok önemlidir.

Robots.txt neden gerekli?

robots.txt ile ilgili daha fazla yardım için şunları yapabilirsiniz:

  • Tarama sınırını (arama robotunun tek seferde tarayabileceği URL sayısı) aşmamak için benzer ve gereksiz sayfaların dizine eklenmesini önleyin. Bu şekilde robot daha önemli sayfaları indeksleyebilir.
  • Arama sonuçlarından görseller yakalayın.
  • Önemsiz komut dosyalarını, stil dosyalarını ve diğer kritik olmayan site kaynaklarını indekslemeden kapatın.

Google veya Yandex tarayıcının sayfalarınızı analiz etmesini sağlamak, ancak dosyaları engellememek en iyisidir.

Robots.txt dosyası nerede bulunur?

Robots.txt dosyasında ne olduğunu görmek istiyorsanız tarayıcınızın adres çubuğuna site.ru/robots.txt adresini girmeniz yeterlidir.

Robots.txt dosyası fiziksel olarak barındırma sitesinin kök klasöründe bulunur. Beget.ru hostingim var, bu yüzden size hostinginizde robots.txt dosyasını nasıl yapılandıracağınızı göstereceğim.


Doğru robots.txt nasıl oluşturulur?

Robots.txt dosyası bir veya daha fazla kuraldan oluşur. Dış görünüş kuralı, sitedeki bilgilerin indekslenmesine izin verir veya engeller.

  1. Bir metin düzenleyicide robots.txt adında bir dosya oluşturun ve bu dosyayı aşağıda sunulan kurallarla doldurun.
  2. Robots.txt dosyasının ASCII veya UTF-8 kodlamasında bir metin dosyası olması gerekir. Diğer kodlamalardaki karakterler kabul edilmez.
  3. Sitede böyle bir dosya var.
  4. Robots.txt dosyası şuraya yerleştirilmelidir: kök katalozuİnternet sitesi. Örneğin, http://www.example.com/ sitesindeki tüm sayfaların indekslenmesini kontrol etmek için robots.txt dosyasının http://www.example.com/robots.txt adresinin arkasına yerleştirilmesi gerekir. bir durumda olduğu için suçlu değil(Örneğin, adreste http://example.com/pages/robots.txt). Hosting sağlayıcınızla iletişime geçerek kök dizine erişmeniz zordur. Sitenin kök dizinine erişiminiz yoksa meta etiketler gibi alternatif bir engelleme yöntemine göz atın.
  5. Robots.txt dosyası adreslere eklenebilir alt alanlar(Örneğin, http: // İnternet sitesi.example.com / robots.txt) veya standart olmayan bağlantı noktaları (örneğin, http://example.com: 8181 /robots.txt).
  6. Dosyayı Yandex.Webmaster ve Google Search Console hizmetlerinde dönüştürün.
  7. Dosyayı sitenizin kök dizinine yükleyin.

Eksen, iki kurala sahip robots.txt dosyasıdır. Aşağıda açıklama bulunmaktadır.

Kullanıcı aracısı: Googlebot İzin Verme: /nogooglebot/Kullanıcı aracısı: * İzin ver: / Site Haritası: http://www.example.com/sitemap.xml

açıklama

  1. Satıcının Googlebot adlı temsilcisinin http://example.com/nogooglebot/ dizinini ve onun alt dizinlerini dizine ekleme suçu yoktur.
  2. Müşterinin diğer tüm temsilcileri sitenin tamamına erişebilir (bunu atlayabilirsiniz, kayıttan sonra yeni erişim gerekli olduğundan sonuç aynı olacaktır).
  3. Bu sitenin Site Haritası dosyası http://www.example.com/sitemap.xml adresinde bulunur.

İzin Verme ve İzin Verme Yönergeleri

Siteye veya herhangi bir bölümüne indekslemeyi ve robot erişimini engellemek için İzin Verme yönergesini kullanın.

Kullanıcı aracısı: Yandex İzin Verme: / # sitenin tamamına erişimi engeller Kullanıcı aracısı: Yandex İzin Verme: / cgi-bin # "/ cgi-bin" ile başlayan # sayfalara erişimi engeller

Standarda uygun olarak Kullanıcı aracısı yönergesinden önce boş bir yeni satır eklenmesi önerilir.

# atama sembolü yorumları tanımlamak için kullanılır. Son sembolde bulunan ve satırın ilk ters çevrilmesinden önceki her şey sigortalı değildir.

Robotun siteye veya herhangi bir bölümüne erişmesine izin vermek için İzin Ver yönergesini kullanın.

Kullanıcı aracısı: Yandex İzin Ver: / cgi-bin İzin Verme: / #, "/ cgi-bin" ile başlayan # sayfalar dışındaki her şeyi eklemenizi engeller

Kullanıcı aracısı, Disallow ve Allow direktifleri arasında boş satır geçişlerinin varlığı kabul edilemez.

İlgili Kullanıcı aracısı bloğundaki İzin Ver ve İzin Verme yönergeleri, URL önekinin sırasına göre (en küçükten en büyüğe) sıralanır ve sırayla düzenlenir. Sitenin belirli bir tarafı için bir takım direktifler uygunsa robot, sıralanmış listede görünen en yüksek seri numarasını seçer. Bu nedenle, yönergelerin robots.txt dosyasından geçirilme sırası robotların işlenmesini etkilemez. uygula:

# Robots.txt çıktısı: Kullanıcı aracısı: Yandex İzin Ver: / katalog İzin Verme: / # Robots.txt'yi sıralama: Kullanıcı aracısı: Yandex İzin Verme: / İzin Ver: / katalog # yalnızca "/ katalog ile başlayan sayfaları # indirmenize izin verir " # çıktı robots.txt: Kullanıcı aracısı: Yandex İzin Ver: / İzin Ver: / katalog / otomatik İzin Verme: / katalog # Robots.txt'yi sıralama: Kullanıcı aracısı: Yandex İzin Ver: / İzin Verme: / katalog İzin Ver: / katalog / otomatik # korur "/catalog", # ile başlayan sayfaları etkinleştirin veya "/catalogue/auto" ile başlayan sayfaları indirmenize izin verin.

Ancak önekli iki yönerge arasında bir çelişki varsa İzin Ver yönergesi öncelikli olur.

Özel karakterlerin Vikoristanny'si * ve $

Allow ve Disallow direktiflerini belirtirken * ve $ özel karakterlerini kullanabilir, böylece normal ifadeleri belirtebilirsiniz.

Özel karakter *, hangi karakter dizisi olursa olsun (boş dahil) anlamına gelir.

Özel sembol $, satırın sonu anlamına gelir; ondan önceki sembol ise kalan semboldür.

Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin/*.aspx # korur "/cgi-bin/example.aspx" # i "/cgi-bin/private/test.aspx" İzin Verme: / * özel # yalnızca korumaz "/private", #ve "/cgi-bin/private"

Site Haritası Direktifi

Ayrı bir Site Haritası dosyası kullanarak bir sitenin yapısını açıklıyorsanız, site haritası yönergesinin parametresine dosyanın yolunu girin (dosya dosyaları gibi, tümünü girin). popo:

Kullanıcı aracısı: Yandex İzin Ver: / site haritası: https://example.com/site_structure/my_sitemaps1.xml site haritası: https://example.com/site_structure/my_sitemaps2.xml

Yönerge kesişimsel olduğundan, robots.txt dosyasında belirtildiği yere bakılmaksızın robot tarafından kullanılacaktır.

Robot, dosyaya giden yolları hatırlayacak, verileri işleyecek ve veri işleme oturumunun daha ileri işlemleri için sonuçları analiz edecektir.

Tarama gecikmesi yönergesi

Sunucuya yoğun baskı yapılıyorsa ve robotun isteklerini işleyemiyorsa işleri hızlandırmak için Tarama gecikmesi yönergesini kullanın. Bu, arama robotuna, bir tarafta aramanın tamamlanması ile diğer tarafta aramanın başlaması arasında minimum bir saatlik süreyi (saniye cinsinden) ayarlamanıza olanak tanır.

Siteyi tarama hızını değiştirmeden önce robotun hangi sayfaların daha sık kilitlendiğini kontrol edin.

  • Sunucu günlüklerini analiz edin. Siteden sorumlu sağlayıcıya veya barındırma sağlayıcısına geri dönün.
  • Sitedeki URL'lerin listesini görüntüleyin Dizin Oluşturma → Yandex.Web Yöneticisi'nde tarama istatistikleri (Tüm sayfalar'ı seçin).

Robotun hizmet sayfalarına eriştiğini fark ederseniz Disallow yönergesini kullanarak robots.txt dosyasında indekslenmesini engelleyin. Bu, robottaki hayvan sayısının azaltılmasına yardımcı olacaktır.

Clean-param direktifi

Yönerge yalnızca Yandex robotuyla çalışır.

Site sayfalarının adresleri, bunları içermeyen dinamik parametreler içeriyorsa (oturum tanımlayıcıları, hesaplar, yönlendirenler vb.), bunları ek Clean-param yönergesinin arkasında tanımlayabilirsiniz.

Yandex robotu bu direktifi vikorystyuchi'ye verdi, böylece yinelenen bilgileri büyük ölçüde yeniden kullanmayacak. Bu sayede sitenizin taranma verimliliği artacak ve sunucuya olan talep azalacaktır.

Örneğin sitede sayfalar var:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

Ref parametresi yalnızca herhangi bir kaynaktan istek seçmek için kullanılır ve bunun yerine değişmez, her üç adres için de kitap_id = 123 ile aynı sayfa gösterilecektir.

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: ref /some_dir/get_book.pl

Yandex robotu tüm sayfa adreslerini bire indirir:

www.example.com/some_dir/get_book.pl?book_id=123

Sitede böyle bir sayfa mevcutsa, arama sonuçlarına kendiniz katılacaksınız.

yönerge sözdizimi

Temiz parametre: p0 [&p1&p2&..&pn]

İlk alanda, & sembolü aracılığıyla, robotun yeniden sigortalanmasına gerek olmadığından parametreleri yeniden sigortalamanız gerekecektir. Diğer alan, kural ayarlanması gereken sayfaların yönleri için bir önek belirtir.

Not. Clean-Param yönergesi kesitseldir ve herhangi bir robots.txt dosyasında belirtilebilir. Direktifler belirlendikten sonra tüm öğeler robot tarafından sigortalanacaktır.

Önek, robots.txt dosyasına benzer bir formatta normal bir ifadeye yerleştirilebilir ancak bazı değişiklikler yapılabilir: yalnızca A-Za-z0-9 .- / * _ karakterleri değiştirilebilir. Bu durumda * sembolü, robots.txt dosyasındakiyle aynı şekilde yorumlanır: * sembolü örtülü olarak önekin sonuna eklenir. Örneğin:

Temiz parametre: s /forum/showthread.php

Kayıt sigortalıdır. Kural 500 karakterdir. Örneğin:

Temizleme parametresi: abc /forum/showthread.php Temizleme parametresi: sid & sort /forum/*.php Temizleme parametresi: someTrash & otherTrash

HOST direktifi

Şu anda Yandex bu yönergeyi benimsemiştir.

Robots.txt dosyasını düzeltin: kurulum

Robots.txt dosyası yerine sitenin türüne (çevrimiçi mağaza, blog), seçilen CMS'ye, yapı özelliklerine ve diğer bazı yetkililere bağlıdır. Bu nedenle, ticari bir web sitesi için bu dosyayı oluşturmaya çalışırken, özellikle karmaşık bir projeye gidiyorsanız, yeterli çalışma kanıtına sahip bir SEO-fakhivets gereklidir.

Özel eğitimi olmayan, her şeyi bilen bir kişi, hangi bölümün indekslemeden kapatılması, hangi bölümün sağlam formda görünmesine izin verilmeden önce doğru kararı veremez.

WordPress için Robots.txt dosyasının düzeltilmesi

Kullanıcı aracısı: * # Yandex ve Google dahil olmak üzere robotlar için yeraltı kuralları, # onlar için aşağıdaki kurallar İzin verme: / cgi-bin # barındırma klasörü İzin verme: /? # Tüm parametreler başlığa kaydedilecektir Disallow: /wp- # tüm WP dosyaları: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # /wp/ alt dizininin kurulu olduğu yer CMS (mevcut değil, # kural görüntülenebilir) İzin Verme: *? s = # arama İzin verme: * & s = # arama İzin verme: / arama / # arama İzin verme: / yazar / # yazar arşivleri İzin verme: / kullanıcılar / # yazar arşivleri İzin verme: * / geri izleme # geri izlemeler, görünümle ilgili yorumlarda bilgi / gizli # Makaleye gönderildi İzin verme: * / feed # tüm beslemelere İzin verme: * / rss # rss beslemesine izin verme: * / embed # tüm beslemelere izin verme İzin verme: * / wlwmanifest.xml # Windows Live Writer bildirimi için xml dosyası (eğer bunu yapmazsanız) kullanmayın, # kural görünür) İzin Verme: /xmlrpc.php # WordPress API dosyası İzin Verme: * utm * = # utm etiketleriyle yüklendi İzin verme: * openstat = # openstat etiketleriyle yüklendi İzin Ver: * / uploads # gösterir yükleme dosyalarının bulunduğu klasör Site Haritası: http:/ /site.ru/sitemap.xml # site haritası adresi Kullanıcı aracısı: GoogleBot # Google için kurallar (Yorumları kopyalamıyorum) İzin Verme: / cgi-bin İzin Verme: /? İzin verme: /wp- İzin verme: /wp/İzin verme: *? S = İzin Verme: * & s = İzin Verme: / Arama / İzin Verme: / Yazar / İzin Verme: / Kullanıcılar / İzin Verme: * / geri izleme İzin Verme: * / feed İzin Verme: * / rss İzin Verme: * / yerleştirme İzin Verme: * / wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Verme: * utm * = İzin Verme: * openstat = İzin Ver: * / uploads İzin Ver: /*/*.js # ortadaki js betiği / wp- (/ * / - öncelik için) İzin Ver: / */*.css # CSS dosyaları ortada görüntülenir / wp- (/ * / - öncelik için) İzin ver: / wp-*.png # eklentilerdeki, önbellek klasörlerindeki vb. resimler. İzin ver: /wp-*.jpg # eklentilerdeki, önbellek klasörlerindeki vb. resimler. İzin ver: /wp-*.jpeg # eklentilerdeki, önbellek klasörlerindeki vb. resimler. İzin ver: /wp-*.gif # eklentilerdeki, önbellek klasörlerindeki vb. resimler. İzin ver: /wp-admin/admin-ajax.php # JS ve CSS'nin engellenmesini önlemek için eklentileri kullanın Kullanıcı aracısı: Yandex için Yandex # kuralları (Yorumları kopyalamıyorum) İzin Verme: / cgi-bin İzin Verme: /? İzin verme: /wp- İzin verme: /wp/İzin verme: *? S = İzin Verme: * & s = İzin Verme: / Arama / İzin Verme: / Yazar / İzin Verme: / Kullanıcılar / İzin Verme: * / geri izleme İzin Verme: * / feed İzin Verme: * / rss İzin Verme: * / yerleştirme İzin Verme: * / wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Ver: * / uploads İzin Ver: /*/*.js İzin Ver: /*/*.css İzin Ver: /wp-*.png İzin Ver: /wp-*.jpg İzin Ver: /wp-*. jpeg İzin ver: /wp-*.gif İzin ver: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Yandex, indeksleme görünümünün kapatılmamasını # ancak etiket parametrelerinin silinmesini önerir, # Google desteklemez bu tür kurallar Clean-Param: openstat # benzer

Joomla için Robots.txt poposu

Kullanıcı aracısı: *
İzin verme: /yönetici/
İzin verme: /cache/
İzin verme: /içerir/
İzin verme: /kurulum/
İzin verme: /dil/
İzin verme: /kütüphaneler/
İzin verme: /medya/
İzin verme: /modules/
İzin verme: /eklentiler/
İzin verme: /şablonlar/
İzin verme: /tmp/
İzin verme: /xmlrpc/

Bitrix için Robots.txt dosyası

Kullanıcı aracısı: *
İzin verme: /*index.php$
İzin verme: /bitrix/
İzin verme: /auth/
İzin verme: /kişisel/
İzin verme: /upload/
İzin verme: /arama/
İzin verme: /*/arama/
İzin verme: /*/slide_show/
İzin verme: /*/gallery/*order=*
İzin verme: /*? Yazdır =
İzin verme: /*&print=
İzin verme: / * kayıt =
İzin verme: / * Forgot_password =
İzin verme: / * change_password =
İzin verme: /*login=
İzin verme: /*çıkış=
İzin verme: /*auth=
İzin verme: /*? Eylem =
İzin verme: /* eylem = ADD_TO_COMPARE_LIST
İzin verme: /* eylem = DELETE_FROM_COMPARE_LIST
İzin verme: / * eylem = ADD2BASKET
İzin verme: / * eylem = SATIN AL
İzin verme: /*bitrix_*=
İzin verme: /*backurl=*
İzin verme: /*BACKURL=*
İzin verme: /*back_url=*
İzin verme: /*BACK_URL=*
İzin verme: /*back_url_admin=*
İzin verme: /* print_course = Y
İzin verme: / * COURSE_ID =
İzin verme: /*? COURSE_ID =
İzin verme: /*? SAYFA
İzin verme: / * PAGEN_1 =
İzin verme: / * PAGEN_2 =
İzin verme: / * PAGEN_3 =
İzin verme: / * PAGEN_4 =
İzin verme: / * PAGEN_5 =
İzin verme: / * PAGEN_6 =
İzin verme: / * PAGEN_7 =

İzin verme: /* PAGE_NAME = arama
İzin verme: /* PAGE_NAME = user_post
İzin verme: /* PAGE_NAME = detay_slide_show
İzin verme: /*SHOWALL
İzin verme: / * show_all =
Site Haritası: XML formatında haritanızın http://yolu

MODx için Robots.txt dosyası

Kullanıcı aracısı: *
İzin verme: /assets/cache/
İzin verme: /assets/docs/
İzin verme: /assets/export/
İzin verme: /assets/import/
İzin verme: /assets/modules/
İzin verme: /assets/plugins/
İzin verme: /assets/snippet'ler/
İzin verme: /install/
İzin verme: /yönetici/
Site haritası: http://site.ru/sitemap.xml

Drupal için Robots.txt dosyası

Kullanıcı aracısı: *
İzin verme: /veritabanı/
İzin verme: /içerir/
İzin verme: /misc/
İzin verme: /modules/
İzin verme: /siteler/
İzin verme: /temalar/
İzin verme: /scripts/
İzin verme: /güncellemeler/
İzin verme: /profiller/
İzin verme: /profil
İzin verme: /profil/*
İzin verme: /xmlrpc.php
İzin verme: /cron.php
İzin verme: /update.php
İzin verme: /install.php
İzin verme: /index.php
İzin verme: /admin/
İzin verme: /yorum/yanıt/
İzin verme: /contact/
İzin verme: /çıkış/
İzin verme: /arama/
İzin verme: /user/register/
İzin verme: /kullanıcı/şifre/
İzin verme: *kayıt ol*
İzin verme: *giriş yap*
İzin verme:/en çok oy alan-
İzin verme: /mesajlar/
İzin verme: /book/export/
İzin verme: /user2userpoints/
İzin verme: /kullanıcınoktalarım/
İzin verme: /tagadelic/
İzin verme: /yönlendirme/
İzin verme: /toplayıcı/
İzin verme: /files/pin/
İzin verme: /oylarınız
İzin verme: /yorumlar/en son
İzin verme: /*/düzenle/
İzin verme: /*/delete/
İzin verme: /*/dışa aktarma/html/
İzin verme: /taxonomy/term/*/0$
İzin verme: /*/düzenle$
İzin verme: /*/outline$
İzin verme: /*/revizyonlar$
İzin verme: /*/iletişim$
İzin verme: /* indirme kanalı
İzin verme: /node$
İzin verme: /node/*/track$
İzin verme: /*&
İzin verme: /*%
İzin verme: /*? Sayfa = 0
İzin verme: /*bölüm
İzin verme:/*sipariş
İzin verme: /*? Düzenlemek *
İzin verme: /*&sırala*
İzin verme: /*votesupdown
İzin verme: /* takvim
İzin verme: /*index.php
İzin vermek: /*? Sayfa =
İzin verme: /*?
Site Haritası: XML formatında haritanızın http://yolu

UVAGA!

CMS sürekli olarak güncellenmektedir. Diğer sayfaların indekslenmesini kapatmanız gerekebilir. Fark edilmeden bırakılırsa indeksleme çiti kaldırılabilir veya yanlışlıkla eklenebilir.

robots.txt'yi kontrol edin

Dış görünüş jokerinin, robots.txt dosyasını kaydetmeden önce kendi tercihleri ​​vardır.

İçin robots.txt'yi kontrol edinÇevrimiçi hizmetlerden birini kullanarak dosyanın sözdiziminin ve yapısının doğruluğunu hızlı bir şekilde kontrol edebilirsiniz. Örneğin, Yandex ve Google web yöneticileri için siteye güç analizi hizmetleri sunuyor; robots.txt analizi:

Yandex arama robotu için robotx.txt dosyasının doğrulanması

Yandex - Yandex.Webmaster'ın özel bir aracını ve diğer iki seçeneği kullanarak para kazanabilirsiniz.

Seçenek 1:

Sağda düşen olanı seçin - seçin robots.txt analizi veya bunun uğruna http://webmaster.yandex.ru/robots.xml

Robots.txt dosyasında yapacağınız tüm değişikliklerin hemen değil, bir saat içinde geçerli olacağını unutmamanız önemlidir.

Google arama robotu için robotx.txt dosyasının doğrulanması

  1. Google Search Console'da sitenizi seçin, doğrulama aracına gidin ve robots.txt dosyasına bakın. sözdizimselі mantıklıİşaretler yenisinde görünecek ve miktarları düzenleme penceresinin altında belirtilecektir.
  2. Arayüzün alt kısmında, açılır pencereye gerekli URL'yi girin.
  3. Açılır menüden sağ elini seçin robot.
  4. butona basın GÖZDEN GEÇİRMEK.
  5. Durumu göster MEVCUT ya da başka KULLANIM DIŞI. İlk durumda, Google robotları girdiğiniz adresi takip edebilir ancak diğer durumda izlemezler.
  6. Gerekirse menüde değişiklik yapın ve kontrolü yeniden çalıştırın. Saygı! Bu değişiklikler sitenizdeki robots.txt dosyasına otomatik olarak eklenmez.
  7. Değişikliklerinizi kopyalayın ve web sunucunuzdaki robots.txt dosyasına ekleyin.

Yandex ve Google'ın doğrulama hizmetlerine ek olarak çevrimiçi başka hizmet yok robots.txt doğrulayıcıları.

Robots.txt oluşturucuları

  1. SEOlib.ru'dan hizmet. Bu aracı kullanarak Robots.txt dosyasındaki sınırlara hızlı bir şekilde erişebilir ve kontrol edebilirsiniz.
  2. Oluşturucu pr-cy.ru'dandır. Robots.txt oluşturucunun bir sonucu olarak, kaydetmeniz gereken metni Robots.txt adlı bir dosyaya çıkarır ve sitenizin kök dizinine eklersiniz.

Kök robots.txt dosyasının doğru ve yetkin bir şekilde yapılandırılması, bir WEB yöneticisinin en önemli görevlerinden biridir. Arama modunda doğru avantajları elde edemezseniz sitede çok sayıda gereksiz sayfa bulunabilir. Aksi takdirde sitenizdeki önemli belgeler indekslenmeye kapatılacaktır; en kötü durumda, alan adının kök dizininin tamamını arama motoru robotlarına kapatabilirsiniz.

Robots.txt dosyasını kendi ellerinizle doğru şekilde ayarlamak aslında görev çok karmaşık değil. Bu makaleyi okuduktan sonra yönergelerin inceliklerini öğrenecek ve web sitenizdeki robots.txt dosyası için bağımsız olarak kurallar yazacaksınız.

Robots.txt dosyası oluşturmak için karmaşık yerine basit bir sözdizimi kullanılır. Çok fazla Vikorist direktifi yok. Robots.txt dosyasının kurallarına, yapısına ve sözdizimine adım adım ve detaylı bir şekilde bakalım.

Yasal kurallar robots.txt

Her şeyden önce, robots.txt dosyasının kendisi ANSI kodundan suçludur.

Aksi takdirde herhangi bir ulusal alfabenin kurallarını yazmak için Latin alfabesini kullanamazsınız.

Yapısal olarak robots.txt dosyası, çeşitli ses sistemlerindeki robotlara uygun bir veya daha fazla talimat bloğundan oluşabilir. Bir dış görünüm bloğu veya bölümü, bir sitenin bir arama motoru veya başka bir arama motoru tarafından indekslenmesine yönelik bir dizi kural (yönerge) içerir.

Direktiflerin kendilerinde, kural bloklarında ve aralarında herhangi bir başlık veya simge bulunmasına izin verilmez.

Direktifler ve kural blokları satır transferlerine bölünmüştür. Bir şey, bir yorum.

robots.txt dosyasında yorum yapma

Yorum yapmak için '#' sembolü kullanılır. Bir satırın başına karma sembolü yerleştirirseniz, satırın tamamı, arama robotları tarafından satırın sonuna kadar göz ardı edilecektir.

Kullanıcı aracısı: *
İzin verme: /css # yorum yazma
# Bir yorum daha yazalım
İzin verme: /img

robots.txt dosyasındaki bölümler

Bir dosya robot tarafından okunduğunda, yalnızca o arama sisteminin robotuna gönderilen bölüm okunur, eğer bölümde kullanıcı aracısı Yandex arama sisteminin adı ile belirtilirse, robot yalnızca adreslenen adresi okur. bu bölüme gidin ve tüm robotlar için yönergenin bulunduğu bölüm de dahil olmak üzere diğerlerini göz ardı edin - Kullanıcı aracısı: *.

Bölümün cildi bağımsızdır. Bir bölüm, cilt robotları veya belirli ses sistemleri için bir atel veya tüm robotlar veya sistemlerinden birinin robotları için tek bir evrensel bölüm olabilir. Yalnızca bir bölüm varsa dosyanın ilk satırından başlar ve tüm satırları kaplar. Çaça bölümü varsa, o zaman koku yeni sıranın sembolü ile ayrılacaktır, ancak bir tane olacaktır.

Bu bölüm her zaman Kullanıcı aracısı yönergesiyle başlar ve bu bölüm tüm robotlar için evrensel olmadığından robotların atandığı arama sisteminin adını içerir. Pratikte şöyle görünür:

Kullanıcı aracısı: YandexBot
# Yandex sistemindeki robotlar için kullanıcı aracısı
Kullanıcı aracısı: *
# Tüm robotlar için kullanıcı aracısı

Bazı bot adlarının engellendiğinden emin olun. Cilt ses sisteminin botları için kendi bölümleri, kendi ayrı kural blokları oluşturulur. Size göre tüm robotların kuralları aynı olduğundan, evrensel, gizli bir bölüm seçin.

Direktifler, ne?

Direktif, ses robotuna bilgi sağlayan bir komut veya kuraldır. Yönerge, arama botuna sitenizi nasıl indeksleyeceğini, hangi dizinlerin görüntülenemeyeceğini, site haritasının XML formatında nerede olduğunu, alan adının ne olduğunu, ana aynayı ve diğer teknik detayları anlatır.

Robots.txt dosyasındaki bölüm aşağıdaki komutlardan oluşur:
direktifler Direktiflerin orijinal sözdizimi şöyledir:

[Directive_name]: [isteğe bağlı] [değer] [isteğe bağlı]

Yönerge, tireleme olmadan tek satır halinde yazılır. Kabul edilen standartlara göre, bir bölümdeki talimatlar arasında satır atlamaya izin verilmez, dolayısıyla bir bölümün tüm talimatları ek satır atlama olmadan aynı satıra yazılır.

Ana vikorist direktiflerinin anlamını açıklayalım.

Yönergeye izin verme

Robots.txt dosyasında en çok suiistimal edilen yönerge "İzin Verme"dir. “Disallow” direktifi kendisine atanan yolun indekslenmesini engeller. Bu, URL'nizdeki (yol), sitenin bir kısmı, dizin (klasör) veya sitenin tamamındaki "maskeyi" değiştirmek için bir sayfada veya sayfada yapılabilir.

“*” - yıldız, “birkaç sembol olabilir” anlamına gelir. Ancak Tobto, yol / klasör *, “/ klasörler”, “/ klasör1”, “/ klasör111”, “/ klasörlerssss” veya “/ klasör” ile aynı anlama gelir. Robotlar kuralları okurken otomatik olarak “*” işaretini ekler. Aşağıya doğru bakan popo için saldırı direktifleri kesinlikle eşdeğerdir:

İzin Verme:/haber
İzin verme: /haber*

“$” - dolar işareti, “*” sembolünü otomatik olarak ekleme talimatlarını okurken robotların gizlenmesini sağlar(Zirochka) direktifin sonunda. Yani “$” sembolü satırın sonunu ifade ediyor. Yani uygulamamızda “/ klasör” klasörünün indekslenmesini koruyoruz ancak “/ klasör1”, “/ klasör111” veya “/ klasörlerssss” klasörlerinde koruma yapmıyoruz:

Kullanıcı aracısı: *
İzin verme: /klasör$

“#” - (Sharpe) açıklama işareti. Aynı satırda bu simgeden sonra yazılan her şey ses sistemleri tarafından dikkate alınmaz.

Yönergeye izin ver

Robots.txt dosyasındaki ALLOW direktifi DISSALOW direktifinin anlamına benzer, ALLOW direktifi ayrıdır. Aşağıdaki örnek, / klasörü dışında tüm sitenin indekslenmesini koruduğumuzu göstermektedir:

Kullanıcı aracısı: *
İzin ver: /klasör
İzin verme: /

Bir saatlik vikoristan örneği "İzin Ver", "İzin Verme" ve öncelik

Direktif verirken kısıtlamalarda ve izinlerde önceliğin önemini unutmayın. Daha önce öncelik, kısıtlamaların ve izinlerin sırasına göre belirleniyordu. Aynı zamanda, arama sisteminin robotu (Kullanıcı aracısı) için bir blok içindeki en net yolun atanmasına, en yüksek yol ve yönergenin eklendiği yer sırasına göre öncelik verilir. yol ne kadar yüksek olursa öncelik o kadar yüksek olur:

Kullanıcı aracısı: *
İzin ver: /klasörler
İzin verme: /klasör

Bu uygulama, “/ klasörler” ile başlayan URL'lerin indekslenmesine izin verir ancak URL'lerinde “/ klasör”, “/ klasörlersss” veya “/ klasör2” içerecek şekilde engellenir. “İzin Ver” ve “İzin Verme” direktiflerine karşı yeni bir yola gidildiğinde öncelik “İzin Ver” direktifine verilir.

“Allow” ve “Disallow” direktiflerindeki boş parametre değerleri

robots.txt dosyasında "İzin Verme" yönergesi varsa WEB yöneticileri kısıtlanır
“/” sembolünü eklemeyi unutmayın. Bu, direktiflerin anlamının ve sözdiziminin yanlış ve hoşgörülü bir şekilde yorumlanması anlamına gelir. Sonuç olarak, kısıtlama yönergesi ayrı kalır: "İzin Verme:", "İzin Ver: /" ile tamamen aynıdır. Sitenin tamamını dizine eklemek için doğru kısıtlama şu şekilde görünür:

Aynı şey “İzin Ver:” için de söylenebilir. “/” sembolü olmayan “Allow:” direktifi, “Disallow: /” gibi tüm sitenin indekslenmesini engeller.

Site Haritası Direktifi

SEO optimizasyonunun tüm kurallarına uyularak, XML formatında bir site haritası (SİTE HARİTASI) oluşturularak arama motorlarına sunulması gerekir.

Arama motorlarında “WEB master'ları için dolaplar”ın işlevselliği ne olursa olsun, “ek direktifi” kullanarak robots.txt dosyasında sitemap.xml dosyasının varlığını beyan etmek gerekir. SİTE HARİTASI" Arama robotları, sitenizi tararken sitemap.xml dosyasına bir eklenti ekleyin ve sonraki taramalarda onu vikorize ettiğinizden emin olun. Robots.txt dosyasındaki site haritası yönergesi örneği:

Kullanıcı aracısı: *
Site haritası: https://www.domainname.zone/sitemap.xml

Ana bilgisayar yönergesi

Bir diğer önemli robots.txt yönergesi ise EV SAHİBİ.

Lütfen tüm ses sistemlerinin bunu tanımadığını unutmayın. “Yandex” bu yönergeyi okuduğunu belirtirse ve Rusya'daki Yandex ana “yılın arama motoru” ise “ana bilgisayar” yönergesini göz ardı etmeyeceğiz.

Bu, ses sistemlerine hangi alanın ana ayna olduğunu söyleyen bir direktiftir. Sitenin aynı adres olabileceğini hepimiz biliyoruz. Bir sitenin URL'si WWW önekini içerebilir veya hariç tutabilir veya sitenin bir dizi alan adı olabilir, örneğin, domain.ru, domain.com, domen.ru, www.domen.ru. Bu gibi durumlarda ana adı da olan host direktifini kullanarak robots.txt dosyası içerisinde arama sistemini bilgilendiriyoruz. En önemli direktif baş aynanın adıdır. Kıçını doğrultalım. Çok sayıda alan adımız olabilir (domain.ru, domain.com, domen.ru, www.domen.ru) ve bunların tümü robots.txt dosyasındaki giriş olan www.domen.ru web sitesine yönlendirilecektir. dosya şöyle görünecek:

Kullanıcı aracısı: *
Ana bilgisayar: www.domain.ru

Başlığınızın öneksiz (WWW) olmasını istiyorsanız, o zaman elbette site adı yönergesine aşağıdakini önek olmadan girin.

HOST yönergesi, WEB uzmanlarının ve SEO korsanlarının sıklıkla karşılaştığı bir sorun olan yinelenen sayfalar sorununu çözer. Bu nedenle, Rusya segmentini hedeflediğinizden ve sitenizi Yandex arama motorunda sıralamanız önemli olduğundan HOST direktifinin dikkatle incelenmesi gerekir. Tekrarlıyoruz, bugün yalnızca Yandex bu yönergenin okunduğunu beyan etmektedir. Diğer ses sistemlerine kafa aynası takmak için WEB yöneticilerinin hesaplarındaki ayarları hızlı bir şekilde yapmanız gerekir. Kafa aynasının adının doğru girilebileceğini unutmayın (robots.txt dosyasında doğru yazım, doğru kodlama ve sözdizimi). Bu yönergeye bir dosyada yalnızca bir kez izin verilir. Birkaç kez nazikçe belirtirseniz, robotlar yalnızca girmeden önce çalışacaktır.

Tarama gecikmesi yönergesi

Bu direktif, sitenizde arama yapmak çoğu zaman gerekli olduğundan, arama robotlarına teknik ekip tarafından verilmektedir. Daha doğrusu, Tarama gecikmesi yönergesi, sitenize erişen robotlar (arama motoru tarayıcıları) arasındaki kesintinin minimum düzeyde olmasını belirtir. Bu kuralı belirtmemiz gerekiyor mu? Robotlar size daha sık gelirse ve sitede yeni bilgiler çok daha nadir ortaya çıkarsa, sitenizdeki nadir bir bilgi değişikliğinden önce arama sistemleri hızlı bir şekilde çalacak ve sizinle çok daha erken iletişime geçecektir. Bu, "Tarama gecikmesi" direktifinin kullanımı için sağlam bir argümandır. Şimdi teknik argümana geçelim. Çoğu zaman sitenize robotlar tarafından erişilmesi, sunucu üzerinde gerçekten ihtiyacınız olmayan ek bir baskı oluşturur. Önemli direktiflerin tam sayıyı belirtmesi daha iyidir, ancak artık robotlar kesirli sayıları okumayı öğrendi. Saati saniye cinsinden belirtin, örneğin:

Kullanıcı aracısı: Yandex
Tarama gecikmesi: 5,5

Clean-param direktifi

İsteğe bağlı "Clean-param" direktifi, arama motoru botlarına, diğer URL'ler gibi dizine eklenmesine ve ayrıştırılmasına gerek kalmayacak şekilde site adresini parametreleştirmesi talimatını verir. Örneğin, bir veya daha fazla parametreye bölünmüş, farklı adreslerde görüntülenen aynı sayfalarınız var:

www.domain.zone/klasör/sayfa/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/index.php? klasör = 1 ve sayfa = 1

Arama robotları tüm benzer sayfaları tarayacak ve sayfaların aynı olduğunu, aynı içeriğin değiştirildiğini fark edecektir. Öncelikle indeksleme sırasında sitenin yapısında karışıklık yaratmak önemlidir. Farklı bir şekilde, sunucudaki ek navantazhenya büyüyor. Üçüncüsü, taramanın akışkanlığı azalacaktır. Bu olumsuzlukları önlemek için “Clean-param” direktifi kullanılıyor. Gelişmiş sözdizimi:

Temiz parametre: param1 [& param2 & param3 & param4 & ... & param * N] [Yol]

“Clean-param” direktifi, “Host” direktifi gibi, tüm ses sistemleri tarafından okunmaz. Ale Yandex anlayışlı.

Robots.txt dosyasında sıklıkla yer alan mesajlar

Robots.txt dosyası sitenin kökünde bulunmuyor

Robot dosyası txt, sitenin kökünde yer almasından dolayı suçludur, yalnızca kök dizinde. Aynı ada sahip ancak diğer klasörlerde (dizinlerde) bulunan tüm diğer dosyalar ses sistemleri tarafından dikkate alınmaz.

Robots.txt dosyasının adında değişiklik

Dosya küçük harflerle (küçük harf) yazılmıştır ve adlandırılmalıdır. robotlar.txt. Diğer tüm seçenekler dikkate alınır ve dosyanın kullanılabilirliği hakkında sizi bilgilendirir. Yemeğin bölümleri şöyle görünür:

ROBOTLAR.txt
Robots.txt
robot.txt

Robot.txt dosyasında geçersiz karakterleri arayın

Robots.txt dosyası ANSI dilinde kodlanmıştır ve yalnızca Latin karakterleri içerir. Yönergelerin ve anlamlarının başka ulusal sembollerle yazılması, yorumlar haricinde kabul edilemez.

robots.txt sözdiziminde yapılan ayarlamalar

Robots.txt dosyasındaki sözdizimi kurallarına sıkı sıkıya bağlı kaldığınızdan emin olun. Sözdizimsel hatalar, dosyanın tamamının arama motorları tarafından göz ardı edilmesine yol açabilir.

Kullanıcı aracısı yönergesinde birkaç robotun tek satırda yeniden düzenlenmesi

Web yöneticileri tarafından sıklıkla izin verilen kural, robots.txt dosyasını bölümlere ayırmak değil, birkaç ses sistemine yönelik komutları tek bir bölümde birleştirmek yerine güç hattı üzerinden geçmektir, örneğin:

Kullanıcı aracısı: Yandex, Googlebot, Bing

Cilt ses sistemi için ses sisteminin okuduğu talimatlar doğrultusunda kendi bölümünü oluşturmak gerekmektedir. Ne yazık ki bu durumda tüm ses sistemleri için tek bir bölüm vardır:

Boş değerlere sahip kullanıcı aracısı

Kullanıcı aracısı yönergesi boş bir değere sahip olamaz. Yalnızca “İzin Ver” ve “İzin Verme” boş bırakılabilir, bu da anlamlarını değiştirebilir. Kullanıcı aracısı direktifini boş değerlerle eklemek kaba kuvvettir.

Disallow direktifindeki değerlerin sayısı

Kaldırma işlemi daha sık gerçekleşir ve aynı zamanda İzin Ver ve İzin Verme yönergelerine çeşitli değerler eklenerek sitelerde periyodik olarak okunabilir, örneğin:

İzin verme: /klasör1/klasör2/klasör3

İzin verme: /klasör1
İzin verme: /klasör2
İzin verme: /klasör3

robots.txt dosyasındaki yönergelerin önceliklerinin ayarlanamaması

Bu prosedür yukarıda anlatılmıştır ancak malzemeyi güçlendirmek için tekrarlanacaktır. Daha önce öncelik, yönergelerin eklenme sırasına göre belirleniyordu. Bugün itibarıyla kurallar değişti, öncelik sıra bitiminden sonra belirlenecek. Bir dosyanın birbirini dışlayan iki yönergesi varsa, İzin Ver ve İzin Verme birlikte, İzin Ver öncelikli olacaktır.

Arama sistemleri ve robots.txt

Robots.txt dosyasındaki yönergeler arama motorları için tavsiye niteliğindedir. Bu, okuma kurallarının periyodik olarak değiştirilebileceği veya güncellenebileceği anlamına gelir. Dış görünüm arama sisteminin dosyaya kendi yöntemiyle yönergeler sağladığını unutmayın. Ve cilt, ses sistemlerinden gelen tüm direktifleri okumaz. Örneğin bugün yalnızca Yandex “Ana Bilgisayar” direktifini okuyor. Ancak Yandex, Host direktifindeki kafa aynasının mutlaka kafaya atanacağından alan adının belirtildiğini garanti etmez, ancak direktifte atanan ismin önceliğinin verileceğini onaylar.

Küçük bir kural kümeniz varsa tüm robotlar için tek bir bölüm oluşturabilirsiniz. Aksi takdirde ses sisteminizin dış yüzeyi için ayrı bölümler oluşturmaktan çekinmeyin. Hikayedeki hiçbir şarkının şakalarla israf edilmesini istemediğiniz için özellikle çitlere gitmelisiniz.

Gerekli tüm alanları tutarlı bir şekilde doldurun. Talimatlarınızın dünyasında, Robots.txt dosyanızdan en son direktifleri alacaksınız. Aşağıda Robots.txt dosyasına yönelik tüm yönergelerin açıklaması bulunmaktadır.

Unutma, kopyala ve metni bir metin düzenleyiciye yapıştırın. Dosyayı sitenizin kök dizinine "robots.txt" olarak kaydedin.

robots.txt dosya biçiminin açıklaması

Robots.txt dosyası, her biri iki alandan oluşan kayıtlardan oluşur: istemci programının adını içeren satırlar (kullanıcı aracısı) ve Disallow yönergesiyle başlayan bir veya daha fazla satır:

Direktif ":" anlamı

Robots.txt, Unix metin biçiminde oluşturulduğu için suçludur. Çoğu iyi metin düzenleyici, Windows karakterlerini zaten Unix'e dönüştürebilmektedir. Aksi halde bu işin sorumluluğu FTP istemcinize aittir. Düzenlemek için, özellikle kodu görüntülemek için metin modu olmayan bir HTML düzenleyici kullanmaktan çekinmeyin.

Direktif Kullanıcı aracısı:

Rambler için: Kullanıcı aracısı: StackRambler Yandex için: Kullanıcı aracısı: Yandex Google için: Kullanıcı Aracısı: googlebot

Tüm robotlar için talimatlar oluşturabilirsiniz:

Kullanıcı aracısı: *

Direktif İzin verme:

Kaydın diğer kısmı ise Disallow satırlarından oluşuyor. Tsi satırları - belirli bir robot için talimatlar (göstergeler, komutlar). Kullanıcı aracısının yanına girilen her grup bir Disallow talimatı gerektirir. Disallow talimatlarının sayısı sınırlı DEĞİLDİR.Robotun hangi dosya ve/veya dizinleri indekslemesine izin verilmediğini robota bildirirler. Bir dosyanın veya dizinin indekslenmesini engelleyebilirsiniz.

Bu yönerge /cgi-bin/ dizininin indekslenmesini engeller:

İzin verme: /cgi-bin / Klasör adının sonundaki / öğesine geri dön! “/dir” dizininin kendisini engellemek için talimatlar şu şekildedir: “Disallow: /dir/”. Ve “Disallow: /dir” satırı “/dir” ile başlayarak sunucunun tüm taraflarını, bunların dışında (sunucu kökü gibi) engeller. Örneğin: "/dir.html", "/dir/index.html", "/directory.html".

Bu şekilde yazıldığında, yönerge kökte bulunan index.htm dosyasından indekslemeyi engeller:

İzin verme: /index.htm

direktif İzin vermek Yalnızca Yandex anlıyor.

Kullanıcı aracısı: Yandex İzin Ver: / cgi-bin İzin Verme: / #, "/ cgi-bin" ile başlayan sayfalar dışındaki her şeyi şifrelemenizi engeller. Diğer arama sistemleri için, tüm kapalı belgeleri geri yüklemeniz gerekecektir. Sitenin yapısını, indekslenmek üzere kapatılan belgelerin mümkünse tek bir yerde toplanacağı şekilde düşünün.

Disallow direktifi boş olacaktır, bu da robotun TÜM dosyaları indeksleyebileceği anlamına gelir. Robots.txt dosyasının doğru şekilde girilebilmesi için Kullanıcı aracısı dış görünümü alanında en az bir Disallow yönergesi mevcut olabilir. Tamamen boş robots.txt dosyası, sanki hiçbir şey olmamış gibi aynı anlama gelir.

Rambler robotu *'yi herhangi bir sembol olarak algılar, İzin Verme talimatı: * tüm sitenin indekslenmesinin engellenmesi anlamına gelir.

İzin Ver, Parametresiz direktiflere izin verme. Allow ve Disallow direktiflerinin parametre sayısı şu sırayla yorumlanır: User-agent: Yandex Disallow: # aynı ve İzin Ver: / User-agent: Yandex Allow: # aynı ve Disallow: /

"*" ve "$" özel karakterlerinden oluşan Viktorya dönemi.
Allow-Disallow direktiflerini belirtirken "*" ve "$" özel karakterlerini kullanabilir, böylece normal ifadeleri belirtebilirsiniz. Özel karakter "*", hangi karakter dizisi olursa olsun (boş dahil) anlamına gelir. uygula:

Kullanıcı aracısı: Yandex İzin Verme: /cgi-bin/*.aspx # "/cgi-bin/example.aspx" ve "/cgi-bin/private/test.aspx"'i korur İzin Verme: / * özel # yalnızca " korumaz / özel ", ale i" / cgi-bin / özel " Özel karakter "$".
robots.txt dosyasında açıklanan dış görünüm kuralının sonuna kadar olan uygulamalar için bir "*" eklenir, örneğin: Kullanıcı aracısı: Yandex İzin Verme: / cgi-bin * #, "/ cgi-bin" ile başlayan sayfalara erişimi engeller Disallow: / cgi-bin # aynı şey, kuralın sonundaki "*" karakterinden kaçmak için "$" özel karakterini kullanabilirsiniz, örneğin: Kullanıcı aracısı: Yandex Disallow: / example $ # hariç tutar "/ example", ancak "/example.html"yi hariç tutmaz Kullanıcı aracısı: Yandex İzin Vermez: / example #, "/ example" ve "/example.html"ye izin vermez Kullanıcı aracısı: Yandex İzin Vermez: / example $ # yalnızca izin vermez " / example" Disallow: / example * $ # "Disallow: /example" blokları /example.html ve /example ile aynı

Direktif Ev sahibi.

Sitenizde aynalar varsa, özel bir ayna robotu bunları tanımlayacak ve siteniz için bir ayna grubu oluşturacaktır. Poshuku kardeşlerin kaderi sadece ateşin yansımasıydı. Bunu robots.txt, vikorist ve "Host" direktifine, kafa aynası adı parametresini de belirterek girebilirsiniz. "Host" direktifi, belirlenen baş aynanın, koruyucunun, algoritmanın seçimini, bir karar verildiğinde yüksek öncelik ile kabul edileceğini garanti etmez. Örnek: # Eğer www.glavnoye-zerkalo.ru site için bir sahte ise, o zaman # www.neglavnoye-zerkalo.ru için robots.txt şu Kullanıcı Aracısına benzer: * İzin Verme: / forum İzin Verme: / cgi-bin Ana Bilgisayar : www.glavnoye -zerkalo.ru Robots.txt dosyası işlenirken standarda uymayan robotların karmaşıklığından dolayı “User-Agent” kaydı ile başlayan gruba “Host” direktifinin eklenmesi gerekmektedir, “İzin Verme” (“İzin Ver” direktifleri)) hemen ardından ) . "Ana Bilgisayar" yönergesinin argümanı, port numarası (tanım gereği 80) ve ardından çift kutu bulunan bir alan adıdır. Host yönergesinin parametresi, doğru bir ana bilgisayar adı (yani, IP adresi değil, geçerli RFC 952) ve geçerli bir bağlantı noktası numarası gerektirir. Yanlış katlanmış "Ana Bilgisayar:" satırları dikkate alınmaz.

Host direktiflerinin göz ardı edilmesine örnekler:

Ana Bilgisayar: www.myhost-.ru Ana Bilgisayar: www.-myhost.ru Ana Bilgisayar: www.myhost.ru:100000 Ana Bilgisayar: www.my_host.ru Ana Bilgisayar: .my-host.ru: 8000 Ana Bilgisayar: my-host.ru. Ana Bilgisayar: my..host.ru Ana Bilgisayar: www.myhost.ru/ Ana Bilgisayar: www.myhost.ru:8080/ Ana Bilgisayar: 213.180.194.129 Ana Bilgisayar: www.firsthost.ru, www.secondhost.ru # bir satırda - bir ihtisas! Ana Bilgisayar: www.firsthost.ru www.secondhost.ru # tek satırda - bir alan adı !! Ana bilgisayar: ekіpazh-svyaz.rf # vikorystvati zayıf koduna ihtiyaç var

Direktif Tarama gecikmesi

Arama robotunun sayfaları sunucunuzdan indirmesinden önceki zaman aşımını saniye cinsinden ayarlar (Tarama gecikmesi).

Sunucu çok yüklüyse ve indirme isteklerini işleyemiyorsa "Tarama-gecikme" direktifiyle süreci hızlandırın. Bu, arama robotunu, bir tarafı indirmenin sonu ile bir sonrakini indirmenin başlangıcı arasındaki minimum saatlik süreyi (saniye cinsinden) ayarlamanıza olanak tanır. Robots.txt dosyasını işlerken standarda uymayan robotların karmaşıklığı nedeniyle, "User-Agent" kaydıyla başlayan gruba "İzin Verme" seçeneğinin hemen ardından "Tarama-gecikme" yönergesinin eklenmesi gerekir. ("İzin Ver") direktifleri.

Yandex arama robotu, Tarama Gecikmesi atış değerlerini, örneğin 0,5'i destekler. Bu, arama robotunun sitenizi her saniye ziyaret edeceğini garanti etmez ancak robota daha fazla özgürlük verir ve siteyi daha hızlı taramasını sağlar.

Kullanıcı aracısı: Yandex Tarama gecikmesi: 2 # zaman aşımını 2 saniyeye ayarlar Kullanıcı aracısı: * İzin verme: / arama Tarama gecikmesi: 4.5 # zaman aşımını 4,5 saniyeye ayarlar

Direktif Temiz parametre

Adres satırından parametrelerin devre dışı bırakılmasına ilişkin yönerge. Bu parametrenin sıfırlanmasını istemek veya sıfırlamamak için aynı şekilde ele alınacaktır.

Boş satırlar ve yorumlar

Talimat grupları arasında boş satırlara izin verilir, Kullanıcı aracısına girin.

Disallow talimatı yalnızca herhangi bir Kullanıcı aracısı satırı tarafından sipariş edilmesi durumunda geçerlidir; bu durumda Kullanıcı aracısı satırından üstündür.

Satırın sonuna kadar "#" karma işaretini takip eden tüm metinler yoruma dahil edilir ve dikkate alınmaz.

popo:

Saldırgan basit dosya robots.txt Rambler robotu dışında tüm robotların sitenin tüm sayfalarını dizine eklemesini engeller, ancak sitenin tüm sayfalarını dizine eklemesine izin verilir.

# Tüm robotlar için talimatlar Kullanıcı aracısı: * İzin verme: / # Rambler robotu için talimatlar Kullanıcı aracısı: StackRambler İzin Verme:

Avantajların genişletilmesi:

Tersine çevrilmiş sözdizimi: Kullanıcı aracısı: / Disallow: StackRambler Ama şöyle olmalı: Kullanıcı aracısı: StackRambler Disallow: / Bir satırda bir dizi Disallow direktifi: Disallow: / css / / cgi-bin / / resimler / Doğru şekilde benzer bu: İzin Verme: / css/İzin Verme:/cgi-bin/İzin Verme:/images/
    Notlar:
  1. "Kullanıcı aracısı" ve "İzin Verme" ("İzin Ver") direktifleri arasında ve ayrıca "İzin Verme" ("İzin Ver") direktifleri arasında boş satır geçişlerinin olması kabul edilemez.
  2. Standarda uygun olarak kullanıcı aracısı direktifinin önüne yeni bir boş satır eklenmesi tavsiye edilir.

Herkese merhaba! Bugün sizi bu konuda bilgilendirmek istiyorum robots.txt dosyası. İnternette o kadar çok şey yazıldı ki, ama dürüst olmak gerekirse, ben de uzun zamandır doğru robots.txt dosyasının nasıl oluşturulacağını anlayamadım. Zaten bir tane yaptım ve tüm bloglarımda var. Herhangi bir sorun görmüyorum, robots.txt harika çalışıyor.

WordPress için Robots.txt

Ve yine de görünüşe göre robots.txt gerekli mi? Hikaye hala aynı -. Bu, sitenin arama optimizasyonunun parçalarından biri olan robots.txt'nin oluşturulmasıdır (konuşmadan önce, yakında sitenin WordPress'teki tüm dahili optimizasyonuna ayrılacak bir ders olacak. Bu yüzden unutmayın) Bunu materyallerde kaçırmamak için RSS'ye abone olun.)

Bu dosyanın işlevlerinden biri indeksleme koruması Sitedeki gereksiz sayfalar. Yenisinde de adresler belirtilir ve başlık yazılır sitenin aynası(www olan veya www olmayan site).

Not: Ses sistemleri için www olan ve www olmayan aynı site tamamen farklı sitelerdir. Ale, arama motorlarının bu siteler yerine onları birbirine "yapıştırdığını" fark etti. Web sitesi aynasını robots.txt dosyasına yazmanız önemlidir. Adın ne olduğunu öğrenmek için (www ile veya www olmadan), sitenizin adresini tarayıcıya örneğin www ile yazmanız yeterlidir; çünkü www olmadan sizi otomatik olarak aynı siteye yönlendirecektir; bu, kelimenin anlamıdır. www olmadan sitenizin bir aynası. Umarım doğru anlatmışımdır.

Yani eksen, bu kutsal olan, bence, WordPress için robots.txt dosyasını düzeltin Daha aşağıya inebilirsin.

WordPress için Robots.txt dosyasını düzeltme

Kullanıcı aracısı: *
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-includes
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: * / * / feed / * /
İzin verme: */feed
İzin verme: /*? *
İzin verme: /etiket

Kullanıcı aracısı: Yandex
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-includes
İzin verme: /wp-content/plugins
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: * / * / feed / * /
İzin verme: */feed
İzin verme: /*? *
İzin verme: /etiket
Ana bilgisayar: web sitesi
.gz
Site haritası: https://site/sitemap.xml

Yukarıda verilenlerin hepsini .txt uzantılı bir metin belgesine kopyalamanız gerekir, böylece dosya adı robots.txt olur. Örneğin ek programlar kullanarak bir Danca metin belgesi oluşturabilirsiniz. Tilki, unutma, nazik ol, kalan üç satırdaki değişiklik web sitenizin adresindeki adresler. Robots.txt dosyası blogun kökünde, wp-content, wp-admin ve diğer klasörlerle aynı klasörde bulunmalıdır.

Bu metin dosyasını oluşturamayacak kadar tembel olanlar için robots.txt dosyasını girip oradaki 3 satırı da özelleştirebilirsiniz.

Aşağıda ele almamız gereken teknik kısımlarda kendinizi çok fazla abartmanıza gerek olmadığını belirtmek isterim. Ufkumuzu hareket ettirip neye ihtiyaç duyulduğunu bilelim diye onları “bilmeye” yönlendiriyorum.

Özhe, sıra:

Kullanıcı aracısı

herhangi bir ses sistemi için kuralları belirler: örneğin “*” (yıldız), kuralların tüm ses sistemleri için olduğunu ve hatta daha düşük olduğunu belirtir

Kullanıcı aracısı: Yandex

bu kuralların yalnızca Yandex için geçerli olduğu anlamına gelir.

İzin verme
Ses sistemleri tarafından indekslenmesi gerekmeyen bölümleri hemen “atıyorsunuz”. Örneğin, https: // site / tag / seo sayfasında, ana makalelerle birlikte makalelerin (tekrarlanan) daha az kopyalanması vardır ve sayfaların kopyalanması, arama motorunda olumsuz olarak belirtilir, bu nedenle bu sektörlerin olması önemlidir. indeksleme kapalı, bu yüzden biz ve biz bu ek kuraldan çekiniyoruz:

İzin verme: /etiket

Yani mesele şu ki robots.txt daha önemli hale geldi, indeksleme nedeniyle sitenin WordPress'teki tüm gereksiz bölümleri kapatıldı, böylece her şeyi kolayca doldurabilirsiniz.

Ev sahibi

Burada hakkında biraz daha fazla şey öğrendiğim site için bir baş ağrısı soruyoruz.

Site haritası

Kalan iki satırda, daha fazla yardım için siteye en fazla iki haritanın adresini ayarlıyoruz.

Olası sorunlar

Ve robots.txt dosyasındaki satırların ekseninde sitemin gönderilerinin dizine eklenmesi durduruldu:

İzin verme: /*? *

Gördüğünüz gibi robots.txt dosyasındaki bu satır, doğal olarak ihtiyacımız olmayan makalelerin indekslenmesini koruyor. Bunu düzeltmek için, yalnızca 2 satırı silmeniz gerekir (tüm arama motorları ve Yandex kurallarında) ve CNC'siz bir WordPress sitesi için kalan doğru robots.txt dosyası şöyle görünecektir:

Kullanıcı aracısı: *
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-includes
İzin verme: /wp-content/plugins
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: * / * / feed / * /
İzin verme: */feed
İzin verme: /etiket

Kullanıcı aracısı: Yandex
İzin verme: /cgi-bin
İzin verme: /wp-admin
İzin verme: /wp-includes
İzin verme: /wp-content/plugins
İzin verme: /wp-content/cache
İzin verme: /wp-content/themes
İzin verme: /geri izleme
İzin verme: */geri izleme
İzin verme: */*/geri izleme
İzin verme: * / * / feed / * /
İzin verme: */feed
İzin verme: /etiket
Ana bilgisayar: web sitesi
Site haritası: https://site/sitemap.xml

Robots.txt dosyasını doğru bir şekilde derlediğinizi doğrulamak için hızlı bir şekilde Yandex Web Yöneticisi hizmetini kullanmanızı öneririm (Bu hizmete nasıl kaydolacağımı öğrendim).

Bölüme geçelim Düzeltilmiş indeksleme -> robots.txt analizi:

Oraya vardığınızda, “Siteden robots.txt'yi davet et” düğmesine tıklayın ve ardından “Kontrol Et” düğmesine tıklayın:

Size bilgi verildiği anda bu, Yandex için doğru robots.txt dosyasına sahip olduğunuz anlamına gelir:

Modern web yöneticilerinin tümü HTML koduyla çalışmaz. Çoğu kişi CMS anahtar dosyalarında yazılı olan işlevlerin ne olduğunu bilmiyor. Robots.txt dosyası gibi kaynağınızın bağırsakları ve gücün sorumlu olduğu entelektüel güç, sudaki balık gibidir. Sitede ince ayar yapmak, arama sıralamanızı yükseltmenize, siteyi en üst sıraya yerleştirmenize ve başarılı bir şekilde trafik toplamanıza olanak tanır.

Robots.txt dosyası, bir kaynağı arama motorlarının kullanımına uygun hale getirmenin ana unsurlarından biridir. Teknik bilgiler içerir ve birçok sayfaya erişimi arama robotlarıyla paylaşır. Suçlu tarafın hemen görünümde görünmesi sıska olmaktan uzaktır. Önceden, bir robots txt dosyası oluşturmak için FTP yoluyla erişime ihtiyacınız vardı. CMS'nin geliştirilmesi, önceki erişimi doğrudan kontrol paneli aracılığıyla iptal etme yeteneğini getirmiştir.

Robots.txt dosyası neden gerekli?

Bu dosya, arama robotlarına yönelik bir dizi öneri içerir. Sitenin belirli bölümlerine erişimlerini sınırlar. Bu dosyayı kök dizine yerleştirdiğinizde botların onu gözden kaçırması mümkün olmayacaktır. Sonuç olarak, kaynağınıza para harcarken, önce işinizin kurallarını okumanız ve ancak ondan sonra onu revize etmeye başlamanız gerekir.

Bu şekilde dosya, arama robotlarına etki alanındaki hangi dizinlerin indekslenmesine izin verildiğini ve hangi işleme izin verilmediğini bildirir.

Sıralama işleminin dosyanın görünürlüğünü doğrudan etkilemediği düşünülürse pek çok site robots.txt dosyasına karşı koyamaz. Tam erişim durumunda teknik doğruluğa uymak mümkün değildir. Robots.txt dosyasının kaynağa sağladığı avantajlara bakalım.

İndeksleme yapma hakkına sahip olacak arama robotlarını engelleyerek bir kaynağın indekslenmesini kısmen veya tamamen koruyabilirsiniz. Robots.txt'ye her şeyi engelleme talimatını vererek, kaynağı bir saatlik onarım veya yeniden yapılandırma için tamamen izole edebilirsiniz.

Konuşmadan önce Google geliştiricileri web yöneticilerine defalarca robots.txt dosyasının 500 KB'tan büyük olmaması gerektiğini söyledi. Bu, indeksleme sırasında derhal cezalara yol açacaktır. Eğer manuel olarak bir dosya oluşturursanız bu boyuta “ulaşmak” tabii ki imkansızdır. Bununla birlikte, CMS işlevleri otomatik olarak robots.txt değişikliğini oluşturur ve bu da onu önemli ölçüde değiştirebilir.

Her joker için basit bir dosya oluşturma

Kendi başınıza ince ayarlamalar yapmaktan korkuyorsanız bunu otomatik olarak yapabilirsiniz. Bu tür dosyaları katılımınız olmadan toplayan kurucular var. Kariyerlerine web yöneticisi olarak yeni başlayan kişiler için uygundurlar.

Resimde görüldüğü gibi sitenin adresinin girilmesiyle kurucunun kurulumuna başlanır. Daha sonra kullanmayı planladığınız ses sistemlerini seçersiniz. Eğer bu veya başka bir ses sistemiyle ilgilenmiyorsanız bunun için ayar yapmanıza gerek yoktur. Şimdi erişimi kısıtlamayı planladığınız klasörleri ve dosyaları seçmeye devam edin. Bu uygulamada kartınızın adresini ve kaynağınızın aynasını girebilirsiniz.

Robots.txt oluşturucu, formu tasarımcının dünyasında saklayacaktır. Gelecekte ihtiyacınız olan tek şey, çıkarılan metni bir txt dosyasına kopyalamaktır. Robot adını tanıtmayı unutmayın.

Robots.txt dosyasının etkililiği nasıl kontrol edilir

Bu dosyayı Yandex'de analiz etmek için Yandex.Webmaster bölümündeki ana sayfaya gidin. İletişim kutusunda sitenin adını girin ve “Giriş” düğmesine tıklayın.

Sistem, robots.txt dosyasını analiz edecek ve arama robotunun, dizine eklemeden önce engellenen sayfaları tarayıp taramayacağını kontrol edecektir. Sorun çıkması durumunda direktifler doğrudan iletişim kutusunda düzenlenebilir ve incelenebilir. Ancak bundan sonra düzenlenen metni kopyalayıp kök dizindeki robots.txt dosyanıza yapıştırmanız gerekecektir.

Benzer bir hizmet Google arama motorundan “Web Yöneticileri için Araçlar” hizmeti tarafından da sağlanmaktadır.

WordPress, Joomla ve Ucoz için robots.txt oluşturulması

Runet'in genişliğinde büyük bir popülerlik kazanan Razni CMS, robots.txt dosyalarının kendi sürümlerini yatırımcılara tanıtıyor. Bu tür dosyaları kesinlikle silmezler. Çoğu zaman, bu dosyalar ya çok evrenseldir ve kullanıcının kaynağına herhangi bir özel özellik sağlamaz, ancak bir takım önemli eksiklikler içerebilir.

Araştırmanızı tamamladıktan sonra kurulumu manuel olarak düzeltebilirsiniz (bilgi eksikliği varsa çalışmamak daha iyidir). Sitenin derinliklerine dalmaktan korkuyorsanız, hemen meslektaşlarınızın hizmetlerine başvurun. Bu tür manipülasyonlar, eğer nasıl yapılacağını biliyorsanız, yalnızca birkaç saat sürer. Örneğin robots.txt şöyle görünebilir:

Kalan iki satırda tahmin edilmesi zor olduğundan resmi kaynaktaki verileri yazmanız gerekiyor.

Visnovok

Bir web yöneticisi olarak uzmanlaşmanız gereken bir dizi beceri vardır. Kişiselleştirme ve web sitesi yönetimi bunlardan biridir. Pochatkіvtsy budіvniki, daha sonra tırmıklayamayacağınız kaynak geliştirme saati boyunca bu tür yakacak odunları biriktirebilir. Potansiyel kitlenizi ve konumlarınızı sitenizin yapıları aracılığıyla boşa harcamak istemiyorsanız, sürece iyice ve derinlemesine yaklaşın.