Robots.txt یک فایل ویژه است که در دایرکتوری ریشه سایت قرار دارد. مدیر وب سایت در این زمینه دستور می دهد که کدام صفحات و داده ها باید برای نمایه سازی در موتورهای جستجو بسته شوند. این فایل حاوی دستورالعمل هایی است که دسترسی به بخش های سایت (به اصطلاح استاندارد ربات ها) را توضیح می دهد. به عنوان مثال، می‌تواند به شما در تنظیم تنظیمات دسترسی مختلف برای روبات‌های جستجو، دستگاه‌های تلفن همراه و رایانه‌های رومیزی کمک کند. انجام صحیح یوگا بسیار مهم است.

چرا robots.txt مورد نیاز است؟

برای راهنمایی بیشتر در مورد robots.txt می توانید:

  • از ایندکس شدن صفحات مشابه و غیر ضروری جلوگیری کنید تا محدودیت خزیدن (تعداد URL هایی که می تواند توسط ربات جستجوگر در یک حرکت خزیده شود) تمام نشود. به این ترتیب ربات می تواند صفحات مهم تری را ایندکس کند.
  • از نتایج جستجو عکس بگیرید.
  • اسکریپت‌های بی‌اهمیت، فایل‌های سبک و سایر منابع غیر مهم سایت را از فهرست‌سازی ببندید.

بهتر است اسکنر Google یا Yandex صفحات شما را تجزیه و تحلیل کند، اما فایل ها را مسدود نکنید.

فایل Robots.txt در کجا قرار دارد؟

اگر فقط می‌خواهید ببینید چه چیزی در فایل robots.txt وجود دارد، کافی است در نوار آدرس مرورگر خود وارد کنید: site.ru/robots.txt.

از نظر فیزیکی، فایل robots.txt در پوشه ریشه سایت میزبان قرار دارد. من میزبانی beget.ru دارم، بنابراین به شما نشان خواهم داد که چگونه فایل robots.txt را در هاست خود پیکربندی کنید.


نحوه ایجاد robots.txt صحیح

فایل robots.txt از یک یا چند قانون تشکیل شده است. قانون پوست، فهرست کردن اطلاعات سایت را مسدود یا اجازه می دهد.

  1. در یک ویرایشگر متن، یک فایل با نام robots.txt ایجاد کنید و آن را با قوانین ارائه شده در زیر پر کنید.
  2. فایل robots.txt قرار است یک فایل متنی با کدگذاری ASCII یا UTF-8 باشد. نویسه‌های موجود در کدهای دیگر قابل قبول نیستند.
  3. فقط یک فایل از این دست در سایت وجود دارد.
  4. فایل robots.txt باید در آن قرار گیرد کاتالوز ریشهسایت اینترنتی. برای مثال برای کنترل نمایه سازی تمام صفحات سایت http://www.example.com/ باید فایل robots.txt پشت آدرس http://www.example.com/robots.txt قرار گیرد. او گناهی ندارد که در شرایطی است(مثلاً در آدرس http://example.com/pages/robots.txt). دسترسی به دایرکتوری ریشه با تماس با ارائه دهنده هاست دشوار است. اگر به دایرکتوری ریشه سایت دسترسی ندارید، یک روش مسدود کردن جایگزین مانند متا تگ ها را بررسی کنید.
  5. فایل robots.txt را می توان به آدرس ها اضافه کرد زیر دامنه ها(به عنوان مثال، http: // سایت اینترنتی.example.com / robots.txt) یا پورت های غیر استاندارد (به عنوان مثال، http://example.com: 8181 /robots.txt).
  6. فایل را در سرویس های Yandex.Webmaster و Google Search Console تبدیل کنید.
  7. فایل را در پوشه اصلی سایت خود آپلود کنید.

محور فایل robots.txt با دو قانون است. در زیر توضیح داده شده است.

عامل کاربر: Googlebot غیر مجاز: /nogooglebot/User-agent: * مجاز: / نقشه سایت: http://www.example.com/sitemap.xml

شفاف سازی

  1. نماینده فروشنده به نام Googlebot در فهرست کردن دایرکتوری http://example.com/nogooglebot/ و زیرشاخه‌های آن مقصر نیست.
  2. سایر نمایندگان مشتری به کل سایت دسترسی دارند (می توانید آن را حذف کنید، نتیجه یکسان خواهد بود، زیرا دسترسی جدید پس از ثبت نام لازم است).
  3. فایل نقشه سایت این سایت در آدرس http://www.example.com/sitemap.xml قرار دارد.

دستورات غیر مجاز و مجاز است

برای جلوگیری از نمایه سازی و دسترسی ربات به سایت یا هر یک از بخش های آن، از دستورالعمل Disallow استفاده کنید.

User-agent: Yandex Disallow: / # دسترسی به کل سایت را مسدود می کند. User-agent: Yandex Disallow: / cgi-bin # دسترسی به صفحات # را که با "/ cgi-bin" شروع می شوند مسدود می کند.

مطابق با استاندارد، توصیه می شود قبل از دستورالعمل User-agent یک ردیف جدید خالی درج کنید.

نماد تخصیص # برای توصیف نظرات استفاده می شود. هر چیزی که در نماد آخر و قبل از اولین واژگونی ردیف باشد بیمه نمی شود.

برای اجازه دسترسی ربات به سایت یا هر یک از بخش های آن، از دستورالعمل Allow استفاده کنید

عامل کاربر: Yandex Allow: / cgi-bin Disallow: / # شما را از محصور کردن همه چیز به جز صفحات # که با "/ cgi-bin" شروع می‌شوند، جلوگیری می‌کند.

وجود انتقال ردیف خالی بین دستورالعمل های User-agent، Disallow و Allow غیرقابل قبول است.

دستورات Allow و Disallow از بلوک User-agent مربوطه بر اساس ترتیب پیشوند URL (از کوچکترین به بزرگترین) مرتب شده و به ترتیب مرتب می شوند. اگر تعدادی دستورالعمل برای یک سمت مشخص از سایت مناسب باشد، ربات بالاترین شماره سریالی را که در لیست مرتب شده ظاهر می شود انتخاب می کند. بنابراین، ترتیبی که دستورالعمل ها از طریق فایل robots.txt منتقل می شوند، بر پردازش روبات ها تأثیری ندارد. درخواست دادن:

# Output robots.txt: User-agent: Yandex Allow: / catalog Disallow: / # Sorting robots.txt: User-agent: Yandex Disallow: / Allow: / catalog # به شما امکان می دهد فقط صفحات # را دانلود کنید که با "/ catalog شروع می شوند. " # output robots.txt: User-agent: Yandex Allow: / Allow: / catalog / auto Disallow: / catalog # مرتب سازی robots.txt: User-agent: Yandex Allow: / Disallow: / catalog Allow: / catalog / auto # محافظت صفحاتی را که با "/catalog"، # شروع می شوند فعال کنید یا به شما اجازه دانلود صفحاتی که با "/catalogue/auto" شروع می شوند را می دهد.

اگر بین دو دستورالعمل با پیشوندها تضاد وجود داشته باشد، دستورالعمل Allow اولویت دارد.

Vikoristanny از شخصیت های خاص * و $

هنگام تعیین دستورات Allow و Disallow، می توانید از کاراکترهای ویژه * و $ استفاده کنید، بنابراین عبارات منظم را مشخص کنید.

کاراکتر ویژه * به معنای هر دنباله ای از کاراکترها (از جمله خالی) است.

نماد ویژه $ به معنای انتهای سطر است، نماد قبل از آن باقیمانده است.

عامل کاربر: Yandex Disallow: /cgi-bin/*.aspx # محافظت از "/cgi-bin/example.aspx" # i "/cgi-bin/private/test.aspx" غیر مجاز: / * خصوصی # نه تنها محافظت می کند "/private"، #و "/cgi-bin/private"

دستورالعمل نقشه سایت

اگر ساختار یک سایت را با استفاده از یک فایل Sitemap جداگانه توصیف می کنید، مسیر فایل را در پارامتر دستورالعمل نقشه سایت (مانند فایل های فایل، همه را وارد کنید) وارد کنید. باسن:

عامل کاربر: Yandex Allow: / نقشه سایت: https://example.com/site_structure/my_sitemaps1.xml نقشه سایت: https://example.com/site_structure/my_sitemaps2.xml

این دستورالعمل متقاطع است، بنابراین بدون توجه به مکانی در فایل robots.txt، جایی که نشان داده شده است، توسط ربات استفاده می شود.

ربات مسیرهای فایل را به خاطر می آورد، داده ها را پردازش می کند و نتایج را برای پردازش بیشتر جلسه پردازش داده ها تجزیه و تحلیل می کند.

دستورالعمل Crawl-Delay

اگر سرور به شدت تحت فشار است و نمی تواند درخواست های ربات را پردازش کند، از دستورالعمل Crawl-Delay برای سرعت بخشیدن به کارها استفاده کنید. این به شما امکان می دهد تا ربات جستجوگر را حداقل یک بازه ساعتی (بر حسب ثانیه) بین اتمام جستجو در یک طرف و شروع جستجو در طرف بعدی تنظیم کنید.

قبل از اینکه سرعت خزیدن در سایت را تغییر دهید، بررسی کنید که ربات در کدام صفحات بیشتر از کار می افتد.

  • گزارش های سرور را تجزیه و تحلیل کنید. به ارائه دهنده مسئول سایت یا ارائه دهنده میزبانی بازگردید.
  • فهرست نشانی‌های وب را در سایت Indexing → Crawl statistics در Yandex.Webmaster مشاهده کنید (همه صفحات را انتخاب کنید).

اگر متوجه شدید که ربات به صفحات سرویس دسترسی دارد، نمایه سازی آنها را در فایل robots.txt با یک دستورالعمل Disallow اضافی مسدود کنید. این به کاهش تعداد حیوانات در ربات کمک می کند.

بخشنامه Clean-param

این دستورالعمل فقط با ربات Yandex کار می کند.

اگر آدرس‌های صفحات سایت حاوی پارامترهای پویا هستند که به جای آن‌ها را شامل نمی‌شود (شناسه‌های جلسات، حساب‌ها، ارجاع‌دهنده‌ها و غیره)، می‌توانید آنها را در پشت دستورالعمل اضافی Clean-param توضیح دهید.

ربات Yandex، این دستورالعمل را vikorystyuchi، به طوری که آن را تا حد زیادی دوباره درگیر اطلاعات تکراری نیست. به این ترتیب راندمان خزیدن سایت شما افزایش می یابد و تقاضا در سرور کاهش می یابد.

به عنوان مثال، در سایت صفحاتی وجود دارد:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

پارامتر ref فقط برای انتخاب درخواست از هر منبعی استفاده می شود و به جای آن تغییری نمی کند، برای هر سه آدرس یک صفحه با کتاب book_id = 123 نشان داده می شود. rank:

عامل کاربر: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

ربات Yandex تمام آدرس های صفحه را به یک کاهش می دهد:

www.example.com/some_dir/get_book.pl?book_id=123

اگر چنین صفحه ای در سایت موجود باشد، خودتان در نتایج جستجو شرکت خواهید کرد.

نحو دستوری

Clean-param: p0 [&p1&p2&..&pn]

در فیلد اول، از طریق نماد &، باید پارامترها را مجدداً بیمه کنید، زیرا ربات نیازی به بیمه مجدد ندارد. فیلد دیگر پیشوندی را برای جهت صفحاتی که باید برای آنها قانون تنظیم شود مشخص می کند.

توجه داشته باشید. دستورالعمل Clean-Param مقطعی است و می تواند در هر فایل robots.txt مشخص شود. پس از مشخص شدن دستورالعمل ها، تمامی اقلام توسط ربات بیمه خواهند شد.

پیشوند را می توان در یک عبارت منظم در قالبی مشابه فایل robots.txt قرار داد، اما با برخی تغییرات: فقط کاراکترهای A-Za-z0-9 .- / * _ قابل تغییر هستند. در این مورد، نماد * به همان روشی که در فایل robots.txt تفسیر می شود: نماد * به طور ضمنی به انتهای پیشوند اضافه می شود. مثلا:

Clean-param: s /forum/showthread.php

ثبت نام بیمه شده است. قانون 500 کاراکتر است. مثلا:

Clean-param: abc /forum/showthread.php Clean-param: sid & sort /forum/*.php Clean-param: someTrash & otherTrash

دستورالعمل HOST

در حال حاضر Yandex این دستورالعمل را پذیرفته است.

robots.txt صحیح: راه اندازی

به جای فایل robots.txt، به نوع سایت (فروشگاه آنلاین، وبلاگ)، CMS انتخابی، ویژگی های ساختار و تعدادی از مقامات دیگر بستگی دارد. بنابراین، هنگام کار بر روی ایجاد این فایل برای یک سایت تجاری، به خصوص اگر قصد دارید یک پروژه پیچیده را انجام دهید، یک SEO-fahivet با شواهد کافی از کار مورد نیاز است.

فردی بدون آموزش خاص که همه چیز را می داند، نمی تواند تصمیم درستی بگیرد که قبل از اینکه کدام قسمت باید از نمایه سازی بسته شود و کدام قسمت باید در فرم صدا ظاهر شود.

درست کردن لبه Robots.txt برای وردپرس

عامل کاربر: * # قوانین زیرزمینی برای روبات ها، از جمله Yandex و Google، # قوانین زیر برای آنها غیر مجاز است: / cgi-bin # پوشه میزبانی غیر مجاز: /؟ # همه پارامترها در هدر Disallow ذخیره می‌شوند: /wp- # همه فایل‌های WP: /wp-json/، /wp-includes، /wp-content/plugins Disallow: /wp/ # جایی که زیر شاخه /wp/ نصب شده است. CMS (که در دسترس نیست، # قانون قابل مشاهده است) غیر مجاز: *؟ s = # جستجو غیرمجاز: * و s = # جستجو غیرمجاز: / جستجو / # جستجو غیرمجاز: / نویسنده / # بایگانی نویسنده غیرمجاز: / کاربران / # بایگانی نویسنده غیرمجاز: * / trackback # بک‌بک، اطلاعات در نظرات درباره ظاهر of hidden # ارسال شده به مقاله غیر مجاز: * / feed # همه فیدها غیرمجاز: * / rss # فید rss غیرمجاز: * / embed # همه فیدها غیرمجاز: * / wlwmanifest.xml # فایل xml برای مانیفست Windows Live Writer (اگر این کار را انجام ندهید از آن استفاده نکنید، # قانون ممکن است قابل مشاهده باشد) غیر مجاز: /xmlrpc.php # فایل API وردپرس غیرمجاز: * utm * = # بارگذاری شده با برچسب‌های utm مجاز نیست: * openstat = # بارگذاری شده با برچسب‌های openstat مجاز: * / آپلودها # نشان می‌دهد پوشه با فایل‌های آپلود نقشه سایت: http:/ /site.ru/sitemap.xml # آدرس نقشه سایت عامل کاربر: GoogleBot # قانون برای Google (من نظرات را تکراری نمی‌کنم) غیرمجاز: / cgi-bin غیر مجاز: /؟ Disallow: /wp- Disallow: /wp/Disallow: *؟ S = غیر مجاز: * و s = غیرمجاز: / جستجو / غیر مجاز: / نویسنده / غیر مجاز: / کاربران / غیر مجاز: * / پیگیری غیرمجاز: * / فید غیر مجاز: * / rss غیر مجاز: * / جاسازی غیر مجاز: * / wlwmanifest.xml Disallow: /xmlrpc.php غیر مجاز: * utm * = غیر مجاز: * openstat = مجاز: * / آپلودها مجاز: /*/*.js # js اسکریپت در وسط / wp- (/ * / - برای اولویت) مجاز: / */*.css # فایل‌های CSS در وسط نمایش داده می‌شوند / wp- (/ * / - برای اولویت) اجازه دادن به: / wp-*.png # تصاویر در افزونه‌ها، پوشه‌های کش و غیره. اجازه دادن به: /wp-*.jpg # تصاویر در افزونه‌ها، پوشه‌های کش و غیره. اجازه دادن به: /wp-*.jpeg # تصاویر در افزونه‌ها، پوشه‌های کش و غیره. اجازه دادن به: /wp-*.gif # تصاویر در افزونه‌ها، پوشه‌های کش و غیره. مجاز است: /wp-admin/admin-ajax.php # برای جلوگیری از مسدود کردن JS و CSS از افزونه‌ها استفاده کنید. Disallow: /wp- Disallow: /wp/Disallow: *؟ S = غیر مجاز: * و s = غیرمجاز: / جستجو / غیر مجاز: / نویسنده / غیر مجاز: / کاربران / غیر مجاز: * / پیگیری غیرمجاز: * / فید غیر مجاز: * / rss غیر مجاز: * / جاسازی غیر مجاز: * / wlwmanifest.xml غیر مجاز: /xmlrpc.php مجاز: * / آپلودها مجاز: /*/*.js مجاز: /*/*.css مجاز: /wp-*.png مجاز: /wp-*.jpg مجاز: /wp-*. jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Yandex توصیه می‌کند # نمای نمایه‌سازی را نبندید، اما پارامترهای برچسب را حذف کنید، # Google پشتیبانی نمی‌کند چنین قوانینی Clean-Param: openstat # مشابه

لب به لب Robots.txt برای جوملا

عامل کاربر: *
غیر مجاز: /administrator/
غیر مجاز: /cache/
غیر مجاز: /شامل/
غیر مجاز: /نصب/
غیر مجاز: /language/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /media/
غیر مجاز: /modules/
غیر مجاز: /plugins/
غیر مجاز: /templates/
غیر مجاز: /tmp/
غیر مجاز: /xmlrpc/

لب به لب Robots.txt برای Bitrix

عامل کاربر: *
غیر مجاز: /*index.php$
غیر مجاز: /bitrix/
غیر مجاز: /auth/
غیر مجاز: /شخصی/
غیر مجاز: /upload/
غیر مجاز: /search/
غیر مجاز: /*/جستجو/
غیر مجاز: /*/slide_show/
غیر مجاز: /*/gallery/*order=*
غیر مجاز: /*؟ چاپ =
غیر مجاز: /*&print=
غیر مجاز: / * ثبت =
غیر مجاز: / * forgot_password =
غیر مجاز: / * change_password =
غیر مجاز: /*login=
غیر مجاز: /*logout=
غیر مجاز: /*auth=
غیر مجاز: /*؟ عمل =
غیر مجاز: /* اقدام = ADD_TO_COMPARE_LIST
غیر مجاز: /* اقدام = DELETE_FROM_COMPARE_LIST
غیر مجاز: / * اقدام = ADD2BASKET
غیر مجاز: / * اقدام = خرید
غیر مجاز: /*bitrix_*=
غیر مجاز: /*backurl=*
غیر مجاز: /*BACKURL=*
غیر مجاز: /*back_url=*
غیر مجاز: /*BACK_URL=*
غیر مجاز: /*back_url_admin=*
غیر مجاز: /* print_course = Y
غیر مجاز: / * COURSE_ID =
غیر مجاز: /*؟ COURSE_ID =
غیر مجاز: /*؟ PAGEN
غیر مجاز: / * PAGEN_1 =
غیر مجاز: / * PAGEN_2 =
غیر مجاز: / * PAGEN_3 =
غیر مجاز: / * PAGEN_4 =
غیر مجاز: / * PAGEN_5 =
غیر مجاز: / * PAGEN_6 =
غیر مجاز: / * PAGEN_7 =

غیر مجاز: /* PAGE_NAME = جستجو
غیر مجاز: /* PAGE_NAME = user_post
غیر مجاز: /* PAGE_NAME = detail_slide_show
غیر مجاز: /*SHOWALL
غیر مجاز: / * show_all =
نقشه سایت: http://path به نقشه شما در قالب XML

لب به لب Robots.txt برای MODx

عامل کاربر: *
غیر مجاز: /assets/cache/
غیر مجاز: /assets/docs/
غیر مجاز: /assets/export/
غیر مجاز: /assets/import/
غیر مجاز: /assets/modules/
غیر مجاز: /assets/plugins/
غیر مجاز: /assets/snippets/
غیر مجاز: /install/
غیر مجاز: /manager/
نقشه سایت: http://site.ru/sitemap.xml

لب به لب Robots.txt برای دروپال

عامل کاربر: *
غیر مجاز: /پایگاه داده/
غیر مجاز: /شامل/
غیر مجاز: /misc/
غیر مجاز: /modules/
غیر مجاز: /sites/
غیر مجاز: /themes/
غیر مجاز: /scripts/
غیر مجاز: /به روز رسانی/
غیر مجاز: /پروفایل/
غیر مجاز: /profile
غیر مجاز: /profile/*
غیر مجاز: /xmlrpc.php
غیر مجاز: /cron.php
غیر مجاز: /update.php
غیر مجاز: /install.php
غیر مجاز: /index.php
غیر مجاز: /admin/
عدم اجازه: /comment/reply/
غیر مجاز: /contact/
غیر مجاز: /logout/
غیر مجاز: /search/
غیر مجاز: /user/register/
غیر مجاز: /user/password/
غیر مجاز: *ثبت نام*
غیر مجاز: *ورود*
غیر مجاز:/بالاترین رتبه-
غیر مجاز: /messages/
غیر مجاز: /book/export/
غیر مجاز: /user2userpoints/
غیر مجاز: /myuserpoints/
غیر مجاز: /tagadelic/
غیر مجاز: /ارجاع/
غیر مجاز: /aggregator/
غیر مجاز: /files/pin/
غیر مجاز: /Your-votes
غیر مجاز: /comments/recent
غیر مجاز: /*/edit/
غیر مجاز: /*/حذف/
غیر مجاز: /*/صادرات/html/
غیر مجاز: /taxonomy/term/*/0$
غیر مجاز: /*/edit$
غیر مجاز: /*/outline$
غیر مجاز: /*/revisions$
غیر مجاز: /*/contact$
غیر مجاز: /* downloadpipe
غیر مجاز: /node$
غیر مجاز: /node/*/track$
غیر مجاز: /*&
غیر مجاز: /*%
غیر مجاز: /*؟ صفحه = 0
غیر مجاز: /*بخش
غیر مجاز:/*سفارش
غیر مجاز: /*؟ مرتب سازی *
غیر مجاز: /*&مرتب کردن*
غیر مجاز: /*votesupdown
غیر مجاز: /* تقویم
غیر مجاز: /*index.php
اجازه: /*؟ صفحه =
غیر مجاز: /*؟
نقشه سایت: http://path به نقشه شما در قالب XML

UVAGA!

CMS به طور مداوم در حال به روز رسانی است. ممکن است لازم باشد صفحات دیگر را از نمایه سازی ببندید. اگر مورد توجه قرار نگیرد، حصار نمایه سازی را می توان برداشت یا به طور ناخواسته اضافه کرد.

robots.txt را بررسی کنید

جوکر پوست قبل از ثبت فایل robots.txt ترجیحات خاص خود را دارد.

به منظور. واسه اینکه. برای اینکه robots.txt را بررسی کنیدبا استفاده از یکی از سرویس های آنلاین می توانید به سرعت صحت نحو و ساختار فایل را بررسی کنید. به عنوان مثال، Yandex و Google خدمات تجزیه و تحلیل قدرت را برای وب مسترها به سایت معرفی می کنند که شامل تجزیه و تحلیل robots.txt:

تأیید robotx.txt برای ربات جستجوی Yandex

می توانید با استفاده از ابزار ویژه Yandex - Yandex.Webmaster و با دو گزینه دیگر درآمد کسب کنید.

انتخاب 1:

در سمت راست موردی است که حذف می شود - انتخاب کنید تجزیه و تحلیل robots.txtیا به خاطر آن http://webmaster.yandex.ru/robots.xml

مهم است که به یاد داشته باشید که تمام تغییراتی که در فایل robots.txt ایجاد می‌کنید، نه بلافاصله، بلکه در عرض یک ساعت در دسترس خواهند بود.

تایید robotx.txt برای ربات جستجوگر گوگل

  1. در کنسول جستجوی گوگل، سایت خود را انتخاب کنید، به ابزار تأیید بروید و به فایل robots.txt نگاه کنید. نحویі منطقیعلائم در مورد جدید قابل مشاهده خواهند بود و مقدار آنها در زیر پنجره ویرایش نشان داده می شود.
  2. در پایین رابط، URL مورد نیاز را در پنجره پاپ آپ وارد کنید.
  3. از منوی کشویی سمت راست را انتخاب کنید ربات.
  4. دکمه را فشار دهید مرور.
  5. نمایش وضعیت در دسترسیا چیز دیگر غیر قابل دسترسی. در حالت اول، ربات‌های گوگل ممکن است آدرسی را که وارد کرده‌اید دنبال کنند، اما در مورد دیگر، این کار را نمی‌کنند.
  6. در صورت لزوم، تغییراتی در منو اعمال کنید و دوباره چک را اجرا کنید. توجه!این تغییرات به طور خودکار به فایل robots.txt در سایت شما اضافه نخواهد شد.
  7. تغییرات خود را کپی کنید و آنها را به فایل robots.txt در سرور وب خود اضافه کنید.

علاوه بر خدمات تأیید از Yandex و Google، هیچ سرویس دیگری آنلاین وجود ندارد اعتبار سنجی robots.txt.

ژنراتورهای Robots.txt

  1. سرویس از SEOlib.ru با استفاده از این ابزار می توانید به سرعت به مرزهای موجود در فایل Robots.txt دسترسی پیدا کرده و بررسی کنید.
  2. ژنراتور از pr-cy.ru است. در نتیجه ژنراتور Robots.txt، متنی را که باید در فایلی به نام Robots.txt ذخیره کنید استخراج کرده و به دایرکتوری ریشه سایت خود اضافه می کنید.

پیکربندی صحیح و شایسته فایل root robots.txt یکی از مهمترین وظایف یک WEB master است. اگر در حالت جستجو از مزایای مناسبی برخوردار نباشید، ممکن است صفحات غیر ضروری زیادی در سایت داشته باشید. در غیر این صورت، اسناد مهم در سایت شما برای ایندکس بسته می شوند؛ در بدترین حالت، می توانید کل دایرکتوری ریشه دامنه را برای روبات های موتور جستجو ببندید.

تنظیم صحیح فایل robots.txt با دستان خود، در واقع، کار خیلی پیچیده نیست. پس از خواندن این مقاله، پیچیدگی های دستورالعمل ها را یاد می گیرید و به طور مستقل قوانینی را برای فایل robots.txt در وب سایت خود می نویسید.

برای ایجاد یک فایل robots.txt، از یک نحو ساده و نه پیچیده استفاده می شود. دستورالعمل های Vikorist زیادی وجود ندارد. بیایید قوانین، ساختار و نحو فایل robots.txt را قدم به قدم و با جزئیات بررسی کنیم.

قوانین حقوقی robots.txt

اول از همه، خود فایل robots.txt مقصر کد ANSI است.

در غیر این صورت، استفاده از الفبای لاتین برای نوشتن قوانین هیچ الفبای ملی امکان پذیر نیست.

از نظر ساختاری، فایل robots.txt می تواند از یک یا چند بلوک دستورالعمل تشکیل شده باشد که برای روبات های سیستم های صوتی مختلف مناسب است. یک بلوک پوسته یا بخش شامل مجموعه ای از قوانین (دستورالعمل ها) برای نمایه سازی یک سایت، چه توسط یک موتور جستجو یا توسط موتور جستجوی دیگر است.

خود دستورالعمل ها، بلوک های قوانین و بین آنها مجاز به داشتن هر نوع سرصفحه یا نماد نیستند.

دستورالعمل ها و بلوک های قوانین به انتقال ردیف تقسیم می شوند. یک چیز، یک نظر.

نظر دادن در robots.txt

برای نظر دادن، از نماد "#" استفاده می شود. اگر نماد هش را روی سر یک ردیف قرار دهید، کل ردیف توسط ربات های جستجوگر تا انتهای سطر نادیده گرفته می شود.

عامل کاربر: *
عدم اجازه: / css # نوشتن نظر
# بیایید یک نظر دیگر بنویسیم
غیر مجاز: /img

بخش ها در فایل robots.txt

هنگامی که یک فایل توسط یک ربات خوانده می شود، فقط قسمت خطاب به ربات آن سیستم جستجو خوانده می شود، اگر در قسمت، user-agent با نام سیستم جستجوی Yandex مشخص شده باشد، ربات فقط آدرس را می خواند. خطاب به آن بخش، و نادیده گرفتن سایرین، از جمله بخش با دستورالعمل برای همه روبات ها - User-agent: *.

پوست بخش مستقل است. یک بخش می تواند یک آتل برای روبات های پوستی یا سیستم های صوتی خاص یا یک بخش جهانی برای همه ربات ها یا روبات های یکی از سیستم های آنها باشد. اگر فقط یک بخش وجود داشته باشد، از ردیف اول فایل شروع می شود و تمام ردیف ها را اشغال می کند. اگر یک قسمت اسپرت وجود داشته باشد، بوی تعفن با نماد ردیف جدید جدا می شود، اگرچه یکی وجود دارد.

این بخش همیشه با دستورالعمل User-agent شروع می شود و حاوی نام سیستم جستجویی است که روبات ها به آن اختصاص داده شده اند، زیرا این بخش برای همه روبات ها جهانی نیست. در عمل به این صورت است:

عامل کاربر: YandexBot
# عامل کاربر برای روبات ها در سیستم Yandex
عامل کاربر: *
# عامل کاربر برای همه ربات ها

بیمه مجدد برخی از نام های ربات مسدود شده است. برای ربات‌های سیستم صوتی پوست، بخش مخصوص به خود، بلوک جداگانه قوانین خودشان ایجاد می‌شود. از آنجایی که به نظر شما، قوانین همه ربات ها یکسان است، یک بخش عمومی و پنهان را انتخاب کنید.

دستورالعمل ها، چه؟

دایرکتیو فرمان یا قاعده ای است که اطلاعاتی را در اختیار ربات صدا قرار می دهد. این دستورالعمل به ربات جستجو می گوید که چگونه سایت شما را فهرست کند، چه دایرکتوری هایی مشاهده نمی شود، نقشه سایت در فرمت XML کجاست، نام دامنه چیست، آینه اصلی و سایر جزئیات فنی.

بخش موجود در فایل robots.txt از دستورات زیر تشکیل شده است:
بخشنامه ها نحو اصلی دستورات به شرح زیر است:

[Directive_name]: [اختیاری] [مقدار] [اختیاری]

بخشنامه در یک ردیف و بدون خط خط نوشته شده است. طبق استانداردهای پذیرفته شده، بین دستورالعمل های یک بخش، پرش یک ردیف مجاز نیست، بنابراین تمام دستورالعمل های یک بخش بدون پرش اضافی روی یک ردیف نوشته می شوند.

بیایید معنای دستورات اصلی vikorist را شرح دهیم.

بخشنامه غیر مجاز

بیشترین دستوری که در فایل robots.txt مورد سوء استفاده قرار گرفته است "عدم اجازه" است. دستورالعمل "عدم اجازه" نمایه سازی مسیر اختصاص داده شده به آن را مسدود می کند. این کار را می توان در یک صفحه یا صفحه انجام داد تا «ماسک» را در URL (مسیر)، بخشی از سایت، دایرکتوری (پوشه) یا سایت به عنوان یک کل جایگزین کند.

"*" - ستاره به معنای "ممکن است تعدادی نماد وجود داشته باشد." Tobto، مسیر / پوشه * با این حال، به همان معنی "/ folders"، "/ folder1"، "/ folder111"، "/ folderssss" یا "/ folder" است. ربات ها، هنگام خواندن قوانین، به طور خودکار علامت "*" را اضافه می کنند. برای باسن نشان داده شده پایین تر، دستورالعمل های توهین آمیز کاملاً معادل هستند:

غیر مجاز:/اخبار
غیر مجاز: /news*

"$" - علامت دلار هنگام خواندن دستورالعمل ها برای اضافه کردن خودکار نماد "*" روبات ها را پنهان می کند.(زیروچکا) در پایان بخشنامه. به عبارت دیگر، نماد "$" به معنای انتهای سطر است. بنابراین، در برنامه ما، از نمایه سازی پوشه "/ folder" محافظت می کنیم، اما از آن در پوشه های "/ folder1"، "/ folder111" یا "/ folderssss" محافظت نمی کنیم:

عامل کاربر: *
غیر مجاز: /folder$

"#" - علامت تفسیر (شارپ).. هر چیزی که بعد از این نماد در همان ردیف نوشته شده است توسط سیستم های صوتی نادیده گرفته می شود.

اجازه بخشنامه

دستورالعمل ALLOW در فایل robots.txt شبیه به معنای دستورالعمل DISSALOW است، دستورالعمل ALLOW جداگانه است. مثال زیر نشان می دهد که ما از نمایه سازی کل سایت به جز پوشه / محافظت می کنیم:

عامل کاربر: *
Allow: /folder
غیر مجاز:/

نمونه ای از ویکورستان یک ساعته "اجازه دادن"، "عدم اجازه" و اولویت

اهمیت اولویت در محدودیت ها و مجوزها را هنگام صدور بخشنامه فراموش نکنید. قبلاً اولویت با ترتیب محدودیت ها و مجوزها تعیین می شد. در عین حال اولویت با تخصیص واضح ترین مسیر در یک بلوک برای ربات سیستم جستجو (User-agent) است، به ترتیب بالاترین مسیر و مکانی که دستورالعمل درج شده است، بالاتر است. مسیر، اولویت بالاتر است:

عامل کاربر: *
Allow: /folders
غیر مجاز: /folder

این برنامه امکان فهرست بندی URL هایی که با "/ folders شروع می شوند" را می دهد، اما به روش هایی مسدود می شود که شامل "/ folder"، "/ folderssss" یا "/ folder2" در URL های آنها می شود. هر گاه مسیر جدیدی بر خلاف بخشنامه های «مجاز» و «عدم اجازه» در پیش گرفته شود، اولویت با بخشنامه «اجازه دادن» است.

مقادیر پارامتر را در دستورالعمل های "Allow" و "Disallow" خالی کنید

اگر دستور "عدم اجازه" در فایل robots.txt وجود داشته باشد، WEB-masterها محدود می شوند.
فراموش کنید که نماد "/" را درج کنید. این به معنای تفسیر نادرست و ملایم از معنای دستورات و نحو آنها است. در نتیجه، دستورالعمل محدودیت مجزا باقی می‌ماند: «عدم اجازه:» کاملاً با «اجازه: /» یکسان است. محدودیت صحیح برای نمایه‌سازی کل سایت به این صورت است:

همین امر را می توان در مورد "اجازه:" گفت. دستورالعمل "Allow:" بدون نماد "/" نمایه سازی کل سایت را مسدود می کند، مانند "Disallow: /".

دستورالعمل نقشه سایت

با رعایت تمامی اصول بهینه سازی سئو، لازم است نقشه سایت (SITEMAP) با فرمت XML ایجاد و به موتورهای جستجو ارسال شود.

صرف نظر از عملکرد "کابینت برای استادان وب" در موتورهای جستجو، لازم است وجود sitemap.xml در robots.txt با استفاده از دستورالعمل اضافی اعلام شود. SITEMAP" ربات‌های جستجوگر، هنگام خزیدن سایت خود، یک درج به فایل sitemap.xml اضافه می‌کنند و مطمئن شوید که آن را در طول خزیدن‌های بعدی ویکوریزه می‌کنند. نمونه ای از دستورالعمل نقشه سایت در فایل robots.txt:

عامل کاربر: *
نقشه سایت: https://www.domainname.zone/sitemap.xml

دستورالعمل میزبان

دستورالعمل مهم دیگر robots.txt این است میزبان.

لطفا توجه داشته باشید که همه سیستم های صوتی این را تشخیص نمی دهند. اگر "Yandex" نشان می دهد که این دستورالعمل را می خواند، و Yandex در روسیه اصلی ترین "موتور جستجوی سال" است، دستورالعمل "میزبان" را نادیده نخواهیم گرفت.

این دستورالعملی است که به سیستم های صوتی می گوید آینه اصلی کدام دامنه است. همه ما می دانیم که سایت می تواند همان آدرس باشد. URL یک سایت می تواند شامل یا حذف پیشوند WWW باشد، یا سایت می تواند تعدادی نام دامنه داشته باشد، برای مثال domain.ru، domain.com، domen.ru، www.domen.ru. در چنین مواقعی با استفاده از دایرکتیو میزبان که نام اصلی نیز هست به سیستم جستجو در فایل robots.txt اطلاع می دهیم. مهمترین بخشنامه نام آینه سر است. بیایید به لب به لب اشاره کنیم. ما می توانیم تعدادی نام دامنه (domain.ru، domain.com، domen.ru، www.domen.ru) داشته باشیم و همه آنها به وب سایت www.domen.ru، ورودی robots.txt هدایت می شوند. فایل به شکل زیر خواهد بود:

عامل کاربر: *
میزبان: www.domain.ru

اگر می خواهید هدر شما بدون پیشوند (WWW) باشد، بدیهی است که موارد زیر را بدون پیشوند در دستورالعمل نام سایت وارد کنید.

دستورالعمل HOST مشکل صفحات تکراری را حل می کند، چیزی که استادان وب و هکرهای سئو اغلب با آن مواجه می شوند. بنابراین، دستورالعمل HOST باید به دقت بررسی شود، زیرا شما بخش روسی را هدف قرار داده اید و برای شما مهم است که سایت خود را در موتور جستجوی Yandex رتبه بندی کنید. تکرار می کنیم، امروز فقط Yandex اعلام می کند که این دستورالعمل خوانده شده است. برای نصب یک آینه سر در سایر سیستم های صوتی، باید به سرعت تنظیمات را در حساب های WEB-Masters تنظیم کنید. فراموش نکنید که نام آینه سر ممکن است به درستی وارد شود (املای صحیح، کدنویسی صحیح و نحو در فایل robots.txt). این دستورالعمل فقط یک بار در یک فایل مجاز است. اگر چند بار لطف کنید، ربات ها فقط قبل از ورود کار خواهند کرد.

دستورالعمل Crawl-Delay

این دستورالعمل توسط تیم فنی برای جستجوی ربات ها داده می شود، زیرا اغلب جستجو در سایت شما ضروری است. به طور دقیق تر، دستورالعمل Crawl-Delay حداقل وقفه را بین روبات ها (خزنده های موتور جستجو) در دسترسی به سایت شما مشخص می کند. آیا باید این قانون را بیان کنیم؟ اگر روبات‌ها بیشتر به شما مراجعه می‌کنند و اطلاعات جدید در سایت به ندرت ظاهر می‌شود، سیستم‌های جستجو قبل از تغییر نادر اطلاعات در سایت شما به سرعت زنگ می‌زنند و خیلی زودتر با شما تماس می‌گیرند. این یک استدلال معتبر برای استفاده از دستورالعمل "تاخیر خزیدن" است. حالا بحث فنی. اغلب اوقات، دسترسی به سایت شما توسط روبات ها باعث ایجاد فشار اضافی بر روی سرور می شود که واقعاً به آن نیاز ندارید. دستورالعمل های مهم بهتر است یک عدد کامل را نشان دهند، اما اکنون روبات ها خواندن اعداد کسری را یاد گرفته اند. ساعت را بر حسب ثانیه مشخص کنید، به عنوان مثال:

عامل کاربر: Yandex
تاخیر خزیدن: 5.5

بخشنامه Clean-param

دستورالعمل اختیاری "Clean-param" به ربات های موتورهای جستجو دستور می دهد تا آدرس سایت را پارامتری کنند تا مانند سایر URL ها نیازی به نمایه سازی و تجزیه و تحلیل نداشته باشد. به عنوان مثال، شما صفحات مشابهی را در آدرس‌های مختلف نمایش داده می‌کنید که به یک یا چند پارامتر تقسیم می‌شوند:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/index.php؟ پوشه = 1 و صفحه = 1

ربات های جستجو همه صفحات مشابه را اسکن می کنند و توجه می کنند که صفحات یکسان هستند و محتوای یکسانی را جایگزین می کنند. قبل از هر چیز ایجاد سردرگمی در ساختار سایت در هنگام نمایه سازی مهم است. به روشی دیگر، navantazhenya اضافی در سرور در حال رشد است. ثالثاً، سیال بودن اسکن کاهش می یابد. برای جلوگیری از این ناراحتی ها، دستورالعمل "Clean-param" استفاده می شود. نحو پیشرفته:

Clean-param: param1 [& param2 & param3 & param4 & ... & param * N] [Way]

دستورالعمل "Clean-param" مانند دستور "Host" توسط همه سیستم های صوتی خوانده نمی شود. Ale Yandex درک می کند.

پیام هایی که اغلب در robots.txt قرار می گیرند

فایل robots.txt در ریشه سایت قرار ندارد

فایل روبات ها txt به دلیل قرار گرفتن در ریشه سایت مقصر است, فقط در دایرکتوری ریشه. تمام فایل‌های دیگر با نام‌های مشابه، اما در پوشه‌های دیگر (دایرکتوری) قرار دارند، توسط سیستم‌های صوتی نادیده گرفته می‌شوند.

نام فایل robots.txt را تغییر دهید

فایل با حروف کوچک (کوچک) نوشته شده و باید نامگذاری شود روبات هاtxt. همه گزینه های دیگر محترم هستند و شما را از در دسترس بودن فایل مطلع خواهند کرد. قسمت های غذا به این صورت است:

ROBOTS.txt
Robots.txt
robot.txt

جستجو برای کاراکترهای نامعتبر در robot.txt

فایل robots.txt با کد ANSI است و فقط شامل حروف لاتین است. نوشتن بخشنامه و معانی آن با سایر نمادهای ملی به استثنای اظهار نظر قابل قبول نیست.

ترفندهایی در نحو robots.txt

حتماً قوانین نحوی موجود در فایل robots.txt را کاملاً رعایت کنید. خطاهای نحوی می تواند منجر به نادیده گرفتن کل فایل توسط موتورهای جستجو شود.

بازآرایی چندین ربات در یک ردیف در دستورالعمل User-agent

قاعده ای که غالباً توسط استادان وب مجاز است، نه از طریق خط برق، نه تقسیم فایل robots.txt به بخش، بلکه ترکیب دستورات برای چندین سیستم صوتی در یک بخش، به عنوان مثال:

عامل کاربر: Yandex، Googlebot، Bing

برای سیستم صوتی پوستی لازم است بخش مخصوص به خود را مطابق با دستورالعمل هایی که سیستم صوتی می خواند ایجاد کنید. متأسفانه، در این مورد، یک بخش برای همه سیستم های صوتی وجود دارد:

عامل کاربر با مقادیر خالی

دستورالعمل User-agent نمی تواند مقدار خالی داشته باشد. فقط "Allow" و "Disallow" را می توان خالی گذاشت که می تواند معنای آنها را تغییر دهد. درج دستورالعمل User-agent با مقادیر خالی یک نیروی بی رحم است.

تعداد مقادیر در دستورالعمل Disallow

حذف بیشتر اتفاق می افتد، و در عین حال، می توان آن را به صورت دوره ای در سایت ها با درج چندین مقدار در دستورالعمل های Allow و Disallow خواند، به عنوان مثال:

غیر مجاز: /folder1/folder2/folder3

غیر مجاز: /folder1
غیر مجاز: /folder2
غیر مجاز: /folder3

عدم تنظیم اولویت های دستورالعمل ها در robots.txt

این روش در بالا توضیح داده شد، اما برای تقویت مواد تکرار خواهد شد. قبلاً اولویت با ترتیب درج بخشنامه ها تعیین می شد. از امروز قوانین تغییر کرده، اولویت بعد از پایان ردیف مشخص می شود. اگر یک فایل دارای دو دستورالعمل منحصر به فرد، Allow و Disallow با هم باشد، Allow اولویت خواهد داشت.

سیستم های جستجو و robots.txt

دستورالعمل های موجود در فایل robots.txt ماهیت توصیه ای برای موتورهای جستجو دارند. این بدان معنی است که قوانین خواندن را می توان به طور دوره ای تغییر یا به روز کرد. فقط به یاد داشته باشید که سیستم جستجوی پوست به روش خود دستورالعمل ها را به فایل ارائه می دهد. و پوست تمام دستورالعمل های سیستم های صوتی را نمی خواند. به عنوان مثال، امروز فقط Yandex دستورالعمل "Host" را می خواند. با این حال، Yandex تضمین نمی کند که نام دامنه مشخص شده باشد، زیرا آینه اصلی در دستورالعمل Host لزوماً به head اختصاص داده می شود، اما تأیید می کند که اولویت نام اختصاص داده شده در دستورالعمل داده می شود.

اگر مجموعه کوچکی از قوانین دارید، می توانید یک بخش واحد برای همه ربات ها ایجاد کنید. در غیر این صورت، در ایجاد بخش های جداگانه برای پوسته سیستم صوتی خود تردید نکنید. شما باید به خصوص به نرده ها بروید، زیرا نمی خواهید هیچ آهنگی از داستان در جوک هدر رود.

تمام فیلدهای الزامی را به طور مداوم پر کنید. در دنیای دستورالعمل های خود، آخرین دستورالعمل ها را از Robots.txt خود دریافت خواهید کرد. در زیر شرحی از تمام دستورالعمل های فایل Robots.txt آمده است.

یاد آوردن, کپی 🀄و متن را در یک ویرایشگر متن قرار دهید. فایل را به عنوان "robots.txt" در فهرست اصلی سایت خود ذخیره کنید.

توضیحات فرمت فایل robots.txt

فایل robots.txt شامل رکوردهایی است که هر کدام از دو فیلد تشکیل شده است: ردیف هایی با نام برنامه مشتری (user-agent) و یک یا چند ردیف که با دستور Disallow شروع می شوند:

دستورالعمل ":" به معنی

Robots.txt مقصر است که در قالب متن یونیکس ایجاد شده است. اکثر ویرایشگرهای متن خوب می توانند کاراکترهای ویندوز را به یونیکس تبدیل کنند. در غیر این صورت، کلاینت FTP شما مسئول این کار است. برای ویرایش، از ویرایشگر HTML استفاده نکنید، به خصوص ویرایشگر که حالت متنی برای نمایش کد ندارد.

بخشنامه عامل کاربر:

برای Rambler: User-agent: StackRambler برای Yandex: User-agent: Yandex برای Google: User-Agent: googlebot

شما می توانید دستورالعمل هایی را برای همه ربات ها ایجاد کنید:

عامل کاربر: *

بخشنامه غیر مجاز:

بخش دیگر رکورد شامل ردیف های غیر مجاز است. ردیف‌های Tsi - دستورالعمل‌ها (نشان‌ها، دستورات) برای یک ربات معین. هر گروهی که در کنار User-agent وارد می شود به یک دستور Disallow نیاز دارد. تعداد دستورالعمل‌های غیر مجاز محدود نیست. آنها به ربات اطلاع می‌دهند که ربات کدام فایل‌ها و/یا دایرکتوری‌ها را نمی‌تواند فهرست کند. می توانید فهرست بندی یک فایل یا دایرکتوری را مسدود کنید.

این دستورالعمل نمایه سازی دایرکتوری /cgi-bin/ را مسدود می کند:

غیر مجاز: / cgi-bin / بازگشت به / در انتهای نام پوشه! برای مسدود کردن خود دایرکتوری "/dir"، دستورالعمل ها به شرح زیر است: "Disallow: /dir/". و ردیف "Disallow: / dir" همه طرف های سرور را مسدود می کند، خارج از آنها (مانند ریشه سرور) که با "/ dir" شروع می شود. به عنوان مثال: "/dir.html"، "/dir/index.html"، "/directory.html".

هنگامی که به این شکل نوشته می شود، دستورالعمل نمایه سازی از فایل index.htm واقع در ریشه را مسدود می کند:

غیر مجاز: /index.htm

بخشنامه اجازهفقط Yandex می فهمد.

عامل کاربر: Yandex Allow: / cgi-bin Disallow: / # شما را از رمزگذاری همه چیز به جز صفحاتی که با "/ cgi-bin" شروع می‌شوند، باز می‌دارد. برای سایر سیستم‌های جستجو، باید همه اسناد بسته را بازیابی کنید. ساختار سایت را در نظر بگیرید تا اسناد بسته شده برای نمایه سازی در صورت امکان در یک مکان جمع آوری شود.

دستور Disallow خالی خواهد بود، به این معنی که ربات می تواند همه فایل ها را فهرست کند. حداقل یک دستور Disallow ممکن است برای قسمت User-agent skin وجود داشته باشد تا robots.txt به درستی وارد شود. robots.txt کاملاً خالی یعنی همان که انگار هیچ اتفاقی نیفتاده است.

ربات Rambler * را به عنوان هر نمادی، دستور Disallow را درک می کند: * به معنای مسدود کردن فهرست بندی کل سایت است.

اجازه، غیر مجاز دستورات بدون پارامتر. تعداد پارامترهای دستورات Allow و Disallow به ترتیب زیر تفسیر می شود: User-agent: Yandex Disallow: # same و Allow: / User-agent: Yandex Allow: # same و Disallow: /

ویکتوریا از شخصیت های خاص "*" و "$".
هنگام تعیین دستورات Allow-Disallow، می توانید از کاراکترهای ویژه "*" و "$" استفاده کنید، بنابراین عبارات منظم را مشخص کنید. کاراکتر ویژه "*" به معنای هر دنباله ای از کاراکترها (از جمله خالی) است. درخواست دادن:

عامل کاربر: Yandex Disallow: /cgi-bin/*.aspx # از "/cgi-bin/example.aspx" محافظت می کند و "/cgi-bin/private/test.aspx" Disallow: / * private # نه تنها محافظت می کند / private ", ale i" / cgi-bin / private " کاراکتر ویژه "$".
برای برنامه های کاربردی تا انتهای قانون پوست که در robots.txt توضیح داده شده است، یک "*" اضافه می شود، به عنوان مثال: User-agent: Yandex Disallow: / cgi-bin * # دسترسی به صفحاتی که با "/ cgi-bin" شروع می شوند را مسدود می کند. Disallow: / cgi-bin # همان چیز، برای فرار از "*" در انتهای قانون، می توانید از کاراکتر ویژه "$" استفاده کنید، به عنوان مثال: User-agent: Yandex Disallow: / مثال $ # استثنا می کند "/ مثال"، اما "/example.html" User -agent: Yandex Disallow: / example # Disallows "/ example"، و "/example.html" User-agent: Yandex Disallow: / مثال $ # Disallows فقط " را حذف نمی کند. / example" Disallow: / example * $ # دقیقاً مانند "Disallow: /example" /example.html و /example را مسدود می کند.

بخشنامه میزبان.

اگر سایت شما دارای آینه باشد، یک ربات آینه ای مخصوص آنها را شناسایی کرده و گروهی از آینه ها را برای سایت شما تشکیل می دهد. سرنوشت برادران Poshuku فقط آینه آتش نشان داد. شما می توانید این را در robots.txt، vikorist و دستورالعمل "Host" وارد کنید و پارامتر نام آینه سر را نیز مشخص کنید. دستورالعمل "میزبان" انتخاب آینه سر تعیین شده را تضمین نمی کند، پروت، الگوریتم، زمانی که تصمیم گیری می شود، با اولویت بالا پذیرفته می شود. مثال: # اگر www.glavnoye-zerkalo.ru برای سایت ساختگی است، robots.txt برای # www.neglavnoye-zerkalo.ru شبیه به این است User-Agent: * Disallow: / Forum Disallow: / cgi-bin Host : www.glavnoye -zerkalo.ru با توجه به پیچیدگی ربات ها که هنگام پردازش robots.txt با استاندارد مطابقت ندارند، دستورالعمل "Host" باید به گروهی که با رکورد "User-Agent" شروع می شود اضافه شود. بلافاصله پس از "عدم اجازه" (دستورالعمل های "مجاز") ) . آرگومان دستورالعمل "Host" یک نام دامنه با شماره پورت (طبق تعریف 80) و به دنبال آن یک کادر دوگانه است. پارامتر دستور Host به یک نام میزبان صحیح (یعنی RFC 952 معتبر و نه یک آدرس IP) و یک شماره پورت معتبر نیاز دارد. ردیف های "میزبان:" که به اشتباه تا شده اند نادیده گرفته می شوند.

نمونه هایی از نادیده گرفتن دستورالعمل های میزبان:

میزبان: www.myhost-.ru میزبان: www.-myhost.ru میزبان: www.myhost.ru:100000 میزبان: www.my_host.ru میزبان: .my-host.ru: 8000 میزبان: my-host.ru. میزبان: my..host.ru میزبان: www.myhost.ru/ میزبان: www.myhost.ru:8080/ میزبان: 213.180.194.129 میزبان: www.firsthost.ru، www.secondhost.ru # در یک ردیف - یک دامنه! میزبان: www.firsthost.ru www.secondhost.ru # در یک ردیف - یک دامنه !! میزبان: ekіpazh-svyaz.rf # نیاز به vikorystvati punycode

بخشنامه خزیدن-تاخیر

قبل از اینکه ربات جستجوگر صفحات را از سرور شما بارگیری کند، زمان پایان را در چند ثانیه تنظیم می کند (Crawl-Delay).

اگر سرور به شدت بارگذاری شده است و نمی‌تواند درخواست‌های دانلود را پردازش کند، با دستورالعمل «تاخیر خزیدن» به این فرآیند سرعت دهید. این به شما امکان می دهد ربات جستجوگر را یک بازه زمانی حداقل ساعتی (بر حسب ثانیه) بین پایان دانلود یک طرف و شروع دانلود بعدی تنظیم کنید. به دلیل پیچیدگی ربات‌ها، که هنگام پردازش robots.txt با استاندارد مطابقت ندارند، دستور «تاخیر خزیدن» باید بلافاصله پس از «عدم اجازه» به گروهی اضافه شود که با رکورد «کاربر-عامل» شروع می‌شود. دستورات ("اجازه دادن").

ربات جستجوی Yandex از مقادیر شات Crawl-Delay پشتیبانی می کند، به عنوان مثال، 0.5. این تضمین نمی کند که ربات جستجوگر هر ثانیه از سایت شما بازدید کند، اما به ربات آزادی عمل بیشتری می دهد و به او اجازه می دهد سرعت خزیدن در سایت را افزایش دهد.

عامل کاربر: Yandex Crawl-Delay: 2 # مدت زمان را روی 2 ثانیه تنظیم می کند.

بخشنامه Clean-param

دستورالعمل برای غیرفعال کردن پارامترها از ردیف آدرس. برای درخواست بازنشانی یا عدم تنظیم مجدد این پارامتر - با آنها یکسان رفتار می شود.

ردیف ها و نظرات خالی

ردیف‌های خالی بین گروه‌های دستورالعمل مجاز است، User-agent را وارد کنید.

دستور Disallow فقط در صورتی معتبر است که توسط هر ردیف User-agent مرتب شده باشد - سپس بالای آن ردیف User-agent قرار دارد.

هر متنی که علامت هش "#" را تا انتهای سطر دنبال می کند در نظر گنجانده شده و نادیده گرفته می شود.

باسن:

فایل ساده توهین آمیز robots.txtاز ایندکس کردن تمام صفحات سایت توسط همه ربات ها جلوگیری می کند، به جز ربات Rambler، که با این حال، مجاز است تمام صفحات سایت را ایندکس کند.

# دستورالعمل برای همه ربات ها User-agent: * Disallow: / # Instructions for the Rambler robots User-agent: StackRambler Disallow:

گسترش مزایا:

نحو معکوس: User-agent: / Disallow: StackRambler اما باید اینگونه باشد: User-agent: StackRambler Disallow: / دسته ای از دستورات Disallow در یک ردیف: Disallow: / css / / cgi-bin / / images / درست مانند این: Disallow: / css/Disallow:/cgi-bin/Disallow:/images/
    یادداشت:
  1. وجود جابه‌جایی ردیف خالی بین دستورالعمل‌های "کاربر-عامل" و "عدم اجازه" ("مجاز") و همچنین بین خود دستورالعمل‌های "عدم اجازه" ("مجاز") غیرقابل قبول است.
  2. مطابق با استاندارد، توصیه می شود قبل از دستورالعمل کاربر-عامل یک ردیف جدید خالی درج کنید.

سلام به همه! امروز می خواهم به شما اطلاع دهم فایل robots.txt. بنابراین، مطالب زیادی در مورد اینترنت نوشته شده است، اما صادقانه بگویم، من خودم مدت زیادی است که نمی‌توانم بفهمم چگونه robots.txt درست را ایجاد کنم. من قبلاً یکی را ساخته ام و در تمام وبلاگ های من وجود دارد. من هیچ مشکلی نمی بینم، robots.txt فقط فوق العاده کار می کند.

Robots.txt برای وردپرس

و با این حال، ظاهرا، robots.txt مورد نیاز است؟ داستان هنوز همان است -. این ساخت robots.txt است - یکی از بخش های بهینه سازی جستجوی سایت (قبل از سخنرانی به زودی یک درسی وجود دارد که به تمام بهینه سازی داخلی سایت در وردپرس اختصاص خواهد یافت. پس فراموش نکنید. مشترک RSS شوید تا این را در مطالب از دست ندهید.).

یکی از عملکردهای این فایل می باشد حفاظت از نمایه سازیصفحات غیر ضروری در سایت آدرس ها هم در جدید مشخص شده و سر نوشته شده است آینه سایت(سایت با www یا بدون www).

نکته: برای سیستم های صوتی یک سایت با www و بدون www سایت های کاملا متفاوتی هستند. آل، با درک این که به جای این سایت ها، موتورهای جستجو آنها را به هم می چسبانند. برای شما مهم است که آینه وب سایت را در robots.txt یادداشت کنید. برای اینکه بفهمید نام چیست (با www یا بدون www)، کافی است آدرس سایت خود را در مرورگر تایپ کنید، مثلاً با www، زیرا به طور خودکار شما را به همان سایت بدون www هدایت می کند، یعنی کلمه آینه ای از سایت شما بدون www. امیدوارم درست توضیح داده باشم.

پس محور، این مقدس، به نظر من، robots.txt را برای وردپرس درست کنیدمیتونی پایین تر بری

Robots.txt را برای وردپرس درست کنید

عامل کاربر: *
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /*؟ *
غیر مجاز: /tag

عامل کاربر: Yandex
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/plugins
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /*؟ *
غیر مجاز: /tag
میزبان: وب سایت
.gz
نقشه سایت: https://site/sitemap.xml

تمام آنچه در بالا داده شد، باید آن را در یک سند متنی با پسوند txt کپی کنید تا نام فایل robots.txt باشد. برای مثال می توانید با استفاده از برنامه های اضافی، یک سند متنی دانمارکی ایجاد کنید. تیلکی، فراموش نکن، مهربان باش، در سه ردیف باقی مانده تغییر دهیدآدرس های موجود در آدرس وب سایت شما فایل robots.txt باید در ریشه وبلاگ، در همان پوشه پوشه های wp-content، wp-admin و سایر پوشه ها قرار گیرد.

برای کسانی که برای ایجاد این فایل متنی تنبل هستند، می توانید به سادگی robots.txt را وارد کنید و 3 ردیف را نیز در آنجا سفارشی کنید.

می‌خواهم به این نکته اشاره کنم که در بخش‌های فنی، که در زیر باید مورد بحث قرار گیرد، نیازی نیست که زیاد در مورد خودتان فانتزی باشید. من آنها را برای "دانستن" مطرح می کنم تا بتوانیم افق های خود را حرکت دهیم تا بدانیم چه چیزی لازم است.

اوزه، ردیف:

عامل کاربر

قوانین را برای هر سیستم صوتی تنظیم می کند: به عنوان مثال، "*" (ستاره) نشان می دهد که قوانین برای همه سیستم های صوتی و حتی پایین تر است.

عامل کاربر: Yandex

به این معنی است که این قوانین فقط برای Yandex هستند.

غیر مجاز
بلافاصله بخش هایی را که نیازی به ایندکس شدن توسط سیستم های صوتی ندارند، "پرتاب" می کنید. به عنوان مثال، در صفحه https: // site / tag / seo تکرار کمتری از مقالات (تکرار شده) با مقالات اصلی وجود دارد و تکرار صفحات به صورت منفی در موتور جستجو نشان داده می شود، بنابراین مهم است که این بخش ها باید از نمایه سازی بسته باشد، بنابراین ما و ما از این قانون اضافی خجالتی هستیم:

غیر مجاز: /tag

بنابراین، نکته این است که robots.txt اهمیت بیشتری پیدا کرده است، زیرا به دلیل نمایه سازی، تمام بخش های غیر ضروری سایت در وردپرس بسته می شوند، بنابراین می توانید به سادگی همه چیز را پر کنید.

میزبان

در اینجا ما یک سردرد برای سایت می پرسیم که من کمی بیشتر در مورد آن یاد گرفتم.

نقشه سایت

در دو ردیف باقی مانده، آدرس حداکثر دو نقشه را برای سایت تعیین می کنیم، برای کمک بیشتر ایجاد می کنیم.

مشکلات احتمالی

و در محور میان ردیف‌ها در robots.txt، پست‌های سایت من ایندکس نشدند:

غیر مجاز: /*؟ *

همانطور که می بینید، این ردیف در robots.txt از نمایه سازی مقالات محافظت می کند، که طبیعتاً به آن نیازی نداریم. برای تصحیح این، فقط باید 2 ردیف را حذف کنید (در قوانین برای همه موتورهای جستجو و برای Yandex) و باقیمانده robots.txt صحیح برای یک سایت وردپرس بدون CNC به این صورت خواهد بود:

عامل کاربر: *
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/plugins
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /tag

عامل کاربر: Yandex
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/plugins
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /tag
میزبان: وب سایت
نقشه سایت: https://site/sitemap.xml

برای تأیید اینکه فایل robots.txt را به درستی کامپایل کرده اید، توصیه می کنم به سرعت از سرویس Yandex Webmaster استفاده کنید (من یاد گرفتم که چگونه در این سرویس ثبت نام کنم).

بریم سراغ بخش نمایه سازی تنظیم شده -> تجزیه و تحلیل robots.txt:

پس از رسیدن به آنجا، روی دکمه "Invade robots.txt from the site" کلیک کنید و سپس روی دکمه "Check" کلیک کنید:

به محض اینکه مطلع شدید، به این معنی است که robots.txt صحیح را برای Yandex دارید:

همه وب مسترهای مدرن با کد HTML کار نمی کنند. اکثر مردم نمی دانند که چه عملکردهایی در فایل های کلید CMS نوشته شده است. ذات منبع شما، مانند فایل robots.txt، و قدرت فکری که قدرت مسئول آن است، مانند ماهی در آب است. تنظیم دقیق سایت به شما امکان می دهد رتبه بندی جستجوی خود را افزایش دهید، آن را در صدر قرار دهید و ترافیک را با موفقیت جمع آوری کنید.

فایل robots.txt یکی از عناصر اصلی تنظیم یک منبع برای استفاده از موتورهای جستجو است. این شامل اطلاعات فنی است و دسترسی به تعدادی از صفحات را با روبات های جستجو به اشتراک می گذارد. به دور از لاغری است که طرف مقصر است بلافاصله در نمای ظاهر می شود. پیش از این، برای ایجاد یک فایل txt روبات، باید از طریق FTP دسترسی داشته باشید. توسعه CMS امکان لغو دسترسی قبلی را مستقیماً از طریق کنترل پنل ارائه کرده است.

چرا فایل robots.txt مورد نیاز است؟

این فایل حاوی تعدادی توصیه خطاب به روبات های جستجوگر است. دسترسی آنها را به بخش های خاصی از سایت محدود می کند. با قرار دادن این فایل در پوشه اصلی، ربات ها نمی توانند آن را از دست بدهند. در نتیجه، هنگام صرف پول برای منبع خود، ابتدا باید قوانین کار خود را بخوانید و تنها پس از آن شروع به تجدید نظر کنید.

به این ترتیب، فایل به روبات‌های جستجوگر می‌گوید که کدام دایرکتوری‌ها در دامنه مجاز به فهرست‌بندی هستند و کدام فرآیند مجاز نیست.

با توجه به اینکه فرآیند رتبه بندی مستقیماً بر روی دید فایل تأثیر نمی گذارد، بسیاری از سایت ها نمی توانند در برابر robots.txt مقاومت کنند. در صورت دسترسی کامل امکان رعایت صحت فنی وجود ندارد. بیایید به مزایای robots.txt که به منبع می دهد نگاه کنیم.

شما می توانید با مسدود کردن روبات های جستجویی که حق ایندکس کردن را دارند، از نمایه سازی یک منبع به طور کامل یا جزئی محافظت کنید. با دستور robots.txt برای مسدود کردن همه چیز، می توانید منبع را برای یک ساعت تعمیر یا بازسازی کاملاً ایزوله کنید.

قبل از سخنرانی، توسعه‌دهندگان گوگل بارها به مدیران وب‌سایت گفتند که فایل robots.txt نباید بزرگ‌تر از 500 کیلوبایت باشد. این بلافاصله منجر به جریمه در طول نمایه سازی می شود. اگر فایلی را به صورت دستی ایجاد کنید، واضح است که رسیدن به چنین اندازه ای غیرممکن است. با این حال، توابع CMS به طور خودکار جایگزین robots.txt را تشکیل می دهند که می تواند آن را به طور قابل توجهی تغییر دهد.

ایجاد یک فایل ساده برای هر جوکر

اگر از انجام تنظیمات ظریف به تنهایی می ترسید، می توانید این کار را به صورت خودکار انجام دهید. سازنده هایی هستند که بدون مشارکت شما چنین فایل هایی را جمع آوری می کنند. آنها برای افرادی که به تازگی کار خود را به عنوان مدیر وب سایت شروع کرده اند مناسب هستند.

همانطور که در تصویر مشخص است، راه اندازی سازنده با وارد کردن آدرس سایت شروع می شود. در مرحله بعد، سیستم های صوتی را که قصد استفاده از آن را دارید انتخاب می کنید. اگر به این یا هر سیستم صوتی دیگری اهمیتی نمی دهید، نیازی به تنظیمات برای آن نیست. اکنون به انتخاب پوشه ها و فایل هایی که قصد دارید دسترسی به آنها را محدود کنید، ادامه دهید. در این اپلیکیشن می توانید آدرس کارت و آینه منبع خود را وارد کنید.

مولد Robots.txt فرم را در دنیای طراح ذخیره می کند. تنها چیزی که در آینده نیاز دارید این است که متن استخراج شده را در یک فایل txt کپی کنید. معرفی نام روبات ها را فراموش نکنید.

نحوه بررسی اثربخشی فایل robots.txt

برای تجزیه و تحلیل این فایل در Yandex، به صفحه اصلی در بخش Yandex.Webmaster بروید. در کادر محاوره ای، نام سایت را وارد کرده و روی دکمه "Enter" کلیک کنید.

سیستم فایل robots.txt را تجزیه و تحلیل می‌کند و بررسی می‌کند که نشان دهد ربات جستجوگر صفحات مسدود شده را قبل از نمایه‌سازی می‌خزد. در صورت بروز مشکل، دستورالعمل ها را می توان مستقیماً در کادر محاوره ای ویرایش و بررسی کرد. با این حال، پس از این باید متن ویرایش شده را کپی کنید و آن را در فایل robots.txt خود در دایرکتوری ریشه قرار دهید.

خدمات مشابهی توسط سرویس «ابزار برای وب مسترها» از موتور جستجوی گوگل ارائه می شود.

ایجاد robots.txt برای وردپرس، جوملا و Ucoz

Razni CMS که در وسعت Runet محبوبیت زیادی به دست آورده است، نسخه های خود از فایل های robots.txt را برای معامله گران تبلیغ می کند. اصلا چنین فایل هایی را پاک نمی کنند. اغلب، این فایل ها یا بیش از حد جهانی هستند و هیچ ویژگی خاصی را برای منبع کاربر ارائه نمی دهند، اما ممکن است حاوی تعدادی کاستی اساسی باشند.

پس از تکمیل تحقیقات خود، می توانید به صورت دستی تنظیمات را اصلاح کنید (اگر دانش کافی وجود ندارد، بهتر است کار نکنید). اگر می‌ترسید به درون سایت بپردازید، سریعاً از همکاران خود کمک بگیرید. چنین دستکاری ها، اگر می دانید چگونه آن را انجام دهید، فقط چند ساعت طول می کشد. به عنوان مثال، robots.txt می تواند به شکل زیر باشد:

در دو ردیف باقی مانده، همانطور که حدس زدن آن دشوار است، باید داده ها را در منبع رسمی بنویسید.

visnovok

تعدادی از مهارت ها وجود دارد که باید به عنوان یک وب مستر به آنها مسلط شوید. خود سفارشی سازی و مدیریت وب سایت یکی از آنهاست. Pochatkіvtsy budіvniki می تواند چنین هیزمی را در ساعت توسعه منابع روی هم انباشته کند که پس از آن نمی توان آن ها را جمع کرد. اگر نمی خواهید مخاطبان و موقعیت های بالقوه خود را از طریق ساختارهای سایت خود هدر دهید، به طور کامل و کامل به این فرآیند نزدیک شوید.