Robots.txt یک فایل ویژه است که در دایرکتوری ریشه سایت قرار دارد. مدیر وب سایت در این زمینه دستور می دهد که کدام صفحات و داده ها باید برای نمایه سازی در موتورهای جستجو بسته شوند. این فایل حاوی دستورالعمل هایی است که دسترسی به بخش های سایت (به اصطلاح استاندارد ربات ها) را توضیح می دهد. به عنوان مثال، میتواند به شما در تنظیم تنظیمات دسترسی مختلف برای روباتهای جستجو، دستگاههای تلفن همراه و رایانههای رومیزی کمک کند. انجام صحیح یوگا بسیار مهم است.
چرا robots.txt مورد نیاز است؟
برای راهنمایی بیشتر در مورد robots.txt می توانید:
- از ایندکس شدن صفحات مشابه و غیر ضروری جلوگیری کنید تا محدودیت خزیدن (تعداد URL هایی که می تواند توسط ربات جستجوگر در یک حرکت خزیده شود) تمام نشود. به این ترتیب ربات می تواند صفحات مهم تری را ایندکس کند.
- از نتایج جستجو عکس بگیرید.
- اسکریپتهای بیاهمیت، فایلهای سبک و سایر منابع غیر مهم سایت را از فهرستسازی ببندید.
بهتر است اسکنر Google یا Yandex صفحات شما را تجزیه و تحلیل کند، اما فایل ها را مسدود نکنید.
فایل Robots.txt در کجا قرار دارد؟
اگر فقط میخواهید ببینید چه چیزی در فایل robots.txt وجود دارد، کافی است در نوار آدرس مرورگر خود وارد کنید: site.ru/robots.txt.
از نظر فیزیکی، فایل robots.txt در پوشه ریشه سایت میزبان قرار دارد. من میزبانی beget.ru دارم، بنابراین به شما نشان خواهم داد که چگونه فایل robots.txt را در هاست خود پیکربندی کنید.
![](https://i1.wp.com/webmaster-seo.ru/wp-content/uploads/2018/06/beget.ru-i-robots.txt.png)
نحوه ایجاد robots.txt صحیح
فایل robots.txt از یک یا چند قانون تشکیل شده است. قانون پوست، فهرست کردن اطلاعات سایت را مسدود یا اجازه می دهد.
- در یک ویرایشگر متن، یک فایل با نام robots.txt ایجاد کنید و آن را با قوانین ارائه شده در زیر پر کنید.
- فایل robots.txt قرار است یک فایل متنی با کدگذاری ASCII یا UTF-8 باشد. نویسههای موجود در کدهای دیگر قابل قبول نیستند.
- فقط یک فایل از این دست در سایت وجود دارد.
- فایل robots.txt باید در آن قرار گیرد کاتالوز ریشهسایت اینترنتی. برای مثال برای کنترل نمایه سازی تمام صفحات سایت http://www.example.com/ باید فایل robots.txt پشت آدرس http://www.example.com/robots.txt قرار گیرد. او گناهی ندارد که در شرایطی است(مثلاً در آدرس http://example.com/pages/robots.txt). دسترسی به دایرکتوری ریشه با تماس با ارائه دهنده هاست دشوار است. اگر به دایرکتوری ریشه سایت دسترسی ندارید، یک روش مسدود کردن جایگزین مانند متا تگ ها را بررسی کنید.
- فایل robots.txt را می توان به آدرس ها اضافه کرد زیر دامنه ها(به عنوان مثال، http: // سایت اینترنتی.example.com / robots.txt) یا پورت های غیر استاندارد (به عنوان مثال، http://example.com: 8181 /robots.txt).
- فایل را در سرویس های Yandex.Webmaster و Google Search Console تبدیل کنید.
- فایل را در پوشه اصلی سایت خود آپلود کنید.
محور فایل robots.txt با دو قانون است. در زیر توضیح داده شده است.
عامل کاربر: Googlebot غیر مجاز: /nogooglebot/User-agent: * مجاز: / نقشه سایت: http://www.example.com/sitemap.xml
شفاف سازی
- نماینده فروشنده به نام Googlebot در فهرست کردن دایرکتوری http://example.com/nogooglebot/ و زیرشاخههای آن مقصر نیست.
- سایر نمایندگان مشتری به کل سایت دسترسی دارند (می توانید آن را حذف کنید، نتیجه یکسان خواهد بود، زیرا دسترسی جدید پس از ثبت نام لازم است).
- فایل نقشه سایت این سایت در آدرس http://www.example.com/sitemap.xml قرار دارد.
دستورات غیر مجاز و مجاز است
برای جلوگیری از نمایه سازی و دسترسی ربات به سایت یا هر یک از بخش های آن، از دستورالعمل Disallow استفاده کنید.
User-agent: Yandex Disallow: / # دسترسی به کل سایت را مسدود می کند. User-agent: Yandex Disallow: / cgi-bin # دسترسی به صفحات # را که با "/ cgi-bin" شروع می شوند مسدود می کند.
مطابق با استاندارد، توصیه می شود قبل از دستورالعمل User-agent یک ردیف جدید خالی درج کنید.
نماد تخصیص # برای توصیف نظرات استفاده می شود. هر چیزی که در نماد آخر و قبل از اولین واژگونی ردیف باشد بیمه نمی شود.
برای اجازه دسترسی ربات به سایت یا هر یک از بخش های آن، از دستورالعمل Allow استفاده کنید
عامل کاربر: Yandex Allow: / cgi-bin Disallow: / # شما را از محصور کردن همه چیز به جز صفحات # که با "/ cgi-bin" شروع میشوند، جلوگیری میکند.
وجود انتقال ردیف خالی بین دستورالعمل های User-agent، Disallow و Allow غیرقابل قبول است.
دستورات Allow و Disallow از بلوک User-agent مربوطه بر اساس ترتیب پیشوند URL (از کوچکترین به بزرگترین) مرتب شده و به ترتیب مرتب می شوند. اگر تعدادی دستورالعمل برای یک سمت مشخص از سایت مناسب باشد، ربات بالاترین شماره سریالی را که در لیست مرتب شده ظاهر می شود انتخاب می کند. بنابراین، ترتیبی که دستورالعمل ها از طریق فایل robots.txt منتقل می شوند، بر پردازش روبات ها تأثیری ندارد. درخواست دادن:
# Output robots.txt: User-agent: Yandex Allow: / catalog Disallow: / # Sorting robots.txt: User-agent: Yandex Disallow: / Allow: / catalog # به شما امکان می دهد فقط صفحات # را دانلود کنید که با "/ catalog شروع می شوند. " # output robots.txt: User-agent: Yandex Allow: / Allow: / catalog / auto Disallow: / catalog # مرتب سازی robots.txt: User-agent: Yandex Allow: / Disallow: / catalog Allow: / catalog / auto # محافظت صفحاتی را که با "/catalog"، # شروع می شوند فعال کنید یا به شما اجازه دانلود صفحاتی که با "/catalogue/auto" شروع می شوند را می دهد.
اگر بین دو دستورالعمل با پیشوندها تضاد وجود داشته باشد، دستورالعمل Allow اولویت دارد.
Vikoristanny از شخصیت های خاص * و $
هنگام تعیین دستورات Allow و Disallow، می توانید از کاراکترهای ویژه * و $ استفاده کنید، بنابراین عبارات منظم را مشخص کنید.
کاراکتر ویژه * به معنای هر دنباله ای از کاراکترها (از جمله خالی) است.
نماد ویژه $ به معنای انتهای سطر است، نماد قبل از آن باقیمانده است.
عامل کاربر: Yandex Disallow: /cgi-bin/*.aspx # محافظت از "/cgi-bin/example.aspx" # i "/cgi-bin/private/test.aspx" غیر مجاز: / * خصوصی # نه تنها محافظت می کند "/private"، #و "/cgi-bin/private"
دستورالعمل نقشه سایت
اگر ساختار یک سایت را با استفاده از یک فایل Sitemap جداگانه توصیف می کنید، مسیر فایل را در پارامتر دستورالعمل نقشه سایت (مانند فایل های فایل، همه را وارد کنید) وارد کنید. باسن:
عامل کاربر: Yandex Allow: / نقشه سایت: https://example.com/site_structure/my_sitemaps1.xml نقشه سایت: https://example.com/site_structure/my_sitemaps2.xml
این دستورالعمل متقاطع است، بنابراین بدون توجه به مکانی در فایل robots.txt، جایی که نشان داده شده است، توسط ربات استفاده می شود.
ربات مسیرهای فایل را به خاطر می آورد، داده ها را پردازش می کند و نتایج را برای پردازش بیشتر جلسه پردازش داده ها تجزیه و تحلیل می کند.
دستورالعمل Crawl-Delay
اگر سرور به شدت تحت فشار است و نمی تواند درخواست های ربات را پردازش کند، از دستورالعمل Crawl-Delay برای سرعت بخشیدن به کارها استفاده کنید. این به شما امکان می دهد تا ربات جستجوگر را حداقل یک بازه ساعتی (بر حسب ثانیه) بین اتمام جستجو در یک طرف و شروع جستجو در طرف بعدی تنظیم کنید.
قبل از اینکه سرعت خزیدن در سایت را تغییر دهید، بررسی کنید که ربات در کدام صفحات بیشتر از کار می افتد.
- گزارش های سرور را تجزیه و تحلیل کنید. به ارائه دهنده مسئول سایت یا ارائه دهنده میزبانی بازگردید.
- فهرست نشانیهای وب را در سایت Indexing → Crawl statistics در Yandex.Webmaster مشاهده کنید (همه صفحات را انتخاب کنید).
اگر متوجه شدید که ربات به صفحات سرویس دسترسی دارد، نمایه سازی آنها را در فایل robots.txt با یک دستورالعمل Disallow اضافی مسدود کنید. این به کاهش تعداد حیوانات در ربات کمک می کند.
بخشنامه Clean-param
این دستورالعمل فقط با ربات Yandex کار می کند.
اگر آدرسهای صفحات سایت حاوی پارامترهای پویا هستند که به جای آنها را شامل نمیشود (شناسههای جلسات، حسابها، ارجاعدهندهها و غیره)، میتوانید آنها را در پشت دستورالعمل اضافی Clean-param توضیح دهید.
ربات Yandex، این دستورالعمل را vikorystyuchi، به طوری که آن را تا حد زیادی دوباره درگیر اطلاعات تکراری نیست. به این ترتیب راندمان خزیدن سایت شما افزایش می یابد و تقاضا در سرور کاهش می یابد.
به عنوان مثال، در سایت صفحاتی وجود دارد:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123
پارامتر ref فقط برای انتخاب درخواست از هر منبعی استفاده می شود و به جای آن تغییری نمی کند، برای هر سه آدرس یک صفحه با کتاب book_id = 123 نشان داده می شود. rank:
عامل کاربر: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl
ربات Yandex تمام آدرس های صفحه را به یک کاهش می دهد:
www.example.com/some_dir/get_book.pl?book_id=123
اگر چنین صفحه ای در سایت موجود باشد، خودتان در نتایج جستجو شرکت خواهید کرد.
نحو دستوری
Clean-param: p0 [&p1&p2&..&pn]در فیلد اول، از طریق نماد &، باید پارامترها را مجدداً بیمه کنید، زیرا ربات نیازی به بیمه مجدد ندارد. فیلد دیگر پیشوندی را برای جهت صفحاتی که باید برای آنها قانون تنظیم شود مشخص می کند.
توجه داشته باشید. دستورالعمل Clean-Param مقطعی است و می تواند در هر فایل robots.txt مشخص شود. پس از مشخص شدن دستورالعمل ها، تمامی اقلام توسط ربات بیمه خواهند شد.
پیشوند را می توان در یک عبارت منظم در قالبی مشابه فایل robots.txt قرار داد، اما با برخی تغییرات: فقط کاراکترهای A-Za-z0-9 .- / * _ قابل تغییر هستند. در این مورد، نماد * به همان روشی که در فایل robots.txt تفسیر می شود: نماد * به طور ضمنی به انتهای پیشوند اضافه می شود. مثلا:
Clean-param: s /forum/showthread.php
ثبت نام بیمه شده است. قانون 500 کاراکتر است. مثلا:
Clean-param: abc /forum/showthread.php Clean-param: sid & sort /forum/*.php Clean-param: someTrash & otherTrash
دستورالعمل HOST
در حال حاضر Yandex این دستورالعمل را پذیرفته است.
robots.txt صحیح: راه اندازی
به جای فایل robots.txt، به نوع سایت (فروشگاه آنلاین، وبلاگ)، CMS انتخابی، ویژگی های ساختار و تعدادی از مقامات دیگر بستگی دارد. بنابراین، هنگام کار بر روی ایجاد این فایل برای یک سایت تجاری، به خصوص اگر قصد دارید یک پروژه پیچیده را انجام دهید، یک SEO-fahivet با شواهد کافی از کار مورد نیاز است.
فردی بدون آموزش خاص که همه چیز را می داند، نمی تواند تصمیم درستی بگیرد که قبل از اینکه کدام قسمت باید از نمایه سازی بسته شود و کدام قسمت باید در فرم صدا ظاهر شود.
درست کردن لبه Robots.txt برای وردپرس
عامل کاربر: * # قوانین زیرزمینی برای روبات ها، از جمله Yandex و Google، # قوانین زیر برای آنها غیر مجاز است: / cgi-bin # پوشه میزبانی غیر مجاز: /؟ # همه پارامترها در هدر Disallow ذخیره میشوند: /wp- # همه فایلهای WP: /wp-json/، /wp-includes، /wp-content/plugins Disallow: /wp/ # جایی که زیر شاخه /wp/ نصب شده است. CMS (که در دسترس نیست، # قانون قابل مشاهده است) غیر مجاز: *؟ s = # جستجو غیرمجاز: * و s = # جستجو غیرمجاز: / جستجو / # جستجو غیرمجاز: / نویسنده / # بایگانی نویسنده غیرمجاز: / کاربران / # بایگانی نویسنده غیرمجاز: * / trackback # بکبک، اطلاعات در نظرات درباره ظاهر of hidden # ارسال شده به مقاله غیر مجاز: * / feed # همه فیدها غیرمجاز: * / rss # فید rss غیرمجاز: * / embed # همه فیدها غیرمجاز: * / wlwmanifest.xml # فایل xml برای مانیفست Windows Live Writer (اگر این کار را انجام ندهید از آن استفاده نکنید، # قانون ممکن است قابل مشاهده باشد) غیر مجاز: /xmlrpc.php # فایل API وردپرس غیرمجاز: * utm * = # بارگذاری شده با برچسبهای utm مجاز نیست: * openstat = # بارگذاری شده با برچسبهای openstat مجاز: * / آپلودها # نشان میدهد پوشه با فایلهای آپلود نقشه سایت: http:/ /site.ru/sitemap.xml # آدرس نقشه سایت عامل کاربر: GoogleBot # قانون برای Google (من نظرات را تکراری نمیکنم) غیرمجاز: / cgi-bin غیر مجاز: /؟ Disallow: /wp- Disallow: /wp/Disallow: *؟ S = غیر مجاز: * و s = غیرمجاز: / جستجو / غیر مجاز: / نویسنده / غیر مجاز: / کاربران / غیر مجاز: * / پیگیری غیرمجاز: * / فید غیر مجاز: * / rss غیر مجاز: * / جاسازی غیر مجاز: * / wlwmanifest.xml Disallow: /xmlrpc.php غیر مجاز: * utm * = غیر مجاز: * openstat = مجاز: * / آپلودها مجاز: /*/*.js # js اسکریپت در وسط / wp- (/ * / - برای اولویت) مجاز: / */*.css # فایلهای CSS در وسط نمایش داده میشوند / wp- (/ * / - برای اولویت) اجازه دادن به: / wp-*.png # تصاویر در افزونهها، پوشههای کش و غیره. اجازه دادن به: /wp-*.jpg # تصاویر در افزونهها، پوشههای کش و غیره. اجازه دادن به: /wp-*.jpeg # تصاویر در افزونهها، پوشههای کش و غیره. اجازه دادن به: /wp-*.gif # تصاویر در افزونهها، پوشههای کش و غیره. مجاز است: /wp-admin/admin-ajax.php # برای جلوگیری از مسدود کردن JS و CSS از افزونهها استفاده کنید. Disallow: /wp- Disallow: /wp/Disallow: *؟ S = غیر مجاز: * و s = غیرمجاز: / جستجو / غیر مجاز: / نویسنده / غیر مجاز: / کاربران / غیر مجاز: * / پیگیری غیرمجاز: * / فید غیر مجاز: * / rss غیر مجاز: * / جاسازی غیر مجاز: * / wlwmanifest.xml غیر مجاز: /xmlrpc.php مجاز: * / آپلودها مجاز: /*/*.js مجاز: /*/*.css مجاز: /wp-*.png مجاز: /wp-*.jpg مجاز: /wp-*. jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Yandex توصیه میکند # نمای نمایهسازی را نبندید، اما پارامترهای برچسب را حذف کنید، # Google پشتیبانی نمیکند چنین قوانینی Clean-Param: openstat # مشابهلب به لب Robots.txt برای جوملا
عامل کاربر: *
غیر مجاز: /administrator/
غیر مجاز: /cache/
غیر مجاز: /شامل/
غیر مجاز: /نصب/
غیر مجاز: /language/
غیر مجاز: /کتابخانه ها/
غیر مجاز: /media/
غیر مجاز: /modules/
غیر مجاز: /plugins/
غیر مجاز: /templates/
غیر مجاز: /tmp/
غیر مجاز: /xmlrpc/
لب به لب Robots.txt برای Bitrix
عامل کاربر: *
غیر مجاز: /*index.php$
غیر مجاز: /bitrix/
غیر مجاز: /auth/
غیر مجاز: /شخصی/
غیر مجاز: /upload/
غیر مجاز: /search/
غیر مجاز: /*/جستجو/
غیر مجاز: /*/slide_show/
غیر مجاز: /*/gallery/*order=*
غیر مجاز: /*؟ چاپ =
غیر مجاز: /*&print=
غیر مجاز: / * ثبت =
غیر مجاز: / * forgot_password =
غیر مجاز: / * change_password =
غیر مجاز: /*login=
غیر مجاز: /*logout=
غیر مجاز: /*auth=
غیر مجاز: /*؟ عمل =
غیر مجاز: /* اقدام = ADD_TO_COMPARE_LIST
غیر مجاز: /* اقدام = DELETE_FROM_COMPARE_LIST
غیر مجاز: / * اقدام = ADD2BASKET
غیر مجاز: / * اقدام = خرید
غیر مجاز: /*bitrix_*=
غیر مجاز: /*backurl=*
غیر مجاز: /*BACKURL=*
غیر مجاز: /*back_url=*
غیر مجاز: /*BACK_URL=*
غیر مجاز: /*back_url_admin=*
غیر مجاز: /* print_course = Y
غیر مجاز: / * COURSE_ID =
غیر مجاز: /*؟ COURSE_ID =
غیر مجاز: /*؟ PAGEN
غیر مجاز: / * PAGEN_1 =
غیر مجاز: / * PAGEN_2 =
غیر مجاز: / * PAGEN_3 =
غیر مجاز: / * PAGEN_4 =
غیر مجاز: / * PAGEN_5 =
غیر مجاز: / * PAGEN_6 =
غیر مجاز: / * PAGEN_7 =
غیر مجاز: /* PAGE_NAME = جستجو
غیر مجاز: /* PAGE_NAME = user_post
غیر مجاز: /* PAGE_NAME = detail_slide_show
غیر مجاز: /*SHOWALL
غیر مجاز: / * show_all =
نقشه سایت: http://path به نقشه شما در قالب XML
لب به لب Robots.txt برای MODx
عامل کاربر: *
غیر مجاز: /assets/cache/
غیر مجاز: /assets/docs/
غیر مجاز: /assets/export/
غیر مجاز: /assets/import/
غیر مجاز: /assets/modules/
غیر مجاز: /assets/plugins/
غیر مجاز: /assets/snippets/
غیر مجاز: /install/
غیر مجاز: /manager/
نقشه سایت: http://site.ru/sitemap.xml
لب به لب Robots.txt برای دروپال
عامل کاربر: *
غیر مجاز: /پایگاه داده/
غیر مجاز: /شامل/
غیر مجاز: /misc/
غیر مجاز: /modules/
غیر مجاز: /sites/
غیر مجاز: /themes/
غیر مجاز: /scripts/
غیر مجاز: /به روز رسانی/
غیر مجاز: /پروفایل/
غیر مجاز: /profile
غیر مجاز: /profile/*
غیر مجاز: /xmlrpc.php
غیر مجاز: /cron.php
غیر مجاز: /update.php
غیر مجاز: /install.php
غیر مجاز: /index.php
غیر مجاز: /admin/
عدم اجازه: /comment/reply/
غیر مجاز: /contact/
غیر مجاز: /logout/
غیر مجاز: /search/
غیر مجاز: /user/register/
غیر مجاز: /user/password/
غیر مجاز: *ثبت نام*
غیر مجاز: *ورود*
غیر مجاز:/بالاترین رتبه-
غیر مجاز: /messages/
غیر مجاز: /book/export/
غیر مجاز: /user2userpoints/
غیر مجاز: /myuserpoints/
غیر مجاز: /tagadelic/
غیر مجاز: /ارجاع/
غیر مجاز: /aggregator/
غیر مجاز: /files/pin/
غیر مجاز: /Your-votes
غیر مجاز: /comments/recent
غیر مجاز: /*/edit/
غیر مجاز: /*/حذف/
غیر مجاز: /*/صادرات/html/
غیر مجاز: /taxonomy/term/*/0$
غیر مجاز: /*/edit$
غیر مجاز: /*/outline$
غیر مجاز: /*/revisions$
غیر مجاز: /*/contact$
غیر مجاز: /* downloadpipe
غیر مجاز: /node$
غیر مجاز: /node/*/track$
غیر مجاز: /*&
غیر مجاز: /*%
غیر مجاز: /*؟ صفحه = 0
غیر مجاز: /*بخش
غیر مجاز:/*سفارش
غیر مجاز: /*؟ مرتب سازی *
غیر مجاز: /*&مرتب کردن*
غیر مجاز: /*votesupdown
غیر مجاز: /* تقویم
غیر مجاز: /*index.php
اجازه: /*؟ صفحه =
غیر مجاز: /*؟
نقشه سایت: http://path به نقشه شما در قالب XML
UVAGA!
CMS به طور مداوم در حال به روز رسانی است. ممکن است لازم باشد صفحات دیگر را از نمایه سازی ببندید. اگر مورد توجه قرار نگیرد، حصار نمایه سازی را می توان برداشت یا به طور ناخواسته اضافه کرد.
robots.txt را بررسی کنید
جوکر پوست قبل از ثبت فایل robots.txt ترجیحات خاص خود را دارد.
به منظور. واسه اینکه. برای اینکه robots.txt را بررسی کنیدبا استفاده از یکی از سرویس های آنلاین می توانید به سرعت صحت نحو و ساختار فایل را بررسی کنید. به عنوان مثال، Yandex و Google خدمات تجزیه و تحلیل قدرت را برای وب مسترها به سایت معرفی می کنند که شامل تجزیه و تحلیل robots.txt:
تأیید robotx.txt برای ربات جستجوی Yandex
می توانید با استفاده از ابزار ویژه Yandex - Yandex.Webmaster و با دو گزینه دیگر درآمد کسب کنید.
انتخاب 1:
در سمت راست موردی است که حذف می شود - انتخاب کنید تجزیه و تحلیل robots.txtیا به خاطر آن http://webmaster.yandex.ru/robots.xml
مهم است که به یاد داشته باشید که تمام تغییراتی که در فایل robots.txt ایجاد میکنید، نه بلافاصله، بلکه در عرض یک ساعت در دسترس خواهند بود.
تایید robotx.txt برای ربات جستجوگر گوگل
- در کنسول جستجوی گوگل، سایت خود را انتخاب کنید، به ابزار تأیید بروید و به فایل robots.txt نگاه کنید. نحویі منطقیعلائم در مورد جدید قابل مشاهده خواهند بود و مقدار آنها در زیر پنجره ویرایش نشان داده می شود.
- در پایین رابط، URL مورد نیاز را در پنجره پاپ آپ وارد کنید.
- از منوی کشویی سمت راست را انتخاب کنید ربات.
- دکمه را فشار دهید مرور.
- نمایش وضعیت در دسترسیا چیز دیگر غیر قابل دسترسی. در حالت اول، رباتهای گوگل ممکن است آدرسی را که وارد کردهاید دنبال کنند، اما در مورد دیگر، این کار را نمیکنند.
- در صورت لزوم، تغییراتی در منو اعمال کنید و دوباره چک را اجرا کنید. توجه!این تغییرات به طور خودکار به فایل robots.txt در سایت شما اضافه نخواهد شد.
- تغییرات خود را کپی کنید و آنها را به فایل robots.txt در سرور وب خود اضافه کنید.
علاوه بر خدمات تأیید از Yandex و Google، هیچ سرویس دیگری آنلاین وجود ندارد اعتبار سنجی robots.txt.
ژنراتورهای Robots.txt
- سرویس از SEOlib.ru با استفاده از این ابزار می توانید به سرعت به مرزهای موجود در فایل Robots.txt دسترسی پیدا کرده و بررسی کنید.
- ژنراتور از pr-cy.ru است. در نتیجه ژنراتور Robots.txt، متنی را که باید در فایلی به نام Robots.txt ذخیره کنید استخراج کرده و به دایرکتوری ریشه سایت خود اضافه می کنید.
پیکربندی صحیح و شایسته فایل root robots.txt یکی از مهمترین وظایف یک WEB master است. اگر در حالت جستجو از مزایای مناسبی برخوردار نباشید، ممکن است صفحات غیر ضروری زیادی در سایت داشته باشید. در غیر این صورت، اسناد مهم در سایت شما برای ایندکس بسته می شوند؛ در بدترین حالت، می توانید کل دایرکتوری ریشه دامنه را برای روبات های موتور جستجو ببندید.
تنظیم صحیح فایل robots.txt با دستان خود، در واقع، کار خیلی پیچیده نیست. پس از خواندن این مقاله، پیچیدگی های دستورالعمل ها را یاد می گیرید و به طور مستقل قوانینی را برای فایل robots.txt در وب سایت خود می نویسید.
برای ایجاد یک فایل robots.txt، از یک نحو ساده و نه پیچیده استفاده می شود. دستورالعمل های Vikorist زیادی وجود ندارد. بیایید قوانین، ساختار و نحو فایل robots.txt را قدم به قدم و با جزئیات بررسی کنیم.
قوانین حقوقی robots.txt
اول از همه، خود فایل robots.txt مقصر کد ANSI است.
در غیر این صورت، استفاده از الفبای لاتین برای نوشتن قوانین هیچ الفبای ملی امکان پذیر نیست.
از نظر ساختاری، فایل robots.txt می تواند از یک یا چند بلوک دستورالعمل تشکیل شده باشد که برای روبات های سیستم های صوتی مختلف مناسب است. یک بلوک پوسته یا بخش شامل مجموعه ای از قوانین (دستورالعمل ها) برای نمایه سازی یک سایت، چه توسط یک موتور جستجو یا توسط موتور جستجوی دیگر است.
خود دستورالعمل ها، بلوک های قوانین و بین آنها مجاز به داشتن هر نوع سرصفحه یا نماد نیستند.
دستورالعمل ها و بلوک های قوانین به انتقال ردیف تقسیم می شوند. یک چیز، یک نظر.
نظر دادن در robots.txt
برای نظر دادن، از نماد "#" استفاده می شود. اگر نماد هش را روی سر یک ردیف قرار دهید، کل ردیف توسط ربات های جستجوگر تا انتهای سطر نادیده گرفته می شود.
عامل کاربر: *
عدم اجازه: / css # نوشتن نظر
# بیایید یک نظر دیگر بنویسیم
غیر مجاز: /img
بخش ها در فایل robots.txt
هنگامی که یک فایل توسط یک ربات خوانده می شود، فقط قسمت خطاب به ربات آن سیستم جستجو خوانده می شود، اگر در قسمت، user-agent با نام سیستم جستجوی Yandex مشخص شده باشد، ربات فقط آدرس را می خواند. خطاب به آن بخش، و نادیده گرفتن سایرین، از جمله بخش با دستورالعمل برای همه روبات ها - User-agent: *.
پوست بخش مستقل است. یک بخش می تواند یک آتل برای روبات های پوستی یا سیستم های صوتی خاص یا یک بخش جهانی برای همه ربات ها یا روبات های یکی از سیستم های آنها باشد. اگر فقط یک بخش وجود داشته باشد، از ردیف اول فایل شروع می شود و تمام ردیف ها را اشغال می کند. اگر یک قسمت اسپرت وجود داشته باشد، بوی تعفن با نماد ردیف جدید جدا می شود، اگرچه یکی وجود دارد.
این بخش همیشه با دستورالعمل User-agent شروع می شود و حاوی نام سیستم جستجویی است که روبات ها به آن اختصاص داده شده اند، زیرا این بخش برای همه روبات ها جهانی نیست. در عمل به این صورت است:
عامل کاربر: YandexBot
# عامل کاربر برای روبات ها در سیستم Yandex
عامل کاربر: *
# عامل کاربر برای همه ربات ها
بیمه مجدد برخی از نام های ربات مسدود شده است. برای رباتهای سیستم صوتی پوست، بخش مخصوص به خود، بلوک جداگانه قوانین خودشان ایجاد میشود. از آنجایی که به نظر شما، قوانین همه ربات ها یکسان است، یک بخش عمومی و پنهان را انتخاب کنید.
دستورالعمل ها، چه؟
دایرکتیو فرمان یا قاعده ای است که اطلاعاتی را در اختیار ربات صدا قرار می دهد. این دستورالعمل به ربات جستجو می گوید که چگونه سایت شما را فهرست کند، چه دایرکتوری هایی مشاهده نمی شود، نقشه سایت در فرمت XML کجاست، نام دامنه چیست، آینه اصلی و سایر جزئیات فنی.
بخش موجود در فایل robots.txt از دستورات زیر تشکیل شده است:
بخشنامه ها نحو اصلی دستورات به شرح زیر است:
[Directive_name]: [اختیاری] [مقدار] [اختیاری]
بخشنامه در یک ردیف و بدون خط خط نوشته شده است. طبق استانداردهای پذیرفته شده، بین دستورالعمل های یک بخش، پرش یک ردیف مجاز نیست، بنابراین تمام دستورالعمل های یک بخش بدون پرش اضافی روی یک ردیف نوشته می شوند.
بیایید معنای دستورات اصلی vikorist را شرح دهیم.
بخشنامه غیر مجاز
بیشترین دستوری که در فایل robots.txt مورد سوء استفاده قرار گرفته است "عدم اجازه" است. دستورالعمل "عدم اجازه" نمایه سازی مسیر اختصاص داده شده به آن را مسدود می کند. این کار را می توان در یک صفحه یا صفحه انجام داد تا «ماسک» را در URL (مسیر)، بخشی از سایت، دایرکتوری (پوشه) یا سایت به عنوان یک کل جایگزین کند.
"*" - ستاره به معنای "ممکن است تعدادی نماد وجود داشته باشد." Tobto، مسیر / پوشه * با این حال، به همان معنی "/ folders"، "/ folder1"، "/ folder111"، "/ folderssss" یا "/ folder" است. ربات ها، هنگام خواندن قوانین، به طور خودکار علامت "*" را اضافه می کنند. برای باسن نشان داده شده پایین تر، دستورالعمل های توهین آمیز کاملاً معادل هستند:
غیر مجاز:/اخبار
غیر مجاز: /news*
"$" - علامت دلار هنگام خواندن دستورالعمل ها برای اضافه کردن خودکار نماد "*" روبات ها را پنهان می کند.(زیروچکا) در پایان بخشنامه. به عبارت دیگر، نماد "$" به معنای انتهای سطر است. بنابراین، در برنامه ما، از نمایه سازی پوشه "/ folder" محافظت می کنیم، اما از آن در پوشه های "/ folder1"، "/ folder111" یا "/ folderssss" محافظت نمی کنیم:
عامل کاربر: *
غیر مجاز: /folder$
"#" - علامت تفسیر (شارپ).. هر چیزی که بعد از این نماد در همان ردیف نوشته شده است توسط سیستم های صوتی نادیده گرفته می شود.
اجازه بخشنامه
دستورالعمل ALLOW در فایل robots.txt شبیه به معنای دستورالعمل DISSALOW است، دستورالعمل ALLOW جداگانه است. مثال زیر نشان می دهد که ما از نمایه سازی کل سایت به جز پوشه / محافظت می کنیم:
عامل کاربر: *
Allow: /folder
غیر مجاز:/
نمونه ای از ویکورستان یک ساعته "اجازه دادن"، "عدم اجازه" و اولویت
اهمیت اولویت در محدودیت ها و مجوزها را هنگام صدور بخشنامه فراموش نکنید. قبلاً اولویت با ترتیب محدودیت ها و مجوزها تعیین می شد. در عین حال اولویت با تخصیص واضح ترین مسیر در یک بلوک برای ربات سیستم جستجو (User-agent) است، به ترتیب بالاترین مسیر و مکانی که دستورالعمل درج شده است، بالاتر است. مسیر، اولویت بالاتر است:
عامل کاربر: *
Allow: /folders
غیر مجاز: /folder
این برنامه امکان فهرست بندی URL هایی که با "/ folders شروع می شوند" را می دهد، اما به روش هایی مسدود می شود که شامل "/ folder"، "/ folderssss" یا "/ folder2" در URL های آنها می شود. هر گاه مسیر جدیدی بر خلاف بخشنامه های «مجاز» و «عدم اجازه» در پیش گرفته شود، اولویت با بخشنامه «اجازه دادن» است.
مقادیر پارامتر را در دستورالعمل های "Allow" و "Disallow" خالی کنید
اگر دستور "عدم اجازه" در فایل robots.txt وجود داشته باشد، WEB-masterها محدود می شوند.
فراموش کنید که نماد "/" را درج کنید. این به معنای تفسیر نادرست و ملایم از معنای دستورات و نحو آنها است. در نتیجه، دستورالعمل محدودیت مجزا باقی میماند: «عدم اجازه:» کاملاً با «اجازه: /» یکسان است. محدودیت صحیح برای نمایهسازی کل سایت به این صورت است:
همین امر را می توان در مورد "اجازه:" گفت. دستورالعمل "Allow:" بدون نماد "/" نمایه سازی کل سایت را مسدود می کند، مانند "Disallow: /".
دستورالعمل نقشه سایت
با رعایت تمامی اصول بهینه سازی سئو، لازم است نقشه سایت (SITEMAP) با فرمت XML ایجاد و به موتورهای جستجو ارسال شود.
صرف نظر از عملکرد "کابینت برای استادان وب" در موتورهای جستجو، لازم است وجود sitemap.xml در robots.txt با استفاده از دستورالعمل اضافی اعلام شود. SITEMAP" رباتهای جستجوگر، هنگام خزیدن سایت خود، یک درج به فایل sitemap.xml اضافه میکنند و مطمئن شوید که آن را در طول خزیدنهای بعدی ویکوریزه میکنند. نمونه ای از دستورالعمل نقشه سایت در فایل robots.txt:
عامل کاربر: *
نقشه سایت: https://www.domainname.zone/sitemap.xml
دستورالعمل میزبان
دستورالعمل مهم دیگر robots.txt این است میزبان.
لطفا توجه داشته باشید که همه سیستم های صوتی این را تشخیص نمی دهند. اگر "Yandex" نشان می دهد که این دستورالعمل را می خواند، و Yandex در روسیه اصلی ترین "موتور جستجوی سال" است، دستورالعمل "میزبان" را نادیده نخواهیم گرفت.
این دستورالعملی است که به سیستم های صوتی می گوید آینه اصلی کدام دامنه است. همه ما می دانیم که سایت می تواند همان آدرس باشد. URL یک سایت می تواند شامل یا حذف پیشوند WWW باشد، یا سایت می تواند تعدادی نام دامنه داشته باشد، برای مثال domain.ru، domain.com، domen.ru، www.domen.ru. در چنین مواقعی با استفاده از دایرکتیو میزبان که نام اصلی نیز هست به سیستم جستجو در فایل robots.txt اطلاع می دهیم. مهمترین بخشنامه نام آینه سر است. بیایید به لب به لب اشاره کنیم. ما می توانیم تعدادی نام دامنه (domain.ru، domain.com، domen.ru، www.domen.ru) داشته باشیم و همه آنها به وب سایت www.domen.ru، ورودی robots.txt هدایت می شوند. فایل به شکل زیر خواهد بود:
عامل کاربر: *
میزبان: www.domain.ru
اگر می خواهید هدر شما بدون پیشوند (WWW) باشد، بدیهی است که موارد زیر را بدون پیشوند در دستورالعمل نام سایت وارد کنید.
دستورالعمل HOST مشکل صفحات تکراری را حل می کند، چیزی که استادان وب و هکرهای سئو اغلب با آن مواجه می شوند. بنابراین، دستورالعمل HOST باید به دقت بررسی شود، زیرا شما بخش روسی را هدف قرار داده اید و برای شما مهم است که سایت خود را در موتور جستجوی Yandex رتبه بندی کنید. تکرار می کنیم، امروز فقط Yandex اعلام می کند که این دستورالعمل خوانده شده است. برای نصب یک آینه سر در سایر سیستم های صوتی، باید به سرعت تنظیمات را در حساب های WEB-Masters تنظیم کنید. فراموش نکنید که نام آینه سر ممکن است به درستی وارد شود (املای صحیح، کدنویسی صحیح و نحو در فایل robots.txt). این دستورالعمل فقط یک بار در یک فایل مجاز است. اگر چند بار لطف کنید، ربات ها فقط قبل از ورود کار خواهند کرد.
دستورالعمل Crawl-Delay
این دستورالعمل توسط تیم فنی برای جستجوی ربات ها داده می شود، زیرا اغلب جستجو در سایت شما ضروری است. به طور دقیق تر، دستورالعمل Crawl-Delay حداقل وقفه را بین روبات ها (خزنده های موتور جستجو) در دسترسی به سایت شما مشخص می کند. آیا باید این قانون را بیان کنیم؟ اگر روباتها بیشتر به شما مراجعه میکنند و اطلاعات جدید در سایت به ندرت ظاهر میشود، سیستمهای جستجو قبل از تغییر نادر اطلاعات در سایت شما به سرعت زنگ میزنند و خیلی زودتر با شما تماس میگیرند. این یک استدلال معتبر برای استفاده از دستورالعمل "تاخیر خزیدن" است. حالا بحث فنی. اغلب اوقات، دسترسی به سایت شما توسط روبات ها باعث ایجاد فشار اضافی بر روی سرور می شود که واقعاً به آن نیاز ندارید. دستورالعمل های مهم بهتر است یک عدد کامل را نشان دهند، اما اکنون روبات ها خواندن اعداد کسری را یاد گرفته اند. ساعت را بر حسب ثانیه مشخص کنید، به عنوان مثال:
عامل کاربر: Yandex
تاخیر خزیدن: 5.5
بخشنامه Clean-param
دستورالعمل اختیاری "Clean-param" به ربات های موتورهای جستجو دستور می دهد تا آدرس سایت را پارامتری کنند تا مانند سایر URL ها نیازی به نمایه سازی و تجزیه و تحلیل نداشته باشد. به عنوان مثال، شما صفحات مشابهی را در آدرسهای مختلف نمایش داده میکنید که به یک یا چند پارامتر تقسیم میشوند:
www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/index.php؟ پوشه = 1 و صفحه = 1
ربات های جستجو همه صفحات مشابه را اسکن می کنند و توجه می کنند که صفحات یکسان هستند و محتوای یکسانی را جایگزین می کنند. قبل از هر چیز ایجاد سردرگمی در ساختار سایت در هنگام نمایه سازی مهم است. به روشی دیگر، navantazhenya اضافی در سرور در حال رشد است. ثالثاً، سیال بودن اسکن کاهش می یابد. برای جلوگیری از این ناراحتی ها، دستورالعمل "Clean-param" استفاده می شود. نحو پیشرفته:
Clean-param: param1 [& param2 & param3 & param4 & ... & param * N] [Way]
دستورالعمل "Clean-param" مانند دستور "Host" توسط همه سیستم های صوتی خوانده نمی شود. Ale Yandex درک می کند.
پیام هایی که اغلب در robots.txt قرار می گیرند
فایل robots.txt در ریشه سایت قرار ندارد
فایل روبات ها txt به دلیل قرار گرفتن در ریشه سایت مقصر است, فقط در دایرکتوری ریشه. تمام فایلهای دیگر با نامهای مشابه، اما در پوشههای دیگر (دایرکتوری) قرار دارند، توسط سیستمهای صوتی نادیده گرفته میشوند.
نام فایل robots.txt را تغییر دهید
فایل با حروف کوچک (کوچک) نوشته شده و باید نامگذاری شود روبات هاtxt. همه گزینه های دیگر محترم هستند و شما را از در دسترس بودن فایل مطلع خواهند کرد. قسمت های غذا به این صورت است:
ROBOTS.txt
Robots.txt
robot.txt
جستجو برای کاراکترهای نامعتبر در robot.txt
فایل robots.txt با کد ANSI است و فقط شامل حروف لاتین است. نوشتن بخشنامه و معانی آن با سایر نمادهای ملی به استثنای اظهار نظر قابل قبول نیست.
ترفندهایی در نحو robots.txt
حتماً قوانین نحوی موجود در فایل robots.txt را کاملاً رعایت کنید. خطاهای نحوی می تواند منجر به نادیده گرفتن کل فایل توسط موتورهای جستجو شود.
بازآرایی چندین ربات در یک ردیف در دستورالعمل User-agent
قاعده ای که غالباً توسط استادان وب مجاز است، نه از طریق خط برق، نه تقسیم فایل robots.txt به بخش، بلکه ترکیب دستورات برای چندین سیستم صوتی در یک بخش، به عنوان مثال:
عامل کاربر: Yandex، Googlebot، Bing
برای سیستم صوتی پوستی لازم است بخش مخصوص به خود را مطابق با دستورالعمل هایی که سیستم صوتی می خواند ایجاد کنید. متأسفانه، در این مورد، یک بخش برای همه سیستم های صوتی وجود دارد:
عامل کاربر با مقادیر خالی
دستورالعمل User-agent نمی تواند مقدار خالی داشته باشد. فقط "Allow" و "Disallow" را می توان خالی گذاشت که می تواند معنای آنها را تغییر دهد. درج دستورالعمل User-agent با مقادیر خالی یک نیروی بی رحم است.
تعداد مقادیر در دستورالعمل Disallow
حذف بیشتر اتفاق می افتد، و در عین حال، می توان آن را به صورت دوره ای در سایت ها با درج چندین مقدار در دستورالعمل های Allow و Disallow خواند، به عنوان مثال:
غیر مجاز: /folder1/folder2/folder3
غیر مجاز: /folder1
غیر مجاز: /folder2
غیر مجاز: /folder3
عدم تنظیم اولویت های دستورالعمل ها در robots.txt
این روش در بالا توضیح داده شد، اما برای تقویت مواد تکرار خواهد شد. قبلاً اولویت با ترتیب درج بخشنامه ها تعیین می شد. از امروز قوانین تغییر کرده، اولویت بعد از پایان ردیف مشخص می شود. اگر یک فایل دارای دو دستورالعمل منحصر به فرد، Allow و Disallow با هم باشد، Allow اولویت خواهد داشت.
سیستم های جستجو و robots.txt
دستورالعمل های موجود در فایل robots.txt ماهیت توصیه ای برای موتورهای جستجو دارند. این بدان معنی است که قوانین خواندن را می توان به طور دوره ای تغییر یا به روز کرد. فقط به یاد داشته باشید که سیستم جستجوی پوست به روش خود دستورالعمل ها را به فایل ارائه می دهد. و پوست تمام دستورالعمل های سیستم های صوتی را نمی خواند. به عنوان مثال، امروز فقط Yandex دستورالعمل "Host" را می خواند. با این حال، Yandex تضمین نمی کند که نام دامنه مشخص شده باشد، زیرا آینه اصلی در دستورالعمل Host لزوماً به head اختصاص داده می شود، اما تأیید می کند که اولویت نام اختصاص داده شده در دستورالعمل داده می شود.
اگر مجموعه کوچکی از قوانین دارید، می توانید یک بخش واحد برای همه ربات ها ایجاد کنید. در غیر این صورت، در ایجاد بخش های جداگانه برای پوسته سیستم صوتی خود تردید نکنید. شما باید به خصوص به نرده ها بروید، زیرا نمی خواهید هیچ آهنگی از داستان در جوک هدر رود.
تمام فیلدهای الزامی را به طور مداوم پر کنید. در دنیای دستورالعمل های خود، آخرین دستورالعمل ها را از Robots.txt خود دریافت خواهید کرد. در زیر شرحی از تمام دستورالعمل های فایل Robots.txt آمده است.
یاد آوردن, کپی 🀄و متن را در یک ویرایشگر متن قرار دهید. فایل را به عنوان "robots.txt" در فهرست اصلی سایت خود ذخیره کنید.
توضیحات فرمت فایل robots.txt
فایل robots.txt شامل رکوردهایی است که هر کدام از دو فیلد تشکیل شده است: ردیف هایی با نام برنامه مشتری (user-agent) و یک یا چند ردیف که با دستور Disallow شروع می شوند:
دستورالعمل ":" به معنی
Robots.txt مقصر است که در قالب متن یونیکس ایجاد شده است. اکثر ویرایشگرهای متن خوب می توانند کاراکترهای ویندوز را به یونیکس تبدیل کنند. در غیر این صورت، کلاینت FTP شما مسئول این کار است. برای ویرایش، از ویرایشگر HTML استفاده نکنید، به خصوص ویرایشگر که حالت متنی برای نمایش کد ندارد.
بخشنامه عامل کاربر:
برای Rambler: User-agent: StackRambler برای Yandex: User-agent: Yandex برای Google: User-Agent: googlebotشما می توانید دستورالعمل هایی را برای همه ربات ها ایجاد کنید:
عامل کاربر: *
بخشنامه غیر مجاز:
بخش دیگر رکورد شامل ردیف های غیر مجاز است. ردیفهای Tsi - دستورالعملها (نشانها، دستورات) برای یک ربات معین. هر گروهی که در کنار User-agent وارد می شود به یک دستور Disallow نیاز دارد. تعداد دستورالعملهای غیر مجاز محدود نیست. آنها به ربات اطلاع میدهند که ربات کدام فایلها و/یا دایرکتوریها را نمیتواند فهرست کند. می توانید فهرست بندی یک فایل یا دایرکتوری را مسدود کنید.
این دستورالعمل نمایه سازی دایرکتوری /cgi-bin/ را مسدود می کند:
غیر مجاز: / cgi-bin / بازگشت به / در انتهای نام پوشه! برای مسدود کردن خود دایرکتوری "/dir"، دستورالعمل ها به شرح زیر است: "Disallow: /dir/". و ردیف "Disallow: / dir" همه طرف های سرور را مسدود می کند، خارج از آنها (مانند ریشه سرور) که با "/ dir" شروع می شود. به عنوان مثال: "/dir.html"، "/dir/index.html"، "/directory.html".
هنگامی که به این شکل نوشته می شود، دستورالعمل نمایه سازی از فایل index.htm واقع در ریشه را مسدود می کند:
غیر مجاز: /index.htm
بخشنامه اجازهفقط Yandex می فهمد.
عامل کاربر: Yandex Allow: / cgi-bin Disallow: / # شما را از رمزگذاری همه چیز به جز صفحاتی که با "/ cgi-bin" شروع میشوند، باز میدارد. برای سایر سیستمهای جستجو، باید همه اسناد بسته را بازیابی کنید. ساختار سایت را در نظر بگیرید تا اسناد بسته شده برای نمایه سازی در صورت امکان در یک مکان جمع آوری شود.
دستور Disallow خالی خواهد بود، به این معنی که ربات می تواند همه فایل ها را فهرست کند. حداقل یک دستور Disallow ممکن است برای قسمت User-agent skin وجود داشته باشد تا robots.txt به درستی وارد شود. robots.txt کاملاً خالی یعنی همان که انگار هیچ اتفاقی نیفتاده است.
ربات Rambler * را به عنوان هر نمادی، دستور Disallow را درک می کند: * به معنای مسدود کردن فهرست بندی کل سایت است.
اجازه، غیر مجاز دستورات بدون پارامتر. تعداد پارامترهای دستورات Allow و Disallow به ترتیب زیر تفسیر می شود: User-agent: Yandex Disallow: # same و Allow: / User-agent: Yandex Allow: # same و Disallow: /
ویکتوریا از شخصیت های خاص "*" و "$".
هنگام تعیین دستورات Allow-Disallow، می توانید از کاراکترهای ویژه "*" و "$" استفاده کنید، بنابراین عبارات منظم را مشخص کنید. کاراکتر ویژه "*" به معنای هر دنباله ای از کاراکترها (از جمله خالی) است. درخواست دادن:
عامل کاربر: Yandex Disallow: /cgi-bin/*.aspx # از "/cgi-bin/example.aspx" محافظت می کند و "/cgi-bin/private/test.aspx" Disallow: / * private # نه تنها محافظت می کند / private ", ale i" / cgi-bin / private " کاراکتر ویژه "$".
برای برنامه های کاربردی تا انتهای قانون پوست که در robots.txt توضیح داده شده است، یک "*" اضافه می شود، به عنوان مثال: User-agent: Yandex Disallow: / cgi-bin * # دسترسی به صفحاتی که با "/ cgi-bin" شروع می شوند را مسدود می کند. Disallow: / cgi-bin # همان چیز، برای فرار از "*" در انتهای قانون، می توانید از کاراکتر ویژه "$" استفاده کنید، به عنوان مثال: User-agent: Yandex Disallow: / مثال $ # استثنا می کند "/ مثال"، اما "/example.html" User -agent: Yandex Disallow: / example # Disallows "/ example"، و "/example.html" User-agent: Yandex Disallow: / مثال $ # Disallows فقط " را حذف نمی کند. / example" Disallow: / example * $ # دقیقاً مانند "Disallow: /example" /example.html و /example را مسدود می کند.
بخشنامه میزبان.
اگر سایت شما دارای آینه باشد، یک ربات آینه ای مخصوص آنها را شناسایی کرده و گروهی از آینه ها را برای سایت شما تشکیل می دهد. سرنوشت برادران Poshuku فقط آینه آتش نشان داد. شما می توانید این را در robots.txt، vikorist و دستورالعمل "Host" وارد کنید و پارامتر نام آینه سر را نیز مشخص کنید. دستورالعمل "میزبان" انتخاب آینه سر تعیین شده را تضمین نمی کند، پروت، الگوریتم، زمانی که تصمیم گیری می شود، با اولویت بالا پذیرفته می شود. مثال: # اگر www.glavnoye-zerkalo.ru برای سایت ساختگی است، robots.txt برای # www.neglavnoye-zerkalo.ru شبیه به این است User-Agent: * Disallow: / Forum Disallow: / cgi-bin Host : www.glavnoye -zerkalo.ru با توجه به پیچیدگی ربات ها که هنگام پردازش robots.txt با استاندارد مطابقت ندارند، دستورالعمل "Host" باید به گروهی که با رکورد "User-Agent" شروع می شود اضافه شود. بلافاصله پس از "عدم اجازه" (دستورالعمل های "مجاز") ) . آرگومان دستورالعمل "Host" یک نام دامنه با شماره پورت (طبق تعریف 80) و به دنبال آن یک کادر دوگانه است. پارامتر دستور Host به یک نام میزبان صحیح (یعنی RFC 952 معتبر و نه یک آدرس IP) و یک شماره پورت معتبر نیاز دارد. ردیف های "میزبان:" که به اشتباه تا شده اند نادیده گرفته می شوند.نمونه هایی از نادیده گرفتن دستورالعمل های میزبان:
میزبان: www.myhost-.ru میزبان: www.-myhost.ru میزبان: www.myhost.ru:100000 میزبان: www.my_host.ru میزبان: .my-host.ru: 8000 میزبان: my-host.ru. میزبان: my..host.ru میزبان: www.myhost.ru/ میزبان: www.myhost.ru:8080/ میزبان: 213.180.194.129 میزبان: www.firsthost.ru، www.secondhost.ru # در یک ردیف - یک دامنه! میزبان: www.firsthost.ru www.secondhost.ru # در یک ردیف - یک دامنه !! میزبان: ekіpazh-svyaz.rf # نیاز به vikorystvati punycodeبخشنامه خزیدن-تاخیر
قبل از اینکه ربات جستجوگر صفحات را از سرور شما بارگیری کند، زمان پایان را در چند ثانیه تنظیم می کند (Crawl-Delay).
اگر سرور به شدت بارگذاری شده است و نمیتواند درخواستهای دانلود را پردازش کند، با دستورالعمل «تاخیر خزیدن» به این فرآیند سرعت دهید. این به شما امکان می دهد ربات جستجوگر را یک بازه زمانی حداقل ساعتی (بر حسب ثانیه) بین پایان دانلود یک طرف و شروع دانلود بعدی تنظیم کنید. به دلیل پیچیدگی رباتها، که هنگام پردازش robots.txt با استاندارد مطابقت ندارند، دستور «تاخیر خزیدن» باید بلافاصله پس از «عدم اجازه» به گروهی اضافه شود که با رکورد «کاربر-عامل» شروع میشود. دستورات ("اجازه دادن").
ربات جستجوی Yandex از مقادیر شات Crawl-Delay پشتیبانی می کند، به عنوان مثال، 0.5. این تضمین نمی کند که ربات جستجوگر هر ثانیه از سایت شما بازدید کند، اما به ربات آزادی عمل بیشتری می دهد و به او اجازه می دهد سرعت خزیدن در سایت را افزایش دهد.
عامل کاربر: Yandex Crawl-Delay: 2 # مدت زمان را روی 2 ثانیه تنظیم می کند.
بخشنامه Clean-param
دستورالعمل برای غیرفعال کردن پارامترها از ردیف آدرس. برای درخواست بازنشانی یا عدم تنظیم مجدد این پارامتر - با آنها یکسان رفتار می شود.
ردیف ها و نظرات خالی
ردیفهای خالی بین گروههای دستورالعمل مجاز است، User-agent را وارد کنید.
دستور Disallow فقط در صورتی معتبر است که توسط هر ردیف User-agent مرتب شده باشد - سپس بالای آن ردیف User-agent قرار دارد.
هر متنی که علامت هش "#" را تا انتهای سطر دنبال می کند در نظر گنجانده شده و نادیده گرفته می شود.
باسن:
فایل ساده توهین آمیز robots.txtاز ایندکس کردن تمام صفحات سایت توسط همه ربات ها جلوگیری می کند، به جز ربات Rambler، که با این حال، مجاز است تمام صفحات سایت را ایندکس کند.
# دستورالعمل برای همه ربات ها User-agent: * Disallow: / # Instructions for the Rambler robots User-agent: StackRambler Disallow:
گسترش مزایا:
نحو معکوس: User-agent: / Disallow: StackRambler اما باید اینگونه باشد: User-agent: StackRambler Disallow: / دسته ای از دستورات Disallow در یک ردیف: Disallow: / css / / cgi-bin / / images / درست مانند این: Disallow: / css/Disallow:/cgi-bin/Disallow:/images/- یادداشت:
- وجود جابهجایی ردیف خالی بین دستورالعملهای "کاربر-عامل" و "عدم اجازه" ("مجاز") و همچنین بین خود دستورالعملهای "عدم اجازه" ("مجاز") غیرقابل قبول است.
- مطابق با استاندارد، توصیه می شود قبل از دستورالعمل کاربر-عامل یک ردیف جدید خالی درج کنید.
سلام به همه! امروز می خواهم به شما اطلاع دهم فایل robots.txt. بنابراین، مطالب زیادی در مورد اینترنت نوشته شده است، اما صادقانه بگویم، من خودم مدت زیادی است که نمیتوانم بفهمم چگونه robots.txt درست را ایجاد کنم. من قبلاً یکی را ساخته ام و در تمام وبلاگ های من وجود دارد. من هیچ مشکلی نمی بینم، robots.txt فقط فوق العاده کار می کند.
Robots.txt برای وردپرس
و با این حال، ظاهرا، robots.txt مورد نیاز است؟ داستان هنوز همان است -. این ساخت robots.txt است - یکی از بخش های بهینه سازی جستجوی سایت (قبل از سخنرانی به زودی یک درسی وجود دارد که به تمام بهینه سازی داخلی سایت در وردپرس اختصاص خواهد یافت. پس فراموش نکنید. مشترک RSS شوید تا این را در مطالب از دست ندهید.).
یکی از عملکردهای این فایل می باشد حفاظت از نمایه سازیصفحات غیر ضروری در سایت آدرس ها هم در جدید مشخص شده و سر نوشته شده است آینه سایت(سایت با www یا بدون www).
نکته: برای سیستم های صوتی یک سایت با www و بدون www سایت های کاملا متفاوتی هستند. آل، با درک این که به جای این سایت ها، موتورهای جستجو آنها را به هم می چسبانند. برای شما مهم است که آینه وب سایت را در robots.txt یادداشت کنید. برای اینکه بفهمید نام چیست (با www یا بدون www)، کافی است آدرس سایت خود را در مرورگر تایپ کنید، مثلاً با www، زیرا به طور خودکار شما را به همان سایت بدون www هدایت می کند، یعنی کلمه آینه ای از سایت شما بدون www. امیدوارم درست توضیح داده باشم.
پس محور، این مقدس، به نظر من، robots.txt را برای وردپرس درست کنیدمیتونی پایین تر بری
Robots.txt را برای وردپرس درست کنید
عامل کاربر: *
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /*؟ *
غیر مجاز: /tag
عامل کاربر: Yandex
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/plugins
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /*؟ *
غیر مجاز: /tag
میزبان: وب سایت
.gz
نقشه سایت: https://site/sitemap.xml
تمام آنچه در بالا داده شد، باید آن را در یک سند متنی با پسوند txt کپی کنید تا نام فایل robots.txt باشد. برای مثال می توانید با استفاده از برنامه های اضافی، یک سند متنی دانمارکی ایجاد کنید. تیلکی، فراموش نکن، مهربان باش، در سه ردیف باقی مانده تغییر دهیدآدرس های موجود در آدرس وب سایت شما فایل robots.txt باید در ریشه وبلاگ، در همان پوشه پوشه های wp-content، wp-admin و سایر پوشه ها قرار گیرد.
برای کسانی که برای ایجاد این فایل متنی تنبل هستند، می توانید به سادگی robots.txt را وارد کنید و 3 ردیف را نیز در آنجا سفارشی کنید.
میخواهم به این نکته اشاره کنم که در بخشهای فنی، که در زیر باید مورد بحث قرار گیرد، نیازی نیست که زیاد در مورد خودتان فانتزی باشید. من آنها را برای "دانستن" مطرح می کنم تا بتوانیم افق های خود را حرکت دهیم تا بدانیم چه چیزی لازم است.
اوزه، ردیف:
عامل کاربر
قوانین را برای هر سیستم صوتی تنظیم می کند: به عنوان مثال، "*" (ستاره) نشان می دهد که قوانین برای همه سیستم های صوتی و حتی پایین تر است.
عامل کاربر: Yandex
به این معنی است که این قوانین فقط برای Yandex هستند.
غیر مجاز
بلافاصله بخش هایی را که نیازی به ایندکس شدن توسط سیستم های صوتی ندارند، "پرتاب" می کنید. به عنوان مثال، در صفحه https: // site / tag / seo تکرار کمتری از مقالات (تکرار شده) با مقالات اصلی وجود دارد و تکرار صفحات به صورت منفی در موتور جستجو نشان داده می شود، بنابراین مهم است که این بخش ها باید از نمایه سازی بسته باشد، بنابراین ما و ما از این قانون اضافی خجالتی هستیم:
غیر مجاز: /tag
بنابراین، نکته این است که robots.txt اهمیت بیشتری پیدا کرده است، زیرا به دلیل نمایه سازی، تمام بخش های غیر ضروری سایت در وردپرس بسته می شوند، بنابراین می توانید به سادگی همه چیز را پر کنید.
میزبان
در اینجا ما یک سردرد برای سایت می پرسیم که من کمی بیشتر در مورد آن یاد گرفتم.
نقشه سایت
در دو ردیف باقی مانده، آدرس حداکثر دو نقشه را برای سایت تعیین می کنیم، برای کمک بیشتر ایجاد می کنیم.
مشکلات احتمالی
و در محور میان ردیفها در robots.txt، پستهای سایت من ایندکس نشدند:
غیر مجاز: /*؟ *
همانطور که می بینید، این ردیف در robots.txt از نمایه سازی مقالات محافظت می کند، که طبیعتاً به آن نیازی نداریم. برای تصحیح این، فقط باید 2 ردیف را حذف کنید (در قوانین برای همه موتورهای جستجو و برای Yandex) و باقیمانده robots.txt صحیح برای یک سایت وردپرس بدون CNC به این صورت خواهد بود:
عامل کاربر: *
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/plugins
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /tag
عامل کاربر: Yandex
غیر مجاز: /cgi-bin
غیر مجاز: /wp-admin
غیر مجاز: /wp-includes
غیر مجاز: /wp-content/plugins
غیر مجاز: /wp-content/cache
غیر مجاز: /wp-content/themes
غیر مجاز: /trackback
غیر مجاز: */trackback
غیر مجاز: */*/ترک بک
غیر مجاز: * / * / فید / * /
غیر مجاز: */feed
غیر مجاز: /tag
میزبان: وب سایت
نقشه سایت: https://site/sitemap.xml
برای تأیید اینکه فایل robots.txt را به درستی کامپایل کرده اید، توصیه می کنم به سرعت از سرویس Yandex Webmaster استفاده کنید (من یاد گرفتم که چگونه در این سرویس ثبت نام کنم).
بریم سراغ بخش نمایه سازی تنظیم شده -> تجزیه و تحلیل robots.txt:
پس از رسیدن به آنجا، روی دکمه "Invade robots.txt from the site" کلیک کنید و سپس روی دکمه "Check" کلیک کنید:
به محض اینکه مطلع شدید، به این معنی است که robots.txt صحیح را برای Yandex دارید:
همه وب مسترهای مدرن با کد HTML کار نمی کنند. اکثر مردم نمی دانند که چه عملکردهایی در فایل های کلید CMS نوشته شده است. ذات منبع شما، مانند فایل robots.txt، و قدرت فکری که قدرت مسئول آن است، مانند ماهی در آب است. تنظیم دقیق سایت به شما امکان می دهد رتبه بندی جستجوی خود را افزایش دهید، آن را در صدر قرار دهید و ترافیک را با موفقیت جمع آوری کنید.
فایل robots.txt یکی از عناصر اصلی تنظیم یک منبع برای استفاده از موتورهای جستجو است. این شامل اطلاعات فنی است و دسترسی به تعدادی از صفحات را با روبات های جستجو به اشتراک می گذارد. به دور از لاغری است که طرف مقصر است بلافاصله در نمای ظاهر می شود. پیش از این، برای ایجاد یک فایل txt روبات، باید از طریق FTP دسترسی داشته باشید. توسعه CMS امکان لغو دسترسی قبلی را مستقیماً از طریق کنترل پنل ارائه کرده است.
چرا فایل robots.txt مورد نیاز است؟
این فایل حاوی تعدادی توصیه خطاب به روبات های جستجوگر است. دسترسی آنها را به بخش های خاصی از سایت محدود می کند. با قرار دادن این فایل در پوشه اصلی، ربات ها نمی توانند آن را از دست بدهند. در نتیجه، هنگام صرف پول برای منبع خود، ابتدا باید قوانین کار خود را بخوانید و تنها پس از آن شروع به تجدید نظر کنید.
به این ترتیب، فایل به روباتهای جستجوگر میگوید که کدام دایرکتوریها در دامنه مجاز به فهرستبندی هستند و کدام فرآیند مجاز نیست.
با توجه به اینکه فرآیند رتبه بندی مستقیماً بر روی دید فایل تأثیر نمی گذارد، بسیاری از سایت ها نمی توانند در برابر robots.txt مقاومت کنند. در صورت دسترسی کامل امکان رعایت صحت فنی وجود ندارد. بیایید به مزایای robots.txt که به منبع می دهد نگاه کنیم.
شما می توانید با مسدود کردن روبات های جستجویی که حق ایندکس کردن را دارند، از نمایه سازی یک منبع به طور کامل یا جزئی محافظت کنید. با دستور robots.txt برای مسدود کردن همه چیز، می توانید منبع را برای یک ساعت تعمیر یا بازسازی کاملاً ایزوله کنید.
قبل از سخنرانی، توسعهدهندگان گوگل بارها به مدیران وبسایت گفتند که فایل robots.txt نباید بزرگتر از 500 کیلوبایت باشد. این بلافاصله منجر به جریمه در طول نمایه سازی می شود. اگر فایلی را به صورت دستی ایجاد کنید، واضح است که رسیدن به چنین اندازه ای غیرممکن است. با این حال، توابع CMS به طور خودکار جایگزین robots.txt را تشکیل می دهند که می تواند آن را به طور قابل توجهی تغییر دهد.
ایجاد یک فایل ساده برای هر جوکر
اگر از انجام تنظیمات ظریف به تنهایی می ترسید، می توانید این کار را به صورت خودکار انجام دهید. سازنده هایی هستند که بدون مشارکت شما چنین فایل هایی را جمع آوری می کنند. آنها برای افرادی که به تازگی کار خود را به عنوان مدیر وب سایت شروع کرده اند مناسب هستند.
همانطور که در تصویر مشخص است، راه اندازی سازنده با وارد کردن آدرس سایت شروع می شود. در مرحله بعد، سیستم های صوتی را که قصد استفاده از آن را دارید انتخاب می کنید. اگر به این یا هر سیستم صوتی دیگری اهمیتی نمی دهید، نیازی به تنظیمات برای آن نیست. اکنون به انتخاب پوشه ها و فایل هایی که قصد دارید دسترسی به آنها را محدود کنید، ادامه دهید. در این اپلیکیشن می توانید آدرس کارت و آینه منبع خود را وارد کنید.
مولد Robots.txt فرم را در دنیای طراح ذخیره می کند. تنها چیزی که در آینده نیاز دارید این است که متن استخراج شده را در یک فایل txt کپی کنید. معرفی نام روبات ها را فراموش نکنید.
نحوه بررسی اثربخشی فایل robots.txt
برای تجزیه و تحلیل این فایل در Yandex، به صفحه اصلی در بخش Yandex.Webmaster بروید. در کادر محاوره ای، نام سایت را وارد کرده و روی دکمه "Enter" کلیک کنید.
سیستم فایل robots.txt را تجزیه و تحلیل میکند و بررسی میکند که نشان دهد ربات جستجوگر صفحات مسدود شده را قبل از نمایهسازی میخزد. در صورت بروز مشکل، دستورالعمل ها را می توان مستقیماً در کادر محاوره ای ویرایش و بررسی کرد. با این حال، پس از این باید متن ویرایش شده را کپی کنید و آن را در فایل robots.txt خود در دایرکتوری ریشه قرار دهید.
خدمات مشابهی توسط سرویس «ابزار برای وب مسترها» از موتور جستجوی گوگل ارائه می شود.
ایجاد robots.txt برای وردپرس، جوملا و Ucoz
Razni CMS که در وسعت Runet محبوبیت زیادی به دست آورده است، نسخه های خود از فایل های robots.txt را برای معامله گران تبلیغ می کند. اصلا چنین فایل هایی را پاک نمی کنند. اغلب، این فایل ها یا بیش از حد جهانی هستند و هیچ ویژگی خاصی را برای منبع کاربر ارائه نمی دهند، اما ممکن است حاوی تعدادی کاستی اساسی باشند.
پس از تکمیل تحقیقات خود، می توانید به صورت دستی تنظیمات را اصلاح کنید (اگر دانش کافی وجود ندارد، بهتر است کار نکنید). اگر میترسید به درون سایت بپردازید، سریعاً از همکاران خود کمک بگیرید. چنین دستکاری ها، اگر می دانید چگونه آن را انجام دهید، فقط چند ساعت طول می کشد. به عنوان مثال، robots.txt می تواند به شکل زیر باشد:
در دو ردیف باقی مانده، همانطور که حدس زدن آن دشوار است، باید داده ها را در منبع رسمی بنویسید.
visnovok
تعدادی از مهارت ها وجود دارد که باید به عنوان یک وب مستر به آنها مسلط شوید. خود سفارشی سازی و مدیریت وب سایت یکی از آنهاست. Pochatkіvtsy budіvniki می تواند چنین هیزمی را در ساعت توسعه منابع روی هم انباشته کند که پس از آن نمی توان آن ها را جمع کرد. اگر نمی خواهید مخاطبان و موقعیت های بالقوه خود را از طریق ساختارهای سایت خود هدر دهید، به طور کامل و کامل به این فرآیند نزدیک شوید.