در صورتی که فایل robots.txt دارای دستوری برای محدود کردن پایشگرها نباشد (یا اصلا هیچ فایل robots.txt وجود نداشته باشد)، پایشگرها بدون هیچ محدودیتی به تمام قسمت های یافته شده سر زده و آنها را ایندکس می کنند. موتورهای جستجو برای پایش وب سایت ها لینک ها را دنبال کرده و از یک سایت به سایتی دیگر می روند. هر خزنده ای ممکن است سینتکس کد شما را متفاوت تفسیر کنداگرچه خزندههای وب معتبر دستورالعملهای موجود در فایل robots.txt را قبول میکنند، اما هر خزنده ممکن است دستورالعملها را متفاوت تفسیر کند. شما باید سینتکس مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا ممکن است برخی دستورالعمل های خاصی را درک نکنند.
معرفی سایت
بعبارت دیگه موتور جستجو تمام سایت شما رو زیر و رو میکنه ولی فقط صفحه ها و پوشه هایی رو برای قرار دادن تو نتایج جستجو مشخص میکنه که شما میخواین. موتور جستجوی گوگل رباتهای مختلفی دارد که هرکدام وظیفه خاصی دارند، شناخت این رباتها به ما کمک میکند تا ارتباط بهتری با آنها برقرار کنیم و به صورت خیلی دقیقتری بتوانیم فایل ربات سایتمان را طراحی کنیم. به طور کلی استفاده از فایل Robots.txt برای محدود ساختن دسترسی رباتها به برخی صفحات گزینه بهتری محسوب میشود زیرا اجرا و پیاده سازی تگ نوایندکس بر روی منابع چندرسانهای کمی دشوار است. از طرفی دیگر نیز محدود ساختن تعداد زیادی صفحه در سایت از طریق فایل Robots.txt بسیار ساده است و با افزودن یک آدرس به فایل انجام میشود اما تگ نوایندکس باید به صورت دستی به هر صفحه اضافه شود. بنابراین برای جلوگیری از ایندکس صفحات سایت، فایل ربات ساز نسبت به متا تگ noindex انتخاب هوشمندانهتری به نظر میرسد.
معایب robots.txt چیست؟
هدف از این آموزش این است که اگر مدیران سایت دوست نداشته باشند گوگل به تمام قسمتهای سایتشان نفوذ کند میتوانند از این فایل استفاده کرده و یک نوع حریم برای سایتشان ایجاد کنند. شما میتوانید با استفاده از افزونهای که در بالا ذکر شد کاری کنید که قسمتی از فایلها مانند readme.html در گوگل ایندکس نشود و یا غیرازاین میتوانید هر فایل دلخواه دیگری را مشخص کنید تا نمایش داده نشود. و شما میتوانید برای ویرایش و ایجاد آن از یک FTP یا با فایل منیجر کنترلپنل هاست خود اقدام کنید.
- در مثال بالا به هیچ یک از موتورهای جستجو از جمله گوگل و بینگ اجازه دسترسی به پوشه /about/ directory داده نمی شود که این عدم اجازه دسترسی شامل مسیر /about/company/ نیز می شود.
- دلیل دیگر این است که موتورهای جستجوی دیگری نیز وجود دارند که ممکن است به اندازه گوگل در این خصوص بخشنده نباشند.
- مدیران این سازمان هم چون میدانند مراجعه کنندهها همهجا را نمیشناسند، پس کنار در ورودی یک باجه اطلاعات درست کردهاند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشتهاند.
- شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید.
درود بر شما، این مجله خبری تم مارکت توسط افزونه های سئو مثل یوآست ساخته می شود. این به ربات ها می گوید که می توانند کل وب سایت را مرور کنند، زیرا هیچ چیزی غیرمجاز نیست. اگه هم شما این فایلو تو دایرکتوری ریشه سایتتون ندارین خیلی ساده میتونین اونو ایجاد کنین. فقط باید یه فایل متنی جدید روی کامپیوترتون ایجاد کنین و با عنوان robots.txt ذخیره کنین. بهترین کاری که می توانید انجام دهید این است که تنها یک فایل robots.txt برای هر زیردامنه خود داشته باشید. عدم اجازه دسترسی به برخی از بخش های سایت می تواند مورد سوءاستفاده توسط هکرها قرار گیرد.
به چه دلیل از فایل Robot.txt استفاده می کنیم؟
مسئله شما ارتباطی به فایل robots نداره و باید اگر از وردپرس استفاده می کنید در تنظیمات افزونه Yoast جلوی ایندکس شدن این صفحات رو بگیرید. با استفاده از کد allow اجازه مشاهده یک فایل در فولدری که قبلا Disallowed شده را می دهید. من وقتی سایت رو تو گوگل جستجو می کنم یک سری از آدرس های مربوط به دایرکتوری آپلود میاد بالا که البته از تو سرچ کنسول آن ها را به درخواست حذف اضافه کردم.