فایل robots txt و تاثیر آن بر سئو وب‌سایت ادمین سایت | theme-market

در این مجله خبری تم مارکت به طور کامل با فایل ربات سایت و نحوه ساخت و بررسی آن آشنا شدیم. در واقع فایل Robots.txt یک قرارداد بین سایت شما و ربات‌های خزنده است که به آن‌ها اعلام می‌کند چه محتوایی قابل بررسی و چه محتوایی غیرقابل بررسی است. با این کار ربات‌های موتورهای جستجو زمان کافی و اختیارات لازم برای بررسی محتوای وب‌سایت شما را داشته و بهتر سایت شما را بررسی می‌کنند.

برخی از موتورهای جستجو، از دستورات فایل robots.txt پیروی نمی‌کنند

دستورالعمل Disallow در واقع مسیری را تعیین می کند که نباید به آن دسترسی داشت. دستورالعمل ها می توانند برای user-agent های خاصی مورد استفاده قرار می گیرند اما با این حال می توان از آنها برای تمامی user-agent ها نیز استفاده کرد. فایل robots.txt تنها برای دامنه کاملی که در آن قرار دارد معتبر است که این دامنه می تواند http یا https باشد.

  • برای ایندکس نشدن صفحات یک وب سایت روش دیگری به جز فایل Robots.txt وجود دارد که از طریق آن نیز می‌توانید از ایندکس شدن برخی صفحات جلوگیری کنید.
  • دستور / بعداز Disallow به ربات گوگل می‌گوید باید وارد پوشه‌ای در ریشه فایل شوی.
  • این کار با مقایسه قاعده با مؤلفه مسیر URL که خزنده سعی در واکشی آن را دارد کار می کند.

توجه داشته باشید که لزومی ندارد این لیست دقیقا در همان هاستی که فایل robots.txt در آن است قرار داشته باشد. این قابلیت در موتورهای جستجویی مانند گوگل، بینگ، یاهو و Ask پشتیبانی می شود. Wildcard امروزه توسط موتورهای جستجویی مانند گوگل، یاهو، بینگ و Ask پشتیبانی می شود. به طور خلاصه این فایل نشان می دهد که موتورهای جستجو از کدام بخش ها باید دوری کنند. برای بهتر جا افتادن مفهوم و کاربرد فایل robots.txt اجازه دهید تا نگاهی به یک مثال بیندازیم.

http://asusmag.irبرخی از ربات ها ممکن است که دستورات فایل robots.txt را نادیده بگیرند. این موضع بیشتر در مورد پایشگرهای غیر موجه مانند ربات های یابنده ایمیل ها برقرار است. 4xx خزنده های گوگل همه خطاهای 4xx را نادیده می گیرند، به جز خطای 429 ، به‌گونه‌ای که گویی فایل robots.txt معتبری وجود ندارد. این به این معنی است که گوگل فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد.

خب، بیایید به موضوع اصلی خودمان یعنی فایل robots.txt برگردیم. به علاوه، اتفاقاتی که بر کل سایت تاثیر می‌گذارند مانند جا‌به‌جایی وب‌سایت، ممکن است میزان Crawl Demand را جهت ایندکس دوباره وب‌سایت بر روی آدرس جدید، افزایش دهند. صاحبان وبسایت و وبمسترها می‌توانند ورود ربات‌ها به وبسایت را از راه‌های مختلفی کنترل کنند. مثل تصویر زیر که در آن اجازه دسترسی به پوشه‌ای به نام photos و اجازه دسترسی به صفحه‌ای به نام files.html را ندادیم. خوشبختانه دسترسی ربات‌ها به صفحه‌ها یا فایل‌ها را می‌توانیم کنترل کنیم. © ۱۴۰۱ تمامی حقوق مادی و معنوی این وبسایت متعلق به گروه دیجیتال نردبانمی‌باشد و هر گونه کپی‌برداری پیگرد قانونی دارد.

فایل robots.txt چیست؟