فایل robots txt چیست؟ راهنمای جامع فایل ربات سایت دگردیسی | theme-market

مسئله شما ارتباطی به فایل robots نداره و باید اگر از وردپرس استفاده می کنید در تنظیمات افزونه Yoast جلوی ایندکس شدن این صفحات رو بگیرید. با استفاده از کد allow اجازه مشاهده یک فایل در فولدری که قبلا Disallowed شده را می دهید. من وقتی سایت رو تو گوگل جستجو می کنم یک سری از آدرس های مربوط به دایرکتوری آپلود میاد بالا که البته از تو سرچ کنسول آن ها را به درخواست حذف اضافه کردم.

http://asusmag.ir

درود بر شما، این مجله خبری تم مارکت توسط افزونه های سئو مثل یوآست ساخته می شود. این به ربات ها می گوید که می توانند کل وب سایت را مرور کنند، زیرا هیچ چیزی غیرمجاز نیست. اگه هم شما این فایلو تو دایرکتوری ریشه سایتتون ندارین خیلی ساده میتونین اونو ایجاد کنین. فقط باید یه فایل متنی جدید روی کامپیوترتون ایجاد کنین و با عنوان robots.txt ذخیره کنین. بهترین کاری که می توانید انجام دهید این است که تنها یک فایل robots.txt برای هر زیردامنه خود داشته باشید. عدم اجازه دسترسی به برخی از بخش های سایت می تواند مورد سوءاستفاده توسط هکرها قرار گیرد.

به چه دلیل از فایل Robot.txt استفاده می کنیم؟

بعبارت دیگه موتور جستجو تمام سایت شما رو زیر و رو میکنه ولی فقط صفحه ها و پوشه هایی رو برای قرار دادن تو نتایج جستجو مشخص میکنه که شما میخواین. موتور جستجوی گوگل ربات‌های مختلفی دارد که هرکدام وظیفه خاصی دارند، شناخت این ربات‌ها به ما کمک می‌کند تا ارتباط بهتری با آن‌ها برقرار کنیم و به صورت خیلی دقیق‌تری بتوانیم فایل ربات سایتمان را طراحی کنیم. به طور کلی استفاده از فایل Robots.txt برای محدود ساختن دسترسی ربات‌ها به برخی صفحات گزینه بهتری محسوب می‌شود زیرا اجرا و پیاده سازی تگ نوایندکس بر روی منابع چندرسانه‌ای کمی دشوار است. از طرفی دیگر نیز محدود ساختن تعداد زیادی صفحه در سایت از طریق فایل Robots.txt بسیار ساده است و با افزودن یک آدرس به فایل انجام می‌شود اما تگ نوایندکس باید به صورت دستی به هر صفحه اضافه شود. بنابراین برای جلوگیری از ایندکس صفحات سایت، فایل ربات ساز نسبت به متا تگ noindex انتخاب هوشمندانه‌تری به نظر می‌رسد.

معایب robots.txt چیست؟

هدف از این آموزش این است که اگر مدیران سایت دوست نداشته باشند گوگل به تمام قسمت‌های سایتشان نفوذ کند می‌توانند از این فایل استفاده کرده و یک نوع حریم برای سایتشان ایجاد کنند. شما می‌توانید با استفاده از افزونه‌ای که در بالا ذکر شد کاری کنید که قسمتی از فایل‌ها مانند readme.html در گوگل ایندکس نشود و یا غیرازاین می‌توانید هر فایل دلخواه دیگری را مشخص کنید تا نمایش داده نشود. و شما می‌توانید برای ویرایش و ایجاد آن از یک FTP یا با فایل منیجر کنترل‌پنل هاست خود اقدام کنید.

  • در مثال بالا به هیچ یک از موتورهای جستجو از جمله گوگل و بینگ اجازه دسترسی به پوشه /about/ directory داده نمی شود که این عدم اجازه دسترسی شامل مسیر /about/company/ نیز می شود.
  • دلیل دیگر این است که موتورهای جستجوی دیگری نیز وجود دارند که ممکن است به اندازه گوگل در این خصوص بخشنده نباشند.
  • مدیران این سازمان هم چون می‌دانند مراجعه کننده‌ها همه‌جا را نمی‌شناسند، پس کنار در ورودی یک باجه اطلاعات درست کرده‌اند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشته‌اند.
  • شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید.

در صورتی که فایل robots.txt دارای دستوری برای محدود کردن پایشگرها نباشد (یا اصلا هیچ فایل robots.txt وجود نداشته باشد)، پایشگرها بدون هیچ محدودیتی به تمام قسمت های یافته شده سر زده و آنها را ایندکس می کنند. موتورهای جستجو برای پایش وب سایت ها لینک ها را دنبال کرده و از یک سایت به سایتی دیگر می روند. هر خزنده ای ممکن است سینتکس کد شما را متفاوت تفسیر کنداگرچه خزنده‌های وب معتبر دستورالعمل‌های موجود در فایل robots.txt را قبول می‌کنند، اما هر خزنده ممکن است دستورالعمل‌ها را متفاوت تفسیر کند. شما باید سینتکس مناسب برای آدرس دادن به خزنده های وب مختلف را بدانید زیرا ممکن است برخی دستورالعمل های خاصی را درک نکنند.

معرفی سایت