امکان دارد هر کدام از رباتها دستورات را به شکل متفاوتی درک کند. یعنی امکان دارد دو ربات متعلق به یک موتور جستجو یا هر سرویسی، یکی از دستورات پیروی کند و دیگری پیروی نکند. هدر دادن منابع سرور برای این صفحات، باعث از بین رفتن Crawl Budget شما میشود. به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به ایندکس شدن دارند خیلی دیرتر به نتایج جستجو راه پیدا میکنند.
اصطلاحات مربوط به فایل robots.txt
واژهپردازها اغلب فایلها را در قالبی اختصاصی ذخیره میکنند و میتوانند کاراکترهای غیرمنتظرهای مانند نقل قولها به آن اضافه کنند که میتواند برای خزندهها مشکل ایجاد کند. نکته مهمی که باید به آن توجه داشت این است که همه زیر دامنه ها به فایل robots.txt خود نیاز دارند. به عنوان مثال، دامنه فایل مخصوص به خود را دارد، همه زیر دامنه های Cloudflare (blog.cloudflare.com، community.cloudflare.com و غیره) نیز به فایل خود نیاز دارند. اگه شما از افزونهyoast’s wordpress SEOو یا افزونه دیگه ای که xml نقشه سایت تولید میکنه استفاده میکنین افزونه تلاش میکنه که بطور خودکار خطوط مربوط نقشه سایت رو به فایل robots.txt اضافه کنه. همچنین میتونین دایرکتوری افزونه وردپرس رو disallow کنین تا موتورهای جستجو این صفحه رو شاخص گذاری نکنن.
معایب robots.txt چیست؟
از سال ۱۳۹۴ شروع بهکار کردیم و هدف ما کمک به شما برای ساخت یک کسبوکار اینترنتی موفق است. اما چطور؟ بهترین سایتساز دنیا را ساختهایم که بیش از ۲۵۰۰ وبسایت از آن استفاده میکنند. ما در تیم تولید محتوای میهن وردپرس در تلاش هستیم تا بهترین مقالات آموزشی در زمینه وردپرس و کسبوکارهای اینترنتی را تهیه کنیم.
به چه دلیل از فایل Robot.txt استفاده می کنیم؟
با ابزار انلاین که مجله خبری تم مارکت robots.txt رو چک کردم میگفت وجود نداره اما از طریقی که شما اموزش دادید فایلی رو اورد که اصلا دستوراتش فرق میکنند. اگر اجازه بررسی صفحهای را با دستورات فایل ربات نداده باشیم باز هم امکان دارد گوگل آن را ایندکس کند و در نتایج جستجو ظاهر شود. ربات گوگل یا باید به صورت مستقیم صفحه را دریافت و بررسی کند (معمولاً به کم نقشه سایت) یا باید از لینکهای دیگری که از صفحهها و سایتهای دیگر به آن صفحه دادهاند آن را پیدا و بررسی کند. هرچه تعداد صفحات وبسایت شما بیشتر باشد، رباتهای موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد.
- ایندکس کردن محتوای سایتها به طوری که بتوان آنها را دسته بندی کرده و در نتایج جستوجوها نشان داد.
- فرض کنید که در وبسایتتان فولدری به نام mypic دارید که در آن یکسری تصاویر را نگهداری میکنید که علاقهای ندارید ربات جستجو تصاویر گوگل آن را بررسی کند و در نتایج خود نشان دهد.
- ربات موتورهای جستجو با خزیدن و بررسی کردن صفحات مختلف در سایتهای مختلف، صفحات را ایندکس کرده و با استفاده از الگوریتم رتبه بندی خود، نتایج را مرتب کرده و در صفحه نتایج موتورهای جستجو نشان میدهند.
فایل robots.txt به مدیریت فعالیتهای این خزندههای وب کمک میکند تا بر سرور وب میزبان وبسایت، یا فهرستبندی صفحاتی که برای نمایش عمومی نیستند، هزینه بار اضافه نکنند. دلیل اول این است که شما نمی خواهید درباره تنظیماتی که برای خزیدن ربات های موتورهای جستجو در وب سایت خود اعمال کرده اید ابهامی وجود داشته باشد. در این مثال هیچ یک از موتورهای جستجو از جمله گوگل و بینگ به تمامی پوشه های موجود در مسیر /about/ directory به جز مسیر sub-directory /about/company/ دسترسی ندارند. به عنوان مثال ربات های موتور جستجوی گوگل از Googlebot برای انجام این کار استفاده می کنند، ربات های یاهو از Slurp و ربات های موتور جستجوی بینگ نیز از BingBot استفاده می کنند. در زمان استفاده از فایل robots.txt باید توجه داشته باشید که این امکان وجود دارد تا شما دسترسی موتورهای جستجو به بخش عظیمی از سایت خود را مسدود کنید.