در صورتی که برای یک وب سایت هیچ robots.txt وجود نداشته باشد یا دستورالعمل های قابل اجرا در این فایل وجود نداشته باشند موتورهای جستجو معمولا کل وب سایت شما را جستجو می کنند. گوگل پیشنهادات مختلفی را در خصوص ربات های خزنده در موتورهای جستجو ارائه داد که برخی از آنها مورد تایید قرار گرفته و پیاده سازی شدند. یک فایل robots.txt شامل دستورالعمل هایی برای تمامی موتورهای جستجو می باشد. برخی از سیستمهای مدیریت محتوا همانند وردپرس، به صورت خودکار اقدام به ایجاد فایل robots.txt میکنند. به این معنی که اگر شما به ریشه هاست سایت خودتان مراجعه کنید فایلی تحت عنوان robots.txt را پیدا نخواهید کرد.
Robots.txt در حقیقت جزو مهارتهای اولیهای است که متخصصین سئو آن را یاد میگیرند و یکی از صدها بخش سئو سایت میباشد. اما متاسفانه در بسیاری از موارد نتایجی که از آن گرفته میشود یا منفی و مخرب است و یا عملا هیچ تاثیری در سئو ندارد. اگر تا الان روی سئوی سایتت کاری نکردی، بهتره که از همین امروز شروع کنی. در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامینها دارای فایل robots.txt مختص خود باشند.
متخصص سئو کیست؟
فایل Robots.txt یک فایل متنی بسیار ساده است که ایندکس کردن صفحات سایت توسط رباتها و خزندههای وب را محدود میسازد. این فایل در واقع صفحات مجاز و غیرمجاز وب سایت جهت ایندکس شدن را به رباتها نشان میدهد و فعالیت آنها را مدیریت میکند. فایل Robots.txt شامل URLهایی است که نمیخواهید توسط رباتهای گوگل و یا هر موتور جستجوگر دیگری ایندکس شوند و در معرض دید کاربران قرار گیرند. بنابراین فایل ربات ساز از ورود رباتها به صفحات موردنظر شما جلوگیری کرده و ایندکس شدن آنها را ممنوع خواهد کرد.
کنترل دسترسی رباتهای جستجوگر
اگر در دسترس نباشد، مجله خبری تم مارکت فرض می کند که هیچ محدودیتی برای خزیدن وجود ندارد. این همچنین برای هر URL غیرمجاز در زنجیره تغییر مسیر اعمال می شود، زیرا خزنده به دلیل تغییر مسیرها نمی تواند قوانین را واکشی کند. Google خطوط نامعتبر را در فایلهای robots.txt، از جملهعلامت ترتیب بایتیونیکد در ابتدای فایل robots.txt نادیده میگیرد و فقط از خطوط معتبر استفاده میکند.
دستور Disallow
چرا که این اطلاعات با دیگر صفحات پیوند داشته و درنتیجه ممکن است همچنان ایندکس شده و یا اینکه ایندکس دیگر صفحات را هم با مشکل روبرو کنند. همانطور که قبلاً هم گفته شد Robots.txt در پوشه اصلی سایت قرار میگیرد. این محلی پیشفرض است که رباتها و خزندهها آن را بررسی میکنند تا به دنبال این فایل باشند. درنتیجه اگر این فایل در آنجا نباشد برای رباتها به این معنی است که این سایت فایل Robots.txt ندارد. این ربات برای پیدا کردن جایگاه سایت شما در نتایج جستجوی گوگل کاربرد دارد. و میتوانید از طریق آن، رشد جایگاه سایت تان را در کلمات کلیدی مختلف ارزیابی نمایید.
- موتورهای جستجو برای پایش وب سایت ها لینک ها را دنبال کرده و از یک سایت به سایتی دیگر می روند.
- هر زیر دامنه از دامنهی اصلی باید فایل Robots.txt اختصاصی و جداگانه داشته باشند.
- همچنین شما میتوانید زیر نظر خود دسترسیهای متفاوتی را به این رباتها دهید.
- ربات های خزنده گوگل یعنی Googlebot از دستورالعمل Crawl-delay پشتیبانی نمی کنند بنابراین اگر به فکر بهینه سازی موتور جستجوی گوگل هستید بهتر است که از این دستورالعمل استفاده نکنید.
- بودجه خزش به تعداد صفحاتی از سایت اشاره دارد که رباتهای جستجوگر در طول یک بازه زمانی مشخص مثلا یک روز یا یک هفته به ایندکس آنها میپردازند.