دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند. مثلاً مهمترین ربات گوگل یا همان Googlebot کارش پیدا کردن صفحههای جدید در اینترنت و دریافت آن برای بررسیهای بیشتر توسط الگوریتمهای رتبهبندی کننده است. پس رباتها نه تنها ضرری برای سایت شما ندارند، بلکه باید خیلی هم از آنها استقبال کرد.
- زمانی که یک موتور جستجو سایتی را بررسی می کند، اول فایل robots.txt را در سطح ریشه پیدا کرده و بعد از شناسایی آن، خزنده، فایل را خوانده و در آخر فایل ها و دایرکتوری هایی را که ممکن است مسدود شده باشند، پیدا می کند.
- یکی از نکات قابل توجه در ایجاد این فایل، ایجاد نام فایل با حروف کوچک است.
- با ایجاد فایل Robots.txt میتوانید از ایندکس شدن صفحات غیرضروری سایت و یا صفحاتی که هنوز دارای محتوای مناسبی نیستند و یا قوانین سئو در آنها پیاده نشده است به راحتی جلوگیری نمایید.
- در واقع با این کار به رباتها میگویید کدام صفحهها اصلاً در اولویت شما نیستند.
- بدین ترتیب و با نوشتن این دستورالعملهای ساده میتوانید فعالیت رباتها در وب سایت خود را محدود کرده و کنترل کاملی بر آن داشته باشید.
برای افزودن این کدها یا باید مستقیم کدهای HTML صفحه را ویرایش کنید یا این که از راهای دیگری مثل افزونهها برای نوایندکس کردن استفاده کنید. بعد از این که فایل را ساختید آن را باید در سرور میزبان سایت آپلود کنید. با نگاه کردن به فایلهای robots.txt دیگر سایتها میتوانید از آنها برای سایت خودتان الگو بگیرید. مدیریت رباتها برای راهاندازی یک وبسایت یا برنامه ضروری است، زیرا حتی فعالیت خوب رباتها میتواند بر سرور مبدا بار اضافه وارد کند و سرعت وب را کند یا از بین ببرد.
استخدام در شرکت سئوکار
مجله خبری تم مارکت robots.txt برای پیاده سازی بخش های ممنوع سایت برای موتورهای جستجو مورد استفاده قرار می گیرد و یک استاندارد برای انجام این کار به شمار می آید. با استفاده از فایل robots.txt می توان نکات مفیدی در خصوص چگونگی عملیات خزیدن در وب سایت خود به موتورهای جستجو ارائه دهید. گوگل هم به انواع مهمترین موتور جستجو دنیا، چندین ربات مخصوص و مهم برای بررسی صفحات و اطلاعات موجود در اینترنت طراحی کرده است که با توجه به اهمیت آنها به صورت ویژه آن را بررسی میکنیم. شرکتهای مختلف با اهداف متفاوتی اقدام به ساخت و استفاده از این رباتها میکنند. همانطور که متوجه شدید، اگر فایل رباتی در کار نباشد، خزندههای موتور جستجو گوگل سرشان را میاندازند پایین و هرچیزی که جلو دستشان برسد را بررسی میکنند.
مدیریت دسترسی موتورهای جستجو هم یکی دیگه از دلایل استفاده از فایل Robots.txt هست. شما باید دسترسی ربات های موتورهای جستجو رو به بخش های مختلفی از سایت خودتون محدود کنین. ربات ها لازم نیست تا همه بخش های سایت خودتون رو بررسی کنین؛ چون نیاز نیست همه صفحات سایت شما ایندکس بکشن. ایندکس شدن برخی از صفحات سایت شما باعث میشه تا نتایج بدی به دنبال داشته باشه. فرض کنین تا به مناسبی در سایت خودتون جشنواره برگزار می کنین و لازم نیست تا این بخش ایندکس بشه، چون بعد مدتی این صفحه رو حذف می کنین.
ربات های خزنده گوگل روز به روز هوشمند تر شده و بر اساس الگوریتم های جدید بروز میشن. این امکان برای شما فراهم هست که ربات های خزنده رو کنترل کرده و دسترسی اون ها رو محدود کنین. یکی از راه های محدود کردن دسترسی ربات های گوگل، ویرایش فایل Robots.txt هست. دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود.دستورالعملهای موجود در فایلهای robots.txt نمیتوانند رفتار خزنده را در سایت شما اعمال کنند. در حالی که Googlebot و سایر خزندههای وب معتبر از دستورالعملهای فایل robots.txt پیروی میکنند، خزندههای دیگر ممکن است این کار را نکنند. بنابراین، اگر میخواهید اطلاعات را از خزندههای مخفی نگه دارید، بهتر است از روشهای مسدودسازی دیگر مانند محافظت از فایلهای خصوصی با رمز عبور روی سرور خود استفاده کنید .
بررسی و کنترل محتوای به وسیله تگ ربات های جدید گوگل