اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی ربات های گوگل را به آن محدود نمایید. Robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است. Robots.txtx کاربرد فایل از نگاهی دیگر محدود کردن دسترسی ها به محتوای سایت شما می باشد. اکثر ربات ها قبل از اینکه به بررسی و Index صفحات سایت بپردازند؛ قوانینی که در این فایل گذاشته اید را نگاه می اندازند و دقیقا به آنها پایبند خواهند بود و تنها به صفحاتی مراجعه می کنند که دسترسی اشان را باز گذاشته اید. اما فراموش نکنید که ربات هایی هم هستند که اصلا توجهی به این محدودیت ها ندارند و به همه بخش ها مراجعه می کنند.
فایل robots.txt چیست؟ تاکتیک مهم سئو برای این روبوتس
یک مجله خبری تم مارکت robots.txt حاوی دستورالعملهایی برای رباتها است که به آنها میگوید به کدام صفحات وب میتوانند دسترسی داشته باشند و به کدام صفحات نباید بروند. فایلهای robots.txt برای خزندههای وب موتورهای جستجو مانند Google مرتبط هستند. فایل robots.txt در وب سایت های بزرگی که دارای صفحات زیادی می باشند از اهمیت بسیار بیشتری برخوردار می باشد چرا که می تواند یک راهنمای کامل برای نحوه جستجو و خزیدن در صفحات وب سایت را برای موتورهای جستجو فراهم کند. برای ایندکس نشدن صفحات یک وب سایت روش دیگری به جز فایل Robots.txt وجود دارد که از طریق آن نیز میتوانید از ایندکس شدن برخی صفحات جلوگیری کنید. متا تگ نوایندکس نیز به منظور ایندکس نشدن صفحات سایت مورد استفاده قرار میگیرد. اما بسیاری از وب مسترها برای محدود ساختن ایندکس صفحات وب سایت میان Robots.txt یا تگ noindex مردد میشوند و نمیدانند که کدام یک از آنها گزینه بهتری است.
گوگل تعدادی ربات خزنده دارد که به صورت خودکار وبسایتها را اسکن میکنند و صفحهها را با دنبال کردن لینکها از صفحهای به صفحه دیگر پیدا میکنند. وقتی رباتها میخواهند صفحههایی از سایت را بررسی کنند، اول فایل Robots.txt را میخوانند. در این فایل با چند دستور ساده مشخص میکنیم که ربات اجازه بررسی کدام صفحهها را دارد و کدام صفحهها را نباید بررسی کند.
ساخت فایل ربات
این دستورالعمل در حال حاضر تنها توسط موتورهای جستجو گوگل و بینگ پشتیبانی می شود. در این مثال به تمامی موتورهای جستجو گفته شده است که به مسیر /wp-admin/ دسترسی نداشته باشند. این کار با وجود این که برای کاربران یک قابلیت فوق العاده است ولی در اکثر مواقع می تواند برای موتورهای جستجو گیج کننده باشد چرا که باعث به وجود آمدن محتوای تکراری می شود. تا جای امکان سعی کنید از استفاده از دستورالعمل crawl-delay در این فایل برای موتورهای جستجو خودداری کنید. به همین علت است که فایل robots.txt دارای نقش بسیار مهمی در سئو سایت می باشد.
گوگل لیستی از الگوهای تطبیقی و مثال ها را در اینجا گرداوری کرده است. کارکتر $ نیز برای اشاره به پایان یافتن یک یو آر ال استفاده می شود. برای قرار دادن کامنت می توانید از کاراکتر # در ابتدای توضیحات استفاده نمایید. خزیدن پوشه (دایرکتوری) و محتویات آن را ممنوع کنیدیک اسلش رو به جلو به نام پوشه اضافه کنید تا خزیدن کل پوشه و محتویان آن ممنوع شود. خطوطی که با هیچ یک از این دستورالعمل ها مطابقت ندارند نادیده گرفته می شوند.
- با تایپ دستوراتی در این فایل متنی از دسترسی همه یا تعدادی از ربات های موتورهای جستجو برای بازدید و ایندکس سایت جلوگیری می گردد و یا با مشخص نمودن بخش های غیرضروری سایت، از لیست ایندکس توسط ربات ها خارج می شوند.
- در جاب تیم شما میتوانید یک رزومه قوی از خودتون در صفحه اول گوگل ایجاد کنید با افراد متخصص حوزه خود آشنا شوید و پیشنهادهای کاری جذابی از طریق کارفرماها دریافت کنید.
- موتور جستجوی گوگل تنها اجازه دسترسی به /not-launched-yet/ را ندارد اما اجازه دسترسی به /secret/ و /test/ برای آن فراهم شده است.
- به این ترتیب ربات Googlebot که اصلیترین ربات گوگل است متوجه میشود که باید به دستورات خاصی توجه کند.
- تکتک ما امیدواریم که با تلاش خود، تاثیری هر چند کوچک در بهبود کیفیت وب فارسی داشته باشیم.