فایل robots txt چیست؟ راهنمای جامع فایل ربات سایت دگردیسی-سئو سئو | theme-market

بهتر است که یک مجموعه دستور مشترک برای تمام user agent ها داشته باشید تا در هنگام بروزرسانی فایل robots.txt دچار سردرگمی نشوید. فایل robots.txt برای یافته شدن توسط پایشگرها بایست در مسیر ریشه سایت قرار داشته باشد. برای دانلود یک کپی از فایل robots.txt از تستینگ robots.txt در سرچ کنسول استفاده کنید. روی ارسال در گوشه سمت راست پایین ویرایشگر robots.txt کلیک کنید.

  • اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه crawl مواجه شوید.
  • در حال حاضر موتور جستجوی گوگل از حداکثر سایز 500 کیلوبایت برای فایل robots.txt پشتیبانی می کند.
  • گاهی اوقات صاحبان سایت ها بعلت نداشتن اطلاعات کافی در این زمینه اشتباهاتی را در ساخت یا ویرایش این فایل متنی رقم می زنند که منجر به خساراتی به سئوی سایت آنها می شود.
  • هر یک از ساب دامین های وب سایت بایستی دارای فایل robots.txt مختص به خود باشند.
  • Robots.txt تنها برای خزیدن بهتر ربات‌های گوگل و دریافت نتایج بهینه‌تر استفاده شده و تأثیر آن در بهبود سئوی سایت است.
  • این موضع بیشتر در مورد پایشگرهای غیر موجه مانند ربات های یابنده ایمیل ها برقرار است.

برای Google، مدیران می‌توانند فرکانس خزیدن را برای وب‌سایت خود در کنسول جستجوی Google تغییر دهند. بنابراین اگر شما هم قصد راه اندازی یک وب سایت بزرگ تجاری را دارید حتما باید به کیفیت فایل robots.txt وب سایت خود توجه کنید و تمامی نکاتی که در این مطلب بیان کردم را رعایت کنید. بنابراین زمانی که حجم فایل های شما بیشتر از این مقدار باشد توسط موتور جستجوی گوگل نادیده گرفته می شود.

http://asusmag.ir

Robot.txt یک فایل متنی است که برای سئو استفاده می‌شود و حاوی دستوراتی برای روبات‌های فهرست‌کننده موتورهای جستجو است که صفحاتی را مشخص می‌کند که می‌توانند یا نمی‌توانند ایندکس شوند. هر حالت دیگری که فایل ربات در ریشه سایت نباشد آن را از دسترس ربات‌های گوگل خارج می‌کند. اگر از تگ نوایندکس استفاده کنید مستقیما به ربات‌های کراولر اعلام می‌کنید که این صفحه نباید در نتایج جستجو نمایش داده شود. یعنی کراولر صفحه‌ی شما را کراول و شناسایی می‌کند اما نمی‌تواند و حق ندارد محتوای شما را در نتایج نشان دهد. این مورد برای صفحات محرمانه‌ با دسترسی عمومی بسیار مناسب است. برای صفحاتی محرمانه‌ای که نباید به صورت عمومی نمایش داده شوند ایجاد پسورد و یا شناسایی IP پیشنهاد می‌شود.

استفاده از دستور sitemap:

همین قابلیت است که مجله خبری تم مارکت فایل robots.txt را در سئو دوچندان می‌کند. Crawl Budget در حقیقت تعداد صفحاتی از وب سایت‎تان است که ربات گوگل در یک روز آنها را خزیده و بررسی می‌کند. بودجه شما، یا همان تعداد صفحاتی که توسط Googlebot مشاهده می شوند، بر اساس حجم وب‌سایت شما (تعداد صفحات)، سلامت آن (عدم بروز خطا) و تعداد بک‌لینک‌های سایت‌تان تعیین می‌شود. هر کدام از این ربات‌ها به صورت مداوم، صفحه‌های وبسایت را بررسی می‌کنند.

چگونه خزش ربات خاصی را متوقف کنم؟

به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهم‌ترین صفحات شما را بهتر و بیشتر بررسی کند. در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وب‌سایت را تعریف می‌کنیم. در واقع Crawl Budget، تعداد URLهایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند. Crawl Stats وجود دارد که دفعات بررسی صفحه‌های سایت به صورت روزانه را نمایش می‌دهد. در همین صفحه، حجم دانلود شده توسط ربات‌ها و همینطور زمان بارگذاری صفحه‌ها را می‌توانید ببینید.

نمونه هایی از آدرس های معتبر و غیرمعتبر در فایل robots.txt