با این حال باید توجه داشت که موتورهای جستجو گوگل و بینگ در این جا اجازه دسترسی خواهند داشت چرا که طول کاراکترهای دستورالعمل بیشتر از Allow می باشد. در مثال بالا به هیچ یک از موتورهای جستجو از جمله گوگل و بینگ اجازه دسترسی به پوشه /about/ directory داده نمی شود که این عدم اجازه دسترسی شامل مسیر /about/company/ نیز می شود. در مثال بالا هیچ یک از موتورهای جستجو به مسیری که شامل پوشه /wp-admin/ است دسترسی ندارند و همینطور دو نقشه سایت را نیز تعریف کرده ایم که در آدرس های بیان شده موجود می باشند. با استفاده از این دو دستورالعمل شما می توانید به موتورهای جستجو بگویید که می توانند به یک صفحه یا فایل خاص در پوشه های مختلف سایت شما دسترسی پیدا کرده و در غیر این صورت مجاز به دسترسی به این فایل ها نیستند. از آنجایی که هر یک از موتورهای جستجو مدت زمان محدودی برای خزیدن در یک وب سایت را دارند، شما باید سعی کنید که این زمان را صرف صفحاتی کنید که نیاز دارید تا در لیست موتورهای جستجو نمایش داده شوند.
فایل Robots.txt چیست؟
معمولا یکبار مجله خبری تم مارکت و محدودیتهای فایل robot مشخص میشود و تا زمانی که محدودیتهای این فایل مشکل ساز نشدهاند نیازی به اصلاح و تغییر فایل robots.txt نیست. اما اگر تعداد صفحات ایندکس شده دقیقا و یا تقریبا همان تعداد صفحاتی بود که انتظار دارید در داخل گوگل ایندکس شده باشند، نیازی به ساخت و یا تغییر فایل robot سایت خود ندارید. در این قسمت شما میتوانید به صورت زنده تغییرات مورد نظرتان را در محتویات فایل robots.txt انجام دهید و سپس از طریق بخش پایینی بررسی کنید که آیا تغییرات انجام شده دقیقا همان چیزی هستند که به دنبال آن هستید یا خیر. بعد از انتخاب، صفحهای باز میشود که در آن گوگل آخرین فایل ربات پیدا شده از سایتتان را به شما نمایش میدهد. درصورتی که شما اقدام به ایجاد یک فایل حقیقی به نام robots.txt در ریشه هاست سایت خودتان کنید، فایل ربات مجازی به صورت خودکار از کار میافتد و فایل حقیقی آپلود شده توسط شما جایگزین آن خواهد شد.
- گوگل لیستی از الگوهای تطبیقی و مثال ها را در اینجا گرداوری کرده است.
- این رباتها صفحات وب را «خزش» میکنند و محتوای آن را فهرستبندی میکنند تا در نتایج موتورهای جستجو نمایش داده شوند.
- قدم به قدم جلو میرویم تا ببینیم چطور میتوان از فایل Robots.txt استفاده کرد؛ چطور میتوانیم رباتها را محدود کنیم، چطور از ایندکس شدن صفحهها جلوگیری کنیم و در نهایت یک فایل Robots.txt عالی بسازیم.
برای مثال اگر نمیخواهید موتورهای جستجو، تصاویر وبسایتتان را ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید. عدم وجود یک فایل robots.txt موتورهای جستجو را از خزیدن و نمایهسازی وبسایت شما متوقف نخواهد کرد. فایل robots.txt سایت شما نقش مهمی در عملکرد کلی سئو شما دارد. این فایل شما را قادر میسازد تا با موتورهای جستجو ارتباط برقرار کنید و به آن ها نشان دهید که چه بخشی از سایت شما را باید ایندکس کنند و چه بخشهایی را نباید ایندکس کنند. با اجرای دستور Crawl-delay بعد از برطرف کردن مشکل، صفحه شما توسط ربات های موتور جستجوی گوگل کراول و ایندکس خواهد شد. بعد از اینکه public_html را باز کردید، فایل را به داخل آن بکشید؛ توجه داشته باشید که به عنوان مالک سایت، باید بتوانید به تمام قسمت های فایل دسترسی داشته باشید و آن را بخوانید، ویرایش کنید و بنویسید.
ویرایش فایل ربات سایت توسط افزونه سئو یواست (Yoast SEO)
در صورت وجود این دستور موتورهای جستجو توانایی خزیدن هیچ یک از صفحات وبسایت را ندارند. البته لازم به ذکر است این یک روش مطمئن برای جلوگیری از نمایش سایت شما در موتورهای جستجو نیست و باید صفحات سایت را no-index کنید. اگر صفحاتی را میخواهید مشخص کنید که موتورهای جستجو به آنها وارد نشده و از دیدن آنها پنهان بمانند، میتوانید در Robots.txt دسترسی به آنها را محدود کنید. به این نکته توجه داشته باشید که این صفحات توسط گوگل و دیگر موتورهای جستجو بررسی نمیشوند. موتورهای جستوجو برای خزیدن در سایتها لینکها را دنبال میکنند و از این سایت به سایتهای دیگر میروند تا میلیاردها صفحه و لینکهای دیگر را کشف کنند. برخی این حرکت موتورهای جستوجو را به عنکبوت نسبت دادهاند و نامش را گذاشتهاند.
[…] کاملاً واضح است که هر موتور جستجوی معقول و منطقی از داده های کلیک بر روی نتایج خود بهره می جوید تا از بازخورد آن برای بهبود رتبه بندی و کیفیت نتایج جستجو استفاده کند. نتایج کم کلیک باید در نتایج پایین تر قرار بگیرند زیرا کمتر با عبارات جستجو شده ارتباط دارند، و بدیهی است که نتایجی که مرتباً کلیک می شوند به سمت نتایج بالا صفحه می روند. در ادامه disallow به معنای این است که مسیر ذکر شده را دنبال نکند و اجازه ای برای خزیدن نداشته باشد. در نهایت قسمت allow هم قسمتی است که اجازه می دهد خزنده ها آن ها را دنبال کنند. در این فایل طبق گفته خودشان هیچ چیز را بلاک نکرده اند و به جستجوگرها این اجازه را داده اند تا به همه چیز دسترسی داشته باشند. کارشاس یوآست می گوید، ما حتی دایرکتوری wp-admin را هم بلاک نمی کنیم.
• مدیریت دسترسی موتورهای جستجو