فایل Robots.txt چیست و چه کاربردی دارد؟

01 دی 1400
فایل روبوت دات تکست

فایل روبوت دات تکست (Robots.txt) به اسپایدرها یا خزنده های موتورهای جستجو می‌گوید که در صفحات یا بخش‌های خاصی از یک وب‌سایت، نخزند یا آن را کراول نکنند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواست‌های Robots.txt را می‌شناسند و به آنها پایبند هستند.

 

فایل Robots.txt چه اهمیتی دارد؟

اکثر وب سایت‌ها به فایل robots.txt نیازی ندارند. چون گوگل در حالت عادی می‌تواند تمامی صفحات مهم سایت را پیدا کرده و ایندکس کند.

موتورهای جستجو به طور خودکار، صفحات بی اهمیت یا نسخه‌های تکراری سایر صفحات را ایندکس نمی‌کنند.

اهمیت فایل روبوت دات تکست

با این حال، 3 دلیل اصلی برای استفاده از فایل robots.txt وجود دارد:

 

مسدود کردن صفحات غیر عمومی

گاهی اوقات صفحاتی در سایت دارید که نمی‌خواهید ایندکس شوند. برای مثال، شاید صفحه سبد خرید یک فروشگاه اینترنتی یا یک صفحه لاگین برای ادمین های سایت دارید. وجود این صفحات، الزامی هستند ولی نمی‌خواهید افراد متفرقه از طریق موتورهای جستجو و مستقیما واردشان شوند. در این موارد، از فایل robots.txt برای مخفی کردن این صفحات از دید کراولرها و ربات‌های موتور جستجو استفاده کنید.

به حداکثر رساندن بودجه کراول

اگر برای ایندکس شدن همه صفحات، مشکل دارید، شاید با مشکل بودجه کراول مواجه هستید. از طریق مسدود کردن صفحات بی‌اهمیت با فایل robots.txt به Googlebot اجازه می‌دهید تا بودجه کراول سایت شما را بیشتر صرف صفحات مهم کند.

ربات گوگل و فایل روبوت دات تکست

جلوگیری از ایندکس شدن منابع

دستورالعمل‌های متا (meta directives) به خوبی فایل robots.txt، از ایندکس شدن صفحات جلوگیری می‌کند. با این حال، این متاروبوت ها در مورد منابع چندرسانه‌ای، مثل فایل‌های PDF و تصاویر، عملکرد چندان خوبی ندارد. اینجاست که فایل robots.txt وارد عمل می‌شود.

خلاصه این که فایل Robots.txt به اسپایدرهای موتورهای جستجو می‌گوید که صفحات خاصی از وب‌سایت را کراول نکنند.

می‌توانید تعداد صفحات ایندکس شده را در سرچ کنسول گوگل (Google Search Console)، بررسی کنید.

کنسول سرچ گوگل و فایل روبوت دات تکست

اگر تعداد به دست آمده با تعداد صفحاتی که می‌خواهید ایندکس شوند، مطابقت دارد، پس نیازی به فایل Robots.txt ندارید.

اما اگر این تعداد، بیشتر از چیزی است که انتظارش را داشتید (و متوجه URL‌های ایندکس شده‌ای شدید که نباید ایندکس شوند)، وقت آن رسیده تا یک فایل robots.txt برای وب سایت خودتان تهیه کنید.

 

مطلب پیشنهادی: انواع داده های ساختار یافته نتایج گوگل

 

بهترین روش‌های ساخت فایل Robots.txt

 

فایل Robots.txt تهیه کنید

اولین قدم این است که یک فایل Robots.txt ایجاد کنید.

این فایل متنی، با استفاده از notepad ویندوز هم قابل ساخت است. مهم هم نیست که در نهایت چگونه فایل robots.txt را می‌سازید، فرمت آن یکسان است:

نماینده کاربر (User-agent): X

غیر مجاز (Disallow): Y

نماینده کاربر، ربات خاصی است که در حال صحبت با او هستید.

و هر چیزی که بعد از «Disallow» می‌آید، شامل صفحات یا بخش هایی هستند که می‌خواهید مسدود شوند و ایندکس نشوند.

متن فایل روبوت دات تکست

در اینجا به یک مثال توجه کنید:

نماینده کاربر: googlebot

غیر مجاز: images/

این قانون به Googlebot می‌گوید که پوشه تصویر درون وب‌سایت را ایندکس نکند.

همچنین می‌توانید از یک ستاره (*) برای صحبت با همه ربات‌هایی که به وب‌سایت شما می‌رسند، استفاده کنید.

به مثالی در این زمینه توجه کنید:

نماینده کاربر: *

غیر مجاز: /images

علامت«*» به همه اسپایدرها می‌گوید که پوشه تصاویر شما را کراول نکنند.

این روش، تنها یکی از راه‌های استفاده از فایل robots.txt است. برای کسب اطلاعات بیشتر در مورد مسدود کردن صفحات مختلف سایت در برابر کراول شدن از جانب ربات‌ها به جدول راهنمای گوگل مراجعه کنید.

راهنمای گوگل برای نگارش فایل روبوت دات تکست

پیدا کردن فایل Robots.txt را ساده کنید

هنگامی که فایل robots.txt را تهیه کردید، باید به آن جان دهید. از نظر فنی می‌توانید این فایل را در هر کدام از دایرکتوری‌های اصلی سایت قرار دهید.

اما برای افزایش شانس یافتن فایل، توصیه می کنیم که آن را در این آدرس قرار دهید:

https://example.com/robots.txt

توجه کنید که فایل robots.txt به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از «r» کوچک در نام فایل استفاده کنید.

 

مطلب پیشنهادی: چک لیست سئو سایت

 

اشتباهات و ارورها را بررسی کنید

فایل robots.txt باید به درستی تنظیم شود. تنها با یک اشتباه، احتمال ایندکس نشدن کل سایت وجود دارد.

خوشبختانه، نیازی نیست که نگران تنظیم درست کد شوید. گوگل، ابزاری به نام Robots Testing Tool دارد که می‌توانید از آن استفاده کنید:

ابزار تست کردن فایل روبوت دات تکست

این ابزار، فایل robots.txt و هر گونه ارور و هشداری را به صورت زیر نشان می‌دهد:

ارورها در فایل روبوت دات تکست

همان گونه که در مثال فوق مشاهده می‌کنید، از خزیدن اسپایدرها در صفحه WP admin (گه مربوط به ادمین های سایت‌های وردپرسی است) جلوگیری کرده‌ایم.

همچنین از فایل robots.txt برای جلوگیری از کراول شدن صفحات وردپرس auto-generated tag استفاده کردیم تا مانع از ایجاد محتوای تکراری شویم.

 

مطلب پیشنهادی: کدهای HTTP status چیست؟

 

فایل روبوت دات تکست (robots.txt) در مقابل دستورالعمل‌های متا (meta directives)

هنگامی که می‌توانید با متاتگ «noindex»، صفحات را در سطح صفحه مسدود کنید، چرا باید از فایل robots.txt استفاده کرد؟

همانطور که قبلاً هم اشاره کردیم، تگ noindex برای منابع چندرسانه‌ای مانند فیلم‌ها و فایل‌های PDF عملکرد خوبی ندارد.

بعلاوه، اگر هزاران صفحه در سایت را بخواهید مسدود کنید، پس به‌ جای افزودن دستی تگ noindex به هر صفحه، مسدود کردن کل آن بخش از سایت با کمک فایل robots.txt آسان‌تر است.

شاید در مواردی هم نمی‌خواهید هیچ بودجه کراولی را با ورود گوگل به صفحاتی با تگ noindex، هدر دهید.

خارج از این 3 حالت بالا، توصیه می‌کنیم تا از دستورالعمل‌های متا (meta directives) به جای robots.txt استفاده کنید. چون پیاده سازی آنها آسان‌تر است و احتمال وقوع فاجعه (مانند مسدود شدن کل سایت) هم کمتر است.

 

منبع

https://backlinko.com/hub/seo/robots-txt

برچسب ها :
نویسنده مطلب زینت فلاح
من زینت فلاح، ارشد روان سنجی هستم. هشت ساله که ترجمه متون روانشناسی،مدیریت و فناوری رو انجام میدم. به تولید محتوای جدید علاقمندم. در حدود یک ساله که با کارلنسر همکاری دارم.

دیدگاه شما

بدون دیدگاه