فایل Robots.txt چیست؟ و چه کاربردی در سئو سایت دارد؟

بعد از اینکه سایتتان را ساختید، باید به ربات‌های گوگل و دیگر موتورهای جستجو اعلام کنید کدام صفحات سایتتان را کرال (crawl) کنند و کدام را نکنند. برای این منظور فایل robots.txt را می‌سازیم. از آنجا که این فایل راهنمای ربات‌های موتورهای جستجوست، از نظر سئو نیز تأثیر بسیار زیادی بر نحوه ایندکس شدن سایت خواهد گذاشت. در این مطلب با نحوه عملکرد فایل robots.txt، نحوه ساخت، بهینه‌سازی و معرفی آن به گوگل آشنا خواهید شد.

فایل robots.txt چیست؟

در نظر داشته باشید تنها افراد عادی نیستند که به سایت شما سر می‌زنند؛ بلکه ربات‌های گوگل نیز در دوره‌های زمانی مختلف از سایت شما بازدید می‌کنند و به این کار Crawl گفته می‌شود. بازدید ربات‌های گوگل از سایت شما به دلیل یافتن صفحات جدید یا ایندکس کردن صفحات سایت انجام می‌شود.

فایل robots.txt یک فایل متنی است که نحوه کراول کردن ربات‌ها و ایندکس کردن صفحات در سایت را مشخص می‌کند؛ یعنی به طور کلی، به ربات‌های گوگل برای سر زدن و گردش در سایت راهنمایی می‌رساند.

فایل robots.txt از پروتکل REF یا Robots Exclusion Protocol تشکیل می‌شود که لینک‌های فالو و نوفالو هم جزء همین پروتکل هستند. این فایل توسط وب‌مسترها برای ربات‌های گوگل ساخته می‌شوند تا از طریق آن به ربات‌ها دستور دهند کدام صفحات سایت را کراول یا ایندکس کنند و کدام صفحات را خیر.

دستورهای قابل پشتیبانی در فایل robots.txt

به طور کلی پنج دستور مهم در فایل robots.txt وجود دارد که در ادامه با آن‌ها آشنا خواهید شد:

دستور user-agent

دستور user-agent به تنهایی نمی‌تواند یک دستور کامل باشد، بلکه باید در کنار یکی از سه دستور بعدی استفاده شود. این دستور نوع رباتی که باید از دستورهای بعدی اطاعت کند را مشخص می‌کند.
برای مثال اگر قصد داشته باشید برای ربات‌های گوگل دستوری صادر کنید، نام ربات‌های گوگل (googlebot) را می‌نویسید. هم‌چنین اگر دستور برای تمام ربات‌هاست باید در مقابل user-agent: از علامت ستاره (*) استفاده شود.

دستور disallow

بعد از اینکه ربات‌های موردنظر مشخص شدند، وقت آن است تا برایشان دستور صادر شود. دستور disallow به معنی «اجازه ندادن» است. بنابراین طبعاً باید صفحاتی را که ربات مذکور نباید کرول کند (بخزد) را در مقابل آن نوشت. توجه داشته باشید که روت دامین نباید نوشته شود و فقط بعد از اسلش را بنویسید. نکته دیگر این‌که، چنانچه قصد دارید چندین صفحه را disallow کنید، باید چند دستور disallow بنویسید. به مثال زیر توجه کنید:
User-agent: *
Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*

دستور allow

دستور allow به معنی اجازه دادن است و همان طور که حدس می‌زنید به ربات‌های مشخص‌شده اجازه می‌دهد صفحاتی را که در مقابل این دستور نوشته می‌شوند بخزند.
البته نوشتن این دستور ضرورتی ندارد؛ چراکه ربات‌ها به صورت پیش‌فرض تمام صفحات سایت را می‌خزند. با این حال برخی وبمستران برای تأکید بر برخی صفحات سایتشان، از دستور allow استفاده می‌کنند. نحوه استفاده از دستور allow نیز دقیقاً مانند دستور disallow است.

دستور crawl-delay

این دستور می‌تواند بر سرعت لود صفحات سایتتان اثر بگذارد. به این ترتیب سرعت سایت به دلیل ورود تعداد زیاد خزنده‌ها کاهش پیدا نمی‌کند. شما می‌توانید عددی را در مقابل این دستور تایپ کنید. این عدد نشان می‌دهد که ربات‌های تعیین شده باید به آن مقدار ثانیه صبر کرده و سپس سایت را بخزند. البته توجه داشته باشید که این دستور برای ربات‌های گوگل اثر ندارد.

دستور sitemap

در مقابل این دستور باید آدرس سایت مپ را وارد کنید. سایت مپ نیازی به دستور user-agent ندارد.

نحوه عملکرد فایل robots.txt

ربات‌های گوگل به دو روش سایت ما را بررسی می‌کنند:

از طریق لینک‌ها
از طریق فایل robots.txt

از طریق لینک‌ها

بررسی سایت‌ها توسط ربات‌های گوگل از طریق لینک به این صورت است که ربات‌های گوگل، لینک‌های داخلی که در سایت قرار داده شده است را دنبال می‌کنند و با استفاده از آن‌ها به تغییرات و صفحات جدیدِ سایت ما دسترسی پیدا می‌کنند؛ در نتیجه تصمیم می‌گیرند که صفحات جدید را ایندکس کنند یا خیر.

به عبارت دیگر، ربات‌های گوگل ابتدا وارد وب‌سایتمان می‌شوند و از طریق لینک‌هایی که در صفحه اصلی و منوی سایت قرار دارند، به صفحات جدید دسترسی پیدا می‌کنند و اگر صفحات جدید نیز دارای لینک‌های داخلی بودند، آن‌ها را دنبال می‌کنند.

از طریق فایل robots.txt

در روش اول، ربات‌های گوگل لینک‌ها را دنبال می‌کردند؛ اما اگر شما در سایت‌تان از فایل robots.txt استفاده کرده باشید، ربات‌های گوگل ابتدا به سراغ آن می‌روند و دستورات شما را می‌خوانند؛ به عبارت دیگر، شما با استفاده از فایل robots.txt امکان این را دارید که صفحاتی که می‌خواهید از طریق گوگل بررسی شوند را انتخاب کنید و ربات‌های گوگل نیز با استفاده از این فایل، طبق دستورات شما سایت را کراول می‌کنند.

چرا باید از فایل robots.txt برای سایت خود استفاده کنیم؟

این فایل در برخی موارد می‌تواند خیلی به کار شما بیاید. برای مثال:

در مواقعی که محتوای تکراری روی سایت داشته باشید، یکی از صفحات را disallow کنید.
بخشی از سایت را در دسترس عموم قرار ندهید. برای مثال صفحه عقد قراردادها.
مکان نقشه سایت را برای ربات‌های گوگل با دستور allow مشخص کنید.
اجازه ندهید ربات‌ها برخی فایل‌های روی سایتتان (مانند فایل‌های PDF یا تصاویر) را ایندکس کرده و در فهرست نتایج نمایش دهند.
برای ربات‌ها یک زمان تأخیر در خزیدن تعریف کنید تا وقتی سایت شلوغ می‌شود، سرعت پایین نیاید.

اهمیت استفاده از فایل robots.txt

شما می‌توانید با استفاده درست از فایل robots.txt، نحوه عملکرد سایت خودتان را بهبود ببخشید و این فایل می‌تواند برای شما بسیار مفید باشد. در این بخش به بررسی نکاتی می‌پردازیم که اهمیت استفاده از فایل robots.txt را برای شما شفاف می‌کنند.

جلوگیری از کنیبالیزیشن

گاهی اوقات پیش می‌آید که دو صفحه از سایت شما در صفحه نتایج گوگل رتبه می‌گیرند و در این صورت کاربر دو صفحه یکسان از وب‌سایت شما را مشاهده می‌کند؛ به این اتفاق کنیبالیزیشن می‌گویند که به هیچ وجه برای ترافیک سایت شما مفید نیست.

زمانی که این اتفاق رخ می‌دهد، شما می‌توانید با استفاده از فایل robots.txt، صفحات تکراری در سایت‌تان را مشخص کنید و دستور ایندکس‌ نشدنِ آن‌ها را بدهید.

جلوگیری از ایندکس شدن فایل‌های خاص در سایت شما

اگر شما در سایت‌تان فایلی دارید که نمی‌خواهید در نتایج جستجو در گوگل نشان داده شوند (PDF، عکس و ویدیو)، می‌توانید به راحتی با دستور ایندکس نشدن از طریق فایل robots.txt، از نمایش آن‌ها در گوگل جلوگیری کنید. این قابلیت می‌تواند برای سایت‌هایی که فایل‌ و دوره‌های آموزشی می‌فروشند، بسیار مفید باشد.

جلوگیری از نمایش برخی از محتواهای سایت شما

برخی از محتواها در سایت شما وجود دارند که دوست ندارید تا در نتایج جستجوی گوگل به نمایش گذاشته شوند (درباره ما و تماس با ما). در این صورت می‌توانید از طریق فایل robots.txt دستور ایندکس نشدنِ آن‌ها را بدهید و از این کار جلوگیری کنید.

مدیریت ترافیک ربات‌ها

اگر شما هیچ معیار مشخصی برای بازدید ربات‌ها از صفحات سایت‌تان نداشته باشید، تعداد ربات‌هایی که برای کراول کردن به سایت شما سر می‌زنند، در مقایسه با وقتی که این معیار را دارید بیشتر است.

برخی از سرویس‌های میزبانی؛ دارای محدودیت هستند و ممکن است به دلیلِ این موضوع بعضی از سایت‌ها به مشکل بر بخوردند. شما می‌توانید با استفاده از فایل robots.txt، ترافیک ربات‌های گوگل را مدیریت کنید و مانع بروز اختلال در سرورِ میزبانی سایت‌تان شوید در نتیجه تاثیر بهتری در دیده شدن صفحات مهم شما دارد که ممکن است موجب ورود به گوگل دیسکاور نیز شود.

از ایندکس شدن چه صفحاتی باید جلوگیری شود؟

با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.

صفحاتی که محتوای تکراری دارند (duplicate content)
تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و … می شوند
صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند (در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
تمامی صفحات ادمین و پنل سایت
صفحه پروفایل کاربران سایت
صفحات چت
برخی از فایل های قالب که نیازی به دیده شدن توسط گوگل ندارند

نکاتی درباره استفاده بهتر از فایل robots.txt

برای استفاده از این فایل اطمینان حاصل کنید که محتواها یا بخش‌هایی از سایت‌تان که می‌خواهید کراول و ایندکس شوند را مسدود نکرده‌اید.
پیشنهاد می‌شود که برای جلوگیری از محتواهای حساس از نمایش در نتایج جستجو، از فایل robots.txt استفاده نکنید؛ زیرا با استفاده از دستور Disallow در این فایل، تضمینی برای کراول و ایندکس نشدنِ محتوای انتخابی شما وجود ندارد و شما بهتر است برای این کار از دستور متنی Noindex استفاده کنید.

Blog