بعد از اینکه سایتتان را ساختید، باید به رباتهای گوگل و دیگر موتورهای جستجو اعلام کنید کدام صفحات سایتتان را کرال (crawl) کنند و کدام را نکنند. برای این منظور فایل robots.txt را میسازیم. از آنجا که این فایل راهنمای رباتهای موتورهای جستجوست، از نظر سئو نیز تأثیر بسیار زیادی بر نحوه ایندکس شدن سایت خواهد گذاشت. در این مطلب با نحوه عملکرد فایل robots.txt، نحوه ساخت، بهینهسازی و معرفی آن به گوگل آشنا خواهید شد.
فایل robots.txt چیست؟
در نظر داشته باشید تنها افراد عادی نیستند که به سایت شما سر میزنند؛ بلکه رباتهای گوگل نیز در دورههای زمانی مختلف از سایت شما بازدید میکنند و به این کار Crawl گفته میشود. بازدید رباتهای گوگل از سایت شما به دلیل یافتن صفحات جدید یا ایندکس کردن صفحات سایت انجام میشود.
فایل robots.txt یک فایل متنی است که نحوه کراول کردن رباتها و ایندکس کردن صفحات در سایت را مشخص میکند؛ یعنی به طور کلی، به رباتهای گوگل برای سر زدن و گردش در سایت راهنمایی میرساند.
فایل robots.txt از پروتکل REF یا Robots Exclusion Protocol تشکیل میشود که لینکهای فالو و نوفالو هم جزء همین پروتکل هستند. این فایل توسط وبمسترها برای رباتهای گوگل ساخته میشوند تا از طریق آن به رباتها دستور دهند کدام صفحات سایت را کراول یا ایندکس کنند و کدام صفحات را خیر.
دستورهای قابل پشتیبانی در فایل robots.txt
به طور کلی پنج دستور مهم در فایل robots.txt وجود دارد که در ادامه با آنها آشنا خواهید شد:
دستور user-agent
دستور user-agent به تنهایی نمیتواند یک دستور کامل باشد، بلکه باید در کنار یکی از سه دستور بعدی استفاده شود. این دستور نوع رباتی که باید از دستورهای بعدی اطاعت کند را مشخص میکند.
برای مثال اگر قصد داشته باشید برای رباتهای گوگل دستوری صادر کنید، نام رباتهای گوگل (googlebot) را مینویسید. همچنین اگر دستور برای تمام رباتهاست باید در مقابل user-agent: از علامت ستاره (*) استفاده شود.
دستور disallow
بعد از اینکه رباتهای موردنظر مشخص شدند، وقت آن است تا برایشان دستور صادر شود. دستور disallow به معنی «اجازه ندادن» است. بنابراین طبعاً باید صفحاتی را که ربات مذکور نباید کرول کند (بخزد) را در مقابل آن نوشت. توجه داشته باشید که روت دامین نباید نوشته شود و فقط بعد از اسلش را بنویسید. نکته دیگر اینکه، چنانچه قصد دارید چندین صفحه را disallow کنید، باید چند دستور disallow بنویسید. به مثال زیر توجه کنید:
User-agent: *
Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*
دستور allow
دستور allow به معنی اجازه دادن است و همان طور که حدس میزنید به رباتهای مشخصشده اجازه میدهد صفحاتی را که در مقابل این دستور نوشته میشوند بخزند.
البته نوشتن این دستور ضرورتی ندارد؛ چراکه رباتها به صورت پیشفرض تمام صفحات سایت را میخزند. با این حال برخی وبمستران برای تأکید بر برخی صفحات سایتشان، از دستور allow استفاده میکنند. نحوه استفاده از دستور allow نیز دقیقاً مانند دستور disallow است.
دستور crawl-delay
این دستور میتواند بر سرعت لود صفحات سایتتان اثر بگذارد. به این ترتیب سرعت سایت به دلیل ورود تعداد زیاد خزندهها کاهش پیدا نمیکند. شما میتوانید عددی را در مقابل این دستور تایپ کنید. این عدد نشان میدهد که رباتهای تعیین شده باید به آن مقدار ثانیه صبر کرده و سپس سایت را بخزند. البته توجه داشته باشید که این دستور برای رباتهای گوگل اثر ندارد.
دستور sitemap
در مقابل این دستور باید آدرس سایت مپ را وارد کنید. سایت مپ نیازی به دستور user-agent ندارد.
نحوه عملکرد فایل robots.txt
رباتهای گوگل به دو روش سایت ما را بررسی میکنند:
- از طریق لینکها
- از طریق فایل robots.txt
از طریق لینکها
بررسی سایتها توسط رباتهای گوگل از طریق لینک به این صورت است که رباتهای گوگل، لینکهای داخلی که در سایت قرار داده شده است را دنبال میکنند و با استفاده از آنها به تغییرات و صفحات جدیدِ سایت ما دسترسی پیدا میکنند؛ در نتیجه تصمیم میگیرند که صفحات جدید را ایندکس کنند یا خیر.
به عبارت دیگر، رباتهای گوگل ابتدا وارد وبسایتمان میشوند و از طریق لینکهایی که در صفحه اصلی و منوی سایت قرار دارند، به صفحات جدید دسترسی پیدا میکنند و اگر صفحات جدید نیز دارای لینکهای داخلی بودند، آنها را دنبال میکنند.
از طریق فایل robots.txt
در روش اول، رباتهای گوگل لینکها را دنبال میکردند؛ اما اگر شما در سایتتان از فایل robots.txt استفاده کرده باشید، رباتهای گوگل ابتدا به سراغ آن میروند و دستورات شما را میخوانند؛ به عبارت دیگر، شما با استفاده از فایل robots.txt امکان این را دارید که صفحاتی که میخواهید از طریق گوگل بررسی شوند را انتخاب کنید و رباتهای گوگل نیز با استفاده از این فایل، طبق دستورات شما سایت را کراول میکنند.
چرا باید از فایل robots.txt برای سایت خود استفاده کنیم؟
این فایل در برخی موارد میتواند خیلی به کار شما بیاید. برای مثال:
- در مواقعی که محتوای تکراری روی سایت داشته باشید، یکی از صفحات را disallow کنید.
- بخشی از سایت را در دسترس عموم قرار ندهید. برای مثال صفحه عقد قراردادها.
- مکان نقشه سایت را برای رباتهای گوگل با دستور allow مشخص کنید.
- اجازه ندهید رباتها برخی فایلهای روی سایتتان (مانند فایلهای PDF یا تصاویر) را ایندکس کرده و در فهرست نتایج نمایش دهند.
- برای رباتها یک زمان تأخیر در خزیدن تعریف کنید تا وقتی سایت شلوغ میشود، سرعت پایین نیاید.
اهمیت استفاده از فایل robots.txt
شما میتوانید با استفاده درست از فایل robots.txt، نحوه عملکرد سایت خودتان را بهبود ببخشید و این فایل میتواند برای شما بسیار مفید باشد. در این بخش به بررسی نکاتی میپردازیم که اهمیت استفاده از فایل robots.txt را برای شما شفاف میکنند.
جلوگیری از کنیبالیزیشن
گاهی اوقات پیش میآید که دو صفحه از سایت شما در صفحه نتایج گوگل رتبه میگیرند و در این صورت کاربر دو صفحه یکسان از وبسایت شما را مشاهده میکند؛ به این اتفاق کنیبالیزیشن میگویند که به هیچ وجه برای ترافیک سایت شما مفید نیست.
زمانی که این اتفاق رخ میدهد، شما میتوانید با استفاده از فایل robots.txt، صفحات تکراری در سایتتان را مشخص کنید و دستور ایندکس نشدنِ آنها را بدهید.
جلوگیری از ایندکس شدن فایلهای خاص در سایت شما
اگر شما در سایتتان فایلی دارید که نمیخواهید در نتایج جستجو در گوگل نشان داده شوند (PDF، عکس و ویدیو)، میتوانید به راحتی با دستور ایندکس نشدن از طریق فایل robots.txt، از نمایش آنها در گوگل جلوگیری کنید. این قابلیت میتواند برای سایتهایی که فایل و دورههای آموزشی میفروشند، بسیار مفید باشد.
جلوگیری از نمایش برخی از محتواهای سایت شما
برخی از محتواها در سایت شما وجود دارند که دوست ندارید تا در نتایج جستجوی گوگل به نمایش گذاشته شوند (درباره ما و تماس با ما). در این صورت میتوانید از طریق فایل robots.txt دستور ایندکس نشدنِ آنها را بدهید و از این کار جلوگیری کنید.
مدیریت ترافیک رباتها
اگر شما هیچ معیار مشخصی برای بازدید رباتها از صفحات سایتتان نداشته باشید، تعداد رباتهایی که برای کراول کردن به سایت شما سر میزنند، در مقایسه با وقتی که این معیار را دارید بیشتر است.
برخی از سرویسهای میزبانی؛ دارای محدودیت هستند و ممکن است به دلیلِ این موضوع بعضی از سایتها به مشکل بر بخوردند. شما میتوانید با استفاده از فایل robots.txt، ترافیک رباتهای گوگل را مدیریت کنید و مانع بروز اختلال در سرورِ میزبانی سایتتان شوید در نتیجه تاثیر بهتری در دیده شدن صفحات مهم شما دارد که ممکن است موجب ورود به گوگل دیسکاور نیز شود.
از ایندکس شدن چه صفحاتی باید جلوگیری شود؟
با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.
- صفحاتی که محتوای تکراری دارند (duplicate content)
- تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
- فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و … می شوند
- صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند (در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
- تمامی صفحات ادمین و پنل سایت
- صفحه پروفایل کاربران سایت
- صفحات چت
- برخی از فایل های قالب که نیازی به دیده شدن توسط گوگل ندارند
نکاتی درباره استفاده بهتر از فایل robots.txt
برای استفاده از این فایل اطمینان حاصل کنید که محتواها یا بخشهایی از سایتتان که میخواهید کراول و ایندکس شوند را مسدود نکردهاید.
پیشنهاد میشود که برای جلوگیری از محتواهای حساس از نمایش در نتایج جستجو، از فایل robots.txt استفاده نکنید؛ زیرا با استفاده از دستور Disallow در این فایل، تضمینی برای کراول و ایندکس نشدنِ محتوای انتخابی شما وجود ندارد و شما بهتر است برای این کار از دستور متنی Noindex استفاده کنید.
خیلی عالی👌