سئو و بهینه سازی

بودجه خزش Crawl Budget چیست + چگونه آن را بهینه کنیم؟

بودجه خزش (Crawl Budget) چیست؟

تعریف دقیق بودجه خزش عبارت است از تعداد صفحات سایت شما که گوگل در یک بازه زمانی مشخص خزش و ایندکس می‌کند. در توضیح این تعریف لازم است بدانید هرچقدر هم که گوگل بزرگ‌تر و قوی‌تر شود، بازهم منابع آن برای خزش صفحات سایت‌ها محدود است. هر روز نه ‌تنها هزاران صفحه به صفحات موجود در وب اضافه می‌شود بلکه هزاران سایت جدید هم متولد می‌شوند که هرکدام روزانه چندین صفحه به وب اضافه می‌کنند.

در این شرایط گوگل هم تلاش دارد تا جای ممکن صفحات بیشتری را ایندکس کند اما واقعا توان رسیدگی به همه آنها را ندارد. به همین دلیل اقدام به اولویت‌بندی سایت‌ها کرده و به هرکدام یک بودجه خزش اختصاص می‌دهد. در واقع با این بودجه خزش مشخص می‌شود که هر روز چند صفحه از یک سایت توسط ربات‌های گوگل خزش می‌شوند.

بودجه خزش سایت چگونه تعیین می‌شود؟

برای مشخص کردن بودجه کراول، گوگل به نکاتی درمورد سایت توجه می‌کند که این نکات را در ادامه آورده‌ایم.

منابع هاست (Crawl limit/ Host load)

هر خزنده زمانی که به سایت شما سر می‌زند، دائما به سرور هاست سایت درخواست ارسال می‌کند. اگر هاست به اندازه کافی قوی نباشد و تعداد این نوع درخواست‌ها نیز زیاد شود، ممکن است سایت از دسترس خارج شود و به اصطلاح Down شود! به همین دلیل زمانی که گوگل می‌خواهد بودجه خزش شما را تعیین کند، ابتدا به میزان منابع سایتتان دقت می‌کند و مطمئن می‌شود که هاست، گنجایش ظرفیت بالای خزش را دارد یا خیر؟

گوگل برای اینکه بفهمد هاست وبسایتتان چه ظرفیتی دارد، دو مسئله را بررسی می‌کند:

بررسی دفعاتی که هاست در زمان خزش ربات‌ها با مشکل روبرو شده است.
بررسی تعداد سایت‌های مستقر بر روی سرور اصلی

میزان فعالیت در سایت و تولید محتوا (Crawl Demand/ Crawl Scheduling)

مورد بعدی که گوگل با توجه به آن، بودجه کراول یک سایت را مشخص می‌کند، میزان فعالیت‌های صورت گرفته در سایت است. درواقع گوگل با توجه به فعالیت‌های یک سایت، می‌فهمد که سایت مورد نظر لایق چه میزانی از بودجه است.

هر وبسایتی با افزایش فعالیت خود می‌تواند تقاضای خزش بیشتری از گوگل داشته باشد. زمانی که این موتور جستجو، تلاش‌های یک وبسایت برای بهتر شدن را ببیند، به عنوان جایزه، بودجه خزش بیشتری را به آن اختصاص می‌دهد. گوگل با بررسی لینک‌های خروجی و داخلی، نوع دسته بندی صفحات و میزان تولید محتوا در یک بازه مشخص، بودجه را تعیین می‌کند.

راهکارهای افزایش بودجه خزش

چند تا نکته میگم که با رعایت کردنش میتونی بودجه‌ ی خزش رو افزایش بدی:

تعداد صفحات یتیم

به اختصار بهش OP هم میگن. صفحه یتیم یعنی صفحاتی که هیچ لینکی به اون ها داده نشده. سعی کنید صفحات یتیم سایت خود را به حداقل برسانید تا بودجه خزش سایت شما افزایش پیدا کنه.

به روز رسانی سایت

محتوای قبلی را به روز رسانی کنید. گوگل عاشق به روز رسانیه چرا؟ چون داری بهش نشون میدی من محتواهای قدیمی رو فراموش نکردم و دارم آپدیت میکنم. همین کار به ظاهر کوچیک هم بودجه رو بیشتر میکنه هم تو رتبه سایت تاثیر داره.

ارورهای سایت

حالا یا ارورهای 404 هست یا ارورهایی که توی سرچ کنسول میتونیم پیدا کنیم. هرچی ارورهای 404 سایت کمتر باشه به نفع سایت هستش. هر چقدر که گوگل عاشق به روز رسانیه از 404 متنفره؛ چون وقتی کاربر وارد سایت میشه و این ارور رو میبینه درواقع اعتبار گوگل زیر سؤال میره که چرا صفحه خالی نمایش میده. پس حتما حواستون به ارورها باشه.

سرعت سایت

می ‌تونیم به کمک gtmetrix عیب ها رو برطرف کنیم و سرعت سایت را بالا ببریم. هرچی سرعت لود شدن صفحه کمتر باشه، کاربر ناراضی تر میشه؛ رو رتبه بندی و بودجه خزش گوگل نیز تاثیر میذاره.

فایل robot.txt

این فایل در واقع حکم نقشه و راهنما داره اما نه برای کاربر بلکه برای ربات های گوگل. در کل این فایل به ربات ها میگه کجاها خزش کنن و سمت چه قسمت هایی نره.

دلایل هدر رفت بودجه خزش سایت

احتمالا تاکنون متوجه شده‌اید که اگر سایت شما سرعت پایینی داشته باشد، بودجه خزش آن هدر می‌رود، چراکه در یک زمان مشخص، صفحات کمتری قابل خزش هستند. اما علاوه بر سرعت، وجود صفحات متعدد بی‌فایده در سایت هم می‌تواند بودجه خزش را هدر دهد. در ادامه لیستی از مواردی که بودجه خزش را هدر می‌دهند، مرور می‌کنیم:

  1. اگر سایت شما هنگام جستجو، برای هر فیلتر جستجو یک آدرس جدید اختصاص می‌دهد، این کار بودجه خزش را هدر می‌دهد.
  2. صفحاتی با محتوای یکسان و تکراری همواره در حال تلف‌ کردن بودجه خزش هستند.
  3. صفحاتی که محتوای بی‌ارزش دارند، تنها بودجه خزش را مصرف می‌کنند اما رتبه‌ای در نتایج جستجوی گوگل نمی‌گیرند.
  4. لینک‌های شکسته و ریدایرکت‌ها باعث می‌شوند ربات‌های گوگل گمراه شوند و زمانی که به سایت شما اختصاص داده شده، هدر رود.
  5. وجود صفحات غیرقابل ‌ایندکس در فایل sitemap نتیجه‌ای جز هدر دادن بودجه خزش نخواهد داشت. مراقب آن باشید.
  6. اگر زمان زیادی برای بارگیری صفحات سایت نیاز باشد، وقت ربات‌های گوگل و بودجه خزش سایت شما هدر می‌رود.
  7. ساختار لینکسازی داخلی ضعیف می‌تواند ربات‌های گوگل را از برخی صفحات منحرف کند.

گزارش Crawl stats در سرچ کنسول

برای فهمیدن میزان خزش ربات ها باید سایت رو به سرچ کنسول وصل کنید. زمانی که سایت تون رو به سرچ کنسول گوگل متصل کنید از قسمت Setting گزینه Crawl stats رو می بینید گزینه Open report رو بزنید تا گزارش کامل بودجه بندی رو ببینید.

این گزارش شامل نمودارها و بلوک های مختلف هست که هرکدوم رو جداگانه بررسی میکنیم.

نمودار total crawl requests

این نمودار در واقع تعداد کل ریکوست های بات گوگل رو به ما نشون میده که شامل ریکوست هایی است که با پاسخ موفق و ناموفق مواجه شدند.

این بخش فقط منحصر به صفحات HTML نیست و تعداد درخواست ‌های منابع صفحه مانند فایل ‌های CSS هم شامل میشه.

نمودار بعدی total download size

مربوط به حجم بایت هایی که با crawl شدن صفحه ها هرروز دانلود میشن رو نشون میده. اگه Cache برای منابع فعال باشد فقط در اولین مرتبه درخواست حجم اونا محاسبه میشه.

نمودار average response time

مدت زمان میانگینی که به درخواست بات گوگل پاسخ داده شده رو نمایش میده.

Host status

در پایین نمودار، بخش مربوط به Host status رو بررسی میکنیم. این بخش وضعیت پاسخ ‌دهی سروری که شما خریداری کردید در برابر درخواست‌ های بات گوگل رو مشخص می‌ کنه.

by response

بعد اون 2 بلوک رو می بینید. بلوک اول بلوک by response هست که در این بلوک انواع پاسخ ‌هایی که به درخواست ‌های crawl داده شده رو نمایش میده. با کلیک کردن روی هر کدوم از اینا می‌تونیم جزییاتشو ببینیم.

گزینه 200 یعنی ربات ها در برخورد با این صفحات مشکلی نداشتن و به راحتی خزش انجام شده. اگه صفحه‌ ای رو ریدایرکت 301 کرده باشیم همچنین پاسخی به ما میده. در مواردی که برخی از صفحات رو حذف کرده باشیم پاسخ 404 رو نشان میده. اگر صفحه‌ ی شما از زمان آخرین خزش تغییری نکرده باشه شما در مقابل اون پاسخ 304 رو مشاهده می‌ کنید.

by file type

بلوک بعدی بلوک by file type هست. اینجا انواع فایل‌هایی که توسط خزنده ‌های گوگل ایندکس شده رو می‌تونید مشاهده کنید. مثلا فایل ‌های HTML، CSS، جاوا اسکریپ و فایل ‌های دیگه تو این بخش قرار میگیرن.

by purpose

این بلوک شامل دو بخش Refresh و Discovery میشه. URL هایی که واسه اولین بار شناسایی و کرال میشن در بخش Refresh قرار می‌ گیرن و URLهایی که قبلا شناسایی شدن در بخش Discovery. روی هرکدوم که کلیک کنید جزئیات اون URL ها رو می بینید.

by Googlebot type

همونطور که میدونید گوگل برای اهداف مختلف میاد از بات های مختلفی استفاده میکنه و هر کدوم رفتارهای مختص به خودشون دارن. که انواع رباتها رو اینجا گوگل به شما نشون میده.

براتون مفید بود؟

میانگین امتیاز 0 / 5. تعداد آرا 0

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *