بودجه خزش (Crawl Budget) چیست؟
تعریف دقیق بودجه خزش عبارت است از تعداد صفحات سایت شما که گوگل در یک بازه زمانی مشخص خزش و ایندکس میکند. در توضیح این تعریف لازم است بدانید هرچقدر هم که گوگل بزرگتر و قویتر شود، بازهم منابع آن برای خزش صفحات سایتها محدود است. هر روز نه تنها هزاران صفحه به صفحات موجود در وب اضافه میشود بلکه هزاران سایت جدید هم متولد میشوند که هرکدام روزانه چندین صفحه به وب اضافه میکنند.
در این شرایط گوگل هم تلاش دارد تا جای ممکن صفحات بیشتری را ایندکس کند اما واقعا توان رسیدگی به همه آنها را ندارد. به همین دلیل اقدام به اولویتبندی سایتها کرده و به هرکدام یک بودجه خزش اختصاص میدهد. در واقع با این بودجه خزش مشخص میشود که هر روز چند صفحه از یک سایت توسط رباتهای گوگل خزش میشوند.
بودجه خزش سایت چگونه تعیین میشود؟
برای مشخص کردن بودجه کراول، گوگل به نکاتی درمورد سایت توجه میکند که این نکات را در ادامه آوردهایم.
منابع هاست (Crawl limit/ Host load)
هر خزنده زمانی که به سایت شما سر میزند، دائما به سرور هاست سایت درخواست ارسال میکند. اگر هاست به اندازه کافی قوی نباشد و تعداد این نوع درخواستها نیز زیاد شود، ممکن است سایت از دسترس خارج شود و به اصطلاح Down شود! به همین دلیل زمانی که گوگل میخواهد بودجه خزش شما را تعیین کند، ابتدا به میزان منابع سایتتان دقت میکند و مطمئن میشود که هاست، گنجایش ظرفیت بالای خزش را دارد یا خیر؟
گوگل برای اینکه بفهمد هاست وبسایتتان چه ظرفیتی دارد، دو مسئله را بررسی میکند:
بررسی دفعاتی که هاست در زمان خزش رباتها با مشکل روبرو شده است.
بررسی تعداد سایتهای مستقر بر روی سرور اصلی
میزان فعالیت در سایت و تولید محتوا (Crawl Demand/ Crawl Scheduling)
مورد بعدی که گوگل با توجه به آن، بودجه کراول یک سایت را مشخص میکند، میزان فعالیتهای صورت گرفته در سایت است. درواقع گوگل با توجه به فعالیتهای یک سایت، میفهمد که سایت مورد نظر لایق چه میزانی از بودجه است.
هر وبسایتی با افزایش فعالیت خود میتواند تقاضای خزش بیشتری از گوگل داشته باشد. زمانی که این موتور جستجو، تلاشهای یک وبسایت برای بهتر شدن را ببیند، به عنوان جایزه، بودجه خزش بیشتری را به آن اختصاص میدهد. گوگل با بررسی لینکهای خروجی و داخلی، نوع دسته بندی صفحات و میزان تولید محتوا در یک بازه مشخص، بودجه را تعیین میکند.
راهکارهای افزایش بودجه خزش
چند تا نکته میگم که با رعایت کردنش میتونی بودجه ی خزش رو افزایش بدی:
تعداد صفحات یتیم
به اختصار بهش OP هم میگن. صفحه یتیم یعنی صفحاتی که هیچ لینکی به اون ها داده نشده. سعی کنید صفحات یتیم سایت خود را به حداقل برسانید تا بودجه خزش سایت شما افزایش پیدا کنه.
به روز رسانی سایت
محتوای قبلی را به روز رسانی کنید. گوگل عاشق به روز رسانیه چرا؟ چون داری بهش نشون میدی من محتواهای قدیمی رو فراموش نکردم و دارم آپدیت میکنم. همین کار به ظاهر کوچیک هم بودجه رو بیشتر میکنه هم تو رتبه سایت تاثیر داره.
ارورهای سایت
حالا یا ارورهای 404 هست یا ارورهایی که توی سرچ کنسول میتونیم پیدا کنیم. هرچی ارورهای 404 سایت کمتر باشه به نفع سایت هستش. هر چقدر که گوگل عاشق به روز رسانیه از 404 متنفره؛ چون وقتی کاربر وارد سایت میشه و این ارور رو میبینه درواقع اعتبار گوگل زیر سؤال میره که چرا صفحه خالی نمایش میده. پس حتما حواستون به ارورها باشه.
سرعت سایت
می تونیم به کمک gtmetrix عیب ها رو برطرف کنیم و سرعت سایت را بالا ببریم. هرچی سرعت لود شدن صفحه کمتر باشه، کاربر ناراضی تر میشه؛ رو رتبه بندی و بودجه خزش گوگل نیز تاثیر میذاره.
فایل robot.txt
این فایل در واقع حکم نقشه و راهنما داره اما نه برای کاربر بلکه برای ربات های گوگل. در کل این فایل به ربات ها میگه کجاها خزش کنن و سمت چه قسمت هایی نره.
دلایل هدر رفت بودجه خزش سایت
احتمالا تاکنون متوجه شدهاید که اگر سایت شما سرعت پایینی داشته باشد، بودجه خزش آن هدر میرود، چراکه در یک زمان مشخص، صفحات کمتری قابل خزش هستند. اما علاوه بر سرعت، وجود صفحات متعدد بیفایده در سایت هم میتواند بودجه خزش را هدر دهد. در ادامه لیستی از مواردی که بودجه خزش را هدر میدهند، مرور میکنیم:
- اگر سایت شما هنگام جستجو، برای هر فیلتر جستجو یک آدرس جدید اختصاص میدهد، این کار بودجه خزش را هدر میدهد.
- صفحاتی با محتوای یکسان و تکراری همواره در حال تلف کردن بودجه خزش هستند.
- صفحاتی که محتوای بیارزش دارند، تنها بودجه خزش را مصرف میکنند اما رتبهای در نتایج جستجوی گوگل نمیگیرند.
- لینکهای شکسته و ریدایرکتها باعث میشوند رباتهای گوگل گمراه شوند و زمانی که به سایت شما اختصاص داده شده، هدر رود.
- وجود صفحات غیرقابل ایندکس در فایل sitemap نتیجهای جز هدر دادن بودجه خزش نخواهد داشت. مراقب آن باشید.
- اگر زمان زیادی برای بارگیری صفحات سایت نیاز باشد، وقت رباتهای گوگل و بودجه خزش سایت شما هدر میرود.
- ساختار لینکسازی داخلی ضعیف میتواند رباتهای گوگل را از برخی صفحات منحرف کند.
گزارش Crawl stats در سرچ کنسول
برای فهمیدن میزان خزش ربات ها باید سایت رو به سرچ کنسول وصل کنید. زمانی که سایت تون رو به سرچ کنسول گوگل متصل کنید از قسمت Setting گزینه Crawl stats رو می بینید گزینه Open report رو بزنید تا گزارش کامل بودجه بندی رو ببینید.
این گزارش شامل نمودارها و بلوک های مختلف هست که هرکدوم رو جداگانه بررسی میکنیم.
نمودار total crawl requests
این نمودار در واقع تعداد کل ریکوست های بات گوگل رو به ما نشون میده که شامل ریکوست هایی است که با پاسخ موفق و ناموفق مواجه شدند.
این بخش فقط منحصر به صفحات HTML نیست و تعداد درخواست های منابع صفحه مانند فایل های CSS هم شامل میشه.
نمودار بعدی total download size
مربوط به حجم بایت هایی که با crawl شدن صفحه ها هرروز دانلود میشن رو نشون میده. اگه Cache برای منابع فعال باشد فقط در اولین مرتبه درخواست حجم اونا محاسبه میشه.
نمودار average response time
مدت زمان میانگینی که به درخواست بات گوگل پاسخ داده شده رو نمایش میده.
Host status
در پایین نمودار، بخش مربوط به Host status رو بررسی میکنیم. این بخش وضعیت پاسخ دهی سروری که شما خریداری کردید در برابر درخواست های بات گوگل رو مشخص می کنه.
by response
بعد اون 2 بلوک رو می بینید. بلوک اول بلوک by response هست که در این بلوک انواع پاسخ هایی که به درخواست های crawl داده شده رو نمایش میده. با کلیک کردن روی هر کدوم از اینا میتونیم جزییاتشو ببینیم.
گزینه 200 یعنی ربات ها در برخورد با این صفحات مشکلی نداشتن و به راحتی خزش انجام شده. اگه صفحه ای رو ریدایرکت 301 کرده باشیم همچنین پاسخی به ما میده. در مواردی که برخی از صفحات رو حذف کرده باشیم پاسخ 404 رو نشان میده. اگر صفحه ی شما از زمان آخرین خزش تغییری نکرده باشه شما در مقابل اون پاسخ 304 رو مشاهده می کنید.
by file type
بلوک بعدی بلوک by file type هست. اینجا انواع فایلهایی که توسط خزنده های گوگل ایندکس شده رو میتونید مشاهده کنید. مثلا فایل های HTML، CSS، جاوا اسکریپ و فایل های دیگه تو این بخش قرار میگیرن.
by purpose
این بلوک شامل دو بخش Refresh و Discovery میشه. URL هایی که واسه اولین بار شناسایی و کرال میشن در بخش Refresh قرار می گیرن و URLهایی که قبلا شناسایی شدن در بخش Discovery. روی هرکدوم که کلیک کنید جزئیات اون URL ها رو می بینید.
by Googlebot type
همونطور که میدونید گوگل برای اهداف مختلف میاد از بات های مختلفی استفاده میکنه و هر کدوم رفتارهای مختص به خودشون دارن. که انواع رباتها رو اینجا گوگل به شما نشون میده.