Web crawler ( عنکبوت وب یا ربات وب ) به برنامه یا اسکریپتی می گویند که world wide web را به صورت اتوماتیک مورد بازدید قرار داده و اطلاعات آن را پردازش می کنند
Web crawler ( عنکبوت وب یا ربات وب ) به برنامه یا اسکریپتی می گویند که world wide web را به صورت اتوماتیک مورد بازدید قرار داده و اطلاعات آن را پردازش می کنند.
ربات وب، لینک سایت ها را طبق یک الگوریتم خاص بررسی می کنند و محتوای سایت ها را برای ذخیره کردن در پایگاه داده موتورهای جستجو ایندکس می کنند تا اطلاعات موتورهای جستجو در مورد محتوای سایت ها همیشه به روز باشد. این کار به صورت روزانه توسط ربات ها انجام می شود. به این پروسه crawl کردن یا خزیدن در صفحات وب می گویند.
بات های جستجوگر
بعد از ایندکس کردن لینک های سایت ها ربات وب باید مجددا از این لینک ها بازدید کند و اطلاعاتش را به روز کند. که این به روز کردن برای همه سایت ها یک شکل نیست. و به عوامل مختلفی بستگی دارد.
تعداد صفحاتی است که گوگل در روز از سایت شما crawl (خزیدن در بین صفحات سایت برای گردآوری اطلاعات سایت و به روز نگه داشتن اطلاعات موتورهای جستجو) می کند را crawl budget می گویند. تعداد این صفحات در هر روز فرق می کند اما در کل مقدار ثابتی است. تعداد صفحاتی که گوگل از سایت شما crawl می کند به سایز سایت شما و تعداد ارورهایی که گوگل در سایت شما به آن برخورد می کند و همچنین به تعداد لینک هایی که به سایت شما داده شده است وابسته است.
گوگل همیشه سایت را فورا crawl نمی کند. در واقع گاهی هفته ها طول می کشد. به سئو سایت شما بستگی دارد که هرچند وقت یکبار این اتفاق بیفتد.
گاهی ممکن است 6 صفحه جستجو کند، گاهی 5000 صفحه و گاهی حتی به 4000000 صفحه در روز نیز می رسد. این خزیدن در بین صفحات به عوامل مختلفی بستگی دارد.
crawler چطور کار می کند؟
یک crawler مانند گوگل بات (googlebot) لیستی از URL ها را از یک سایت می گیرد تا crawl کند. این لیست را به لیست ابتدایی اضافه می کند. وقتی ,URL یکبار crawl می شود و محتوای آن گردآوری می شود لینک هایی که در آن صفحه هست به لیست لینک هایی که باید جستجو شوند اضافه می شود.
چندین دلیل برای اینکه به گوگل احساس کند باید یک لینک را crawl کند وجود دارد.
راهی برای لیست کردن این دلایل وجود ندارد ولی هرزمان که دلیلی پیدا شود حتما لینک را به لیست اضافه می کند.
Crawl budget مشکلاتی نیز ممکن است داشته باشد. فرض کنید سایت شما 250000 صفحه داشته باشد اگر در هر روز 2500 صفحه crawl کند از آنجا که بعضی صفحه ها را بیشتر جستجو می کند تقریبا 200روز طول می کشد کل سایت crawl شود. اینجاست که دردسر ساز می شود. اگر به عنوان مثال 50000 در روز کرول میکرد مشکلی نبود.
برای اینکه ببینید آیا سایت شما مشکل crawl budget دارد یا نه مراحل زیر را دنبال کنید.
1.بررسی کنید که چند صفحه در سایت خود دارید.
2.به google search console بروید.
3.به قسمت crawl->crawl stats و ببینید در هر روز تقریبا چند صفحه crawl می شود.
4.تعدا صفحات سایت را به متوسط صفحات کرول شده در هر روز تقسیم کنید
5.اگر با عددی بزرگتر از 10 رو به رو شدید باید crawl budget خود را بهینه سازی کنید.
برای اینکه crawl budget سایت خود را افزایش دهید چندین روش وجود دارد:
-اولین قدم برای این کار اطمینان یافتن از این است که صفحاتی که crawl می شوند یکی از دو کد 200 یا 301 را برمیگردانند. بقیه کدها قابل قبول نیست.
-قسمتی از سایت خود را که نیاز به گوگل کردن ندارد را بلاک کنید.
-باید خیلی بیشتر به شما لینک بدهند. این کار در عمل ساده نیست. دیگران باید اطلاع داشته باشند که سایت شما ارزش لینک دادن دارد تا مخاطبانشان را به سایت شما هدایت کنند.