Googlebot
Googlebot هو الاسم العام لنوعَين من برامج زحف الويب التي يستخدمها محرّك بحث Google.
- Googlebot للهواتف الذكية: يحاكي هذا الزاحف مستخدمًا على جهاز جوّال.
- Googlebot لأجهزة الكمبيوتر المكتبي: يحاكي هذا الزاحف مستخدمًا على جهاز كمبيوتر مكتبي.
يمكنك التعرّف على النوع الفرعي لبرنامج Googlebot من خلال الاطّلاع على عنوان طلب HTTP الخاص بالسمة user-agent
في الطلب، إلا أنّ كِلا نوعَي الزاحف يستجيبان للرمز المميز نفسه للمنتج (الرمز المميز لوكيل المستخدم) في
ملف robots.txt، وبالتالي لا يمكنك أن تستهدف بشكل انتقائي "Googlebot للهواتف الذكية" أو "Googlebot
للكمبيوتر المكتبي" باستخدام ملف robots.txt.
بالنسبة إلى معظم المواقع الإلكترونية، يفهرس محرّك بحث Google في المقام الأول نسخة المحتوى المخصَّصة للأجهزة الجوّالة. وبالتالي، يتم تنفيذ غالبية طلبات زحف Googlebot باستخدام الزاحف المخصص للأجهزة الجوّالة، ومجموعة قليلة من طلبات الزحف باستخدام الزاحف المخصص للكمبيوتر المكتبي.
كيفية وصول Googlebot إلى موقعك الإلكتروني
بالنسبة إلى معظم المواقع الإلكترونية، من المفترَض ألا يزحف برنامج Googlebot إلى الموقع الإلكتروني أكثر من مرة واحدة كل بضع ثوانٍ في المتوسط، إلا أنّه من المحتمل أن يظهر المعدّل مرتفعًا بعض الشيء على مدى فترات زمنية قصيرة نتيجةً لحدوث تأخيرات. وإذا كان موقعك الإلكتروني يواجه صعوبة في الاستجابة لطلبات الزحف من Google، يمكنك خفض معدّل الزحف.
يمكن لبرنامج Googlebot الزحف إلى أول 15 ميغابايت من ملف HTML أو ملف نصي متوافق. يتم استرجاع كل مورد تتم الإشارة إليه في ملف HTML، مثل CSS وJavaScript، بشكل منفصل ويتم تطبيق الحد المسموح به نفسه لحجم الملف على كل عملية استرجاع. بعد الزحف إلى أول 15 ميغابايت من الملف، يتوقف Googlebot عن الزحف ويرسل فقط هذا الجزء من المحتوى ليتم أخذه في الاعتبار أثناء الفهرسة. يتم تطبيق الحدّ المسموح به لحجم الملف على البيانات غير المضغوطة. وقد يتم تطبيق حدود مختلفة لبرامج الزحف الأخرى من Google، مثل Googlebot للفيديوهات وGooglebot للصور.
عند الزحف من عناوين IP في الولايات المتحدة، تكون المنطقة الزمنية لبرنامج Googlebot هي توقيت المحيط الهادئ.
يتم وصف السمات الفنية الأخرى لبرنامج Googlebot في نظرة عامة على برامج الزحف من Google.
منع برنامج Googlebot من زيارة موقعك الإلكتروني
يكتشف برنامج Googlebot عناوين URL الجديدة للزحف إليها في المقام الأول من الروابط المضمَّنة في الصفحات التي تم الزحف إليها في السابق. يستحيل تقريبًا إبقاء أحد المواقع الإلكترونية سريًا من خلال عدم نشر روابط تؤدي إليه. على سبيل المثال، عندما يتتبّع مستخدم رابطًا من موقعك الإلكتروني "السري" إلى موقع إلكتروني آخر، قد يظهر عنوان URL للموقع الإلكتروني "السري" في علامة المُحيل وقد يحفظه الموقع الإلكتروني الآخر وينشره في سجل المُحيل الخاص به.
تتوفّر خيارات متعددة لمنع Googlebot من الزحف إلى محتوى على موقعك الإلكتروني. تجدر الإشارة إلى أنّ هناك فرقًا بين الزحف والفهرسة، وبالتالي، لا يؤدي منع Googlebot من الزحف إلى صفحة معيَّنة إلى منع ظهور عنوان URL للصفحة في نتائج البحث:
- هل يهمّك منع Googlebot من الزحف إلى إحدى الصفحات؟ يمكنك استخدام ملف robots.txt.
-
هل يهمّك منع Google من فهرسة إحدى الصفحات؟ يمكنك استخدام
noindex
. - هل يهمّك منع برامج الزحف والمستخدمين من الوصول إلى إحدى الصفحات؟ يمكنك استخدام طريقة أخرى، مثل الحماية بكلمة مرور.
عند حظر برنامج Googlebot، يتأثّر "بحث Google" (بما في ذلك ميزة "اقتراحات" وجميع ميزات "بحث Google")، بالإضافة إلى منتجات أخرى مثل "صور بحث Google" والفيديوهات على Google و"أخبار Google".
التحقق من أنّ مصدر الطلبات هو برنامج Googlebot
قبل أن تقرّر حظر Googlebot، يُرجى العلم بأنّه غالبًا ما تنتحل
برامج زحف أخرى هوية عنوان طلب HTTP الخاص بالسمة user-agent
والذي يستخدمه Googlebot. ومن المهم التحقق من أنّ الطلب الذي حدثت فيه المشكلة
صادر من Google. وأفضل طريقة للتحقق من أنّ الطلب صادر من
Googlebot هي
استخدام بحث نظام أسماء النطاقات العكسي
على عنوان IP المصدر للطلب أو مطابقة عنوان IP المصدر مع
نطاقات عناوين IP التي يستخدمها Googlebot.