Googlebot

‫Googlebot هو الاسم العام لنوعَين من برامج زحف الويب التي يستخدمها محرّك بحث Google.

‫Googlebot للهواتف الذكية: يحاكي هذا الزاحف مستخدمًا على جهاز جوّال.
‫Googlebot للكمبيوتر المكتبي: يحاكي هذا الزاحف مستخدمًا على جهاز كمبيوتر مكتبي.

يمكنك التعرّف على النوع الفرعي لبرنامج Googlebot من خلال الاطّلاع على عنوان طلب HTTP الخاص بالسمة user-agent في الطلب، إلا أنّ كِلا نوعَي الزاحف يستجيبان للرمز المميز نفسه للمنتج (الرمز المميز لوكيل المستخدم) في ملف robots.txt، وبالتالي لا يمكنك أن تستهدف بشكل انتقائي "Googlebot للهواتف الذكية" أو "Googlebot للكمبيوتر المكتبي" باستخدام ملف robots.txt.

بالنسبة إلى معظم المواقع الإلكترونية، يفهرس محرّك بحث Google في المقام الأول نسخة المحتوى المخصَّصة للأجهزة الجوّالة. وبالتالي، يتم تنفيذ غالبية طلبات زحف Googlebot باستخدام الزاحف المخصص للأجهزة الجوّالة، ومجموعة قليلة من طلبات الزحف باستخدام الزاحف المخصص لأجهزة الكمبيوتر المكتبي.

كيفية وصول Googlebot إلى موقعك الإلكتروني

بالنسبة إلى معظم المواقع الإلكترونية، من المفترَض ألا يزحف برنامج Googlebot إلى الموقع الإلكتروني أكثر من مرة واحدة كل بضع ثوانٍ في المتوسط، إلا أنّه من المحتمل أن يظهر المعدّل مرتفعًا بعض الشيء على مدى فترات زمنية قصيرة نتيجةً لحدوث تأخيرات. إذا كان موقعك الإلكتروني يواجه صعوبة في الاستجابة لطلبات الزحف من Google، يمكنك خفض معدّل الزحف.

عند الزحف إلى المحتوى بغرض عرضه على "بحث Google"، يزحف Googlebot إلى أول 2 ميغابايت من نوع ملف متوافق، وإلى أول 64 ميغابايت من ملف PDF. من منظور العرض، يتم جلب كل مورد تتم الإشارة إليه في ملف HTML (مثل CSS وJavaScript) بشكل منفصل، ويتم تطبيق الحد المسموح به نفسه لحجم الملف على كل عملية جلب للموارد، كما هو الحال مع الملفات الأخرى (باستثناء ملفات PDF).
بعد الوصول إلى الحدّ الأقصى، يتوقف Googlebot عن جلب الملف ويرسل فقط الجزء الذي تم تنزيله ليتم أخذه في الاعتبار أثناء الفهرسة. يتم تطبيق الحدّ المسموح به لحجم الملف على البيانات غير المضغوطة. وقد تطبّق برامج الزحف الأخرى من Google حدودًا مختلفة، مثل "Googlebot للفيديوهات" و"Googlebot للصور".

عند الزحف من عناوين IP في الولايات المتحدة، تكون المنطقة الزمنية لبرنامج Googlebot هي توقيت المحيط الهادئ.

يتم وصف السمات الفنية الأخرى لبرنامج Googlebot في نظرة عامة على برامج الزحف من Google.

منع برنامج Googlebot من زيارة موقعك الإلكتروني

يكتشف برنامج Googlebot عناوين URL الجديدة للزحف إليها في المقام الأول من الروابط المضمَّنة في الصفحات التي تم الزحف إليها في السابق. يستحيل تقريبًا إبقاء أحد المواقع الإلكترونية سريًا من خلال عدم نشر روابط تؤدي إليه. على سبيل المثال، عندما ينقر مستخدم على رابط من موقعك الإلكتروني "السري" لينتقل إلى موقع إلكتروني آخر، قد يظهر عنوان URL للموقع الإلكتروني "السري" في علامة المُحيل وقد يحفظه الموقع الإلكتروني الآخر وينشره في سجل المُحيل الخاص به.

تتوفّر خيارات متعددة لمنع Googlebot من الزحف إلى محتوى على موقعك الإلكتروني. تجدر الإشارة إلى أنّ هناك فرقًا بين الزحف والفهرسة، وبالتالي، لا يؤدي منع Googlebot من الزحف إلى صفحة معيَّنة إلى منع ظهور عنوان URL للصفحة في نتائج البحث:

هل يهمّك منع Googlebot من الزحف إلى إحدى الصفحات؟ استخدِم ملف robots.txt.
هل يهمّك منع Google من فهرسة إحدى الصفحات؟ استخدِم noindex.
هل يهمّك منع وصول كلّ من برامج الزحف والمستخدمين إلى إحدى الصفحات؟ استخدِم طريقة أخرى، مثل الحماية بكلمة مرور.

عند حظر برنامج Googlebot، يتأثّر "بحث Google" (بما في ذلك ميزة "اقتراحات" وجميع ميزات "بحث Google")، بالإضافة إلى منتجات أخرى مثل "صور بحث Google" والفيديوهات على Google و"أخبار Google".

التحقق من أنّ مصدر الطلبات هو برنامج Googlebot

قبل أن تقرّر حظر Googlebot، يُرجى العلم بأنّه غالبًا ما تنتحل برامج زحف أخرى هوية عنوان طلب HTTP الخاص بالسمة user-agent والذي يستخدمه Googlebot. ومن المهم التحقق من أنّ الطلب الذي حدثت فيه المشكلة صادر من Google. وأفضل طريقة للتحقق من أنّ الطلب صادر من Googlebot هي استخدام بحث نظام أسماء النطاقات العكسي على عنوان IP المصدر للطلب أو مطابقة عنوان IP المصدر مع نطاقات عناوين IP التي يستخدمها Googlebot.