التحقق من أنّ مصدر طلبات الزحف هو برنامج Googlebot وبرامج الزحف الأخرى من Google
يمكنك التأكّد مما إذا كان زاحف الويب الذي يصل إلى خادمك هو زاحف من Google، مثل Googlebot. هذا الإجراء مفيد إذا كانت لديك شكوك بأنّ أصحاب الأسلوب غير المرغوب فيه أو غيرهم من مسبّبي المشاكل يصلون إلى موقعك الإلكتروني منتحلين صفة Googlebot.
تندرج برامج الزحف من Google ضمن ثلاث فئات:
النوع | الوصف | قناع نظام أسماء النطاقات العكسي | نطاقات عناوين IP |
---|---|---|---|
برامج الزحف الشائعة | هي برامج الزحف الشائعة المستخدمة في منتجات Google (مثل Googlebot)، وهي تمتثل دائمًا لقواعد robots.txt بشأن عمليات الزحف الآلية. |
crawl-***-***-***-***.googlebot.com أو
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
برامج الزحف في الحالات الخاصة | هي برامج الزحف التي تؤدي وظائف محدَّدة لمنتجات Google (مثل AdsBot)، إذا كانت هناك اتفاقية بشأن عملية الزحف بين الموقع الإلكتروني الذي يتم الزحف إليه والمنتج. قد تلتزم برامج الزحف هذه بقواعد ملف robots.txt أو لا تلتزم بها. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
برامج الجلب التي يشغّلها المستخدم |
هي الأدوات ووظائف المنتجات التي يشغّل فيها المستخدم النهائي عمليات جلب. على سبيل، تعالج أداة إثبات ملكية الموقع على Google طلب المستخدم. وتتجاهل برامج الجلب هذه قواعد robots.txt لأنّ المستخدم هو الذي طلب عملية الجلب. ترِد برامج الجلب التي يتحكّم فيها محرّك بحث Google من بروتوكولات الإنترنت (IP) في الهدف user-triggered-fetchers-google.json وتتحوّل إلى
اسم مضيف google.com . تتحوّل بروتوكولات الإنترنت (IP) في الهدف user-triggered-fetchers.json
إلى أسماء مضيفين gae.googleusercontent.com . يتم استخدام بروتوكولات الإنترنت (IP) هذه مثلاً
في حال كان موقع إلكتروني معيّن يستخدم خدمات Google Cloud (GCP) ويضمّ ميزة تتطلّب جلب خلاصات RSS خارجية بناءً على طلب مستخدم هذا الموقع الإلكتروني.
|
***-***-***-***.gae.googleusercontent.com أو
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json وuser-triggered-fetchers-google.json |
تتوفّر طريقتان للتأكد من أنّ برامج زحف Google هي مصدر طلبات الزحف:
- يدويًا: استخدِم أدوات سطر الأوامر لإجراء عمليات بحث لمرة واحدة. وتُعدّ هذه الطريقة كافية لمعظم حالات الاستخدام.
- تلقائيًا: لإجراء عمليات بحث على نطاق واسع، استخدِم حلاً تلقائيًا لمطابقة عنوان IP الخاص بالزاحف مع قائمة عناوين IP المنشورة لبرنامج Googlebot.
استخدام أدوات سطر الأوامر
-
شغِّل عملية "بحث نظام أسماء النطاقات العكسي" على عنوان IP المخصّص للوصول إلى موقعك الإلكتروني من خلال سجلّاتك، وذلك باستخدام
الأمر
host
. -
تأكَّد من أنّ اسم النطاق هو
googlebot.com
، أوgoogle.com
، أوgoogleusercontent.com
. -
شغِّل عملية "بحث نظام أسماء النطاقات" الأمامية على اسم النطاق الذي تم استرداده في الخطوة الأولى باستخدام الأمر
host
على اسم النطاق. - تحقَّق من أنّه مماثل لعنوان IP الأصلي المخصّص للوصول إلى موقعك الإلكتروني من خلال سجلّاتك.
المثال 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
المثال 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
المثال 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
استخدام الحلول التلقائية
يمكنك بدلاً من ذلك التأكّد من أنّ برنامج Googlebot هو مصدر طلبات الزحف استنادًا إلى عنوان IP، وذلك من خلال مطابقة عنوان IP للزاحف مع قائمة عناوين IP لبرامج الزحف وبرامج الجلب من Google:
- برامج الزحف الشائعة مثل Googlebot
- برامج الزحف الخاصة مثل AdsBot
- برامج الجلب التي يشغّلها المستخدم (في حالة المستخدمين)
- برامج الجلب التي يشغّلها المستخدم (في حالة Google)
بالنسبة إلى عناوين IP الأخرى التي قد يستخدمها محرّك بحث Google للوصول إلى موقعك الإلكتروني (على سبيل المثال، باستخدام برمجة تطبيقات Google)، يمكنك مطابقة عنوان IP المستخدَم للوصول إلى موقعك مع قائمة عناوين IP العامة التي تستخدمها Google. يُرجى العلم بأنّ عناوين IP في ملفات JSON تكون بتنسيق CIDR.