Googlebot 和 15 MB 限制

2022 年 6 月 28 日,星期二

在过去几天里,我们收到了大量关于最近更新的 Googlebot 文档的疑问。也就是说,我们记录到,Googlebot 在抓取某些文件类型时只“看到”前 15 兆字节 (MB) 的内容。此阈值并不新鲜,已经存在很多年了。我们之所以将其添加到文档中,是因为对于一些人来说,此阈值在调试时可能很有用,并且也很少会发生变化。

此限制仅适用于 Googlebot 发出的初始请求收到的字节(内容),而非网页中引用的资源。

例如,当您打开 https://example.com/puppies.html 时,浏览器最初会下载 HTML 文件的字节内容,然后可能会根据这些字节内容针对外部 JavaScript、图片或通过 HTML 中的网址引用的其他内容发出进一步的请求。Googlebot 也会执行相同的操作。

这 15 MB 的限制对我有什么影响?
很可能没什么不同。互联网上只有极少数的网页较大。您(尊敬的读者)不太可能拥有这样大的网页,因为 HTML 文件的中间值大小要小约 500 倍:30 千字节 (KB)。不过,如果您是大小超过 15 MB 的 HTML 网页的所有者,或许您至少需要将一些内嵌脚本和 CSS 灰尘迁移到外部文件。

超过 15 MB 的内容会怎样?
超过 15 MB 的内容会被 Googlebot 丢弃,只有前 15 MB 的内容才会编入索引。

哪些内容类型适用 15 MB 的限制?
15 MB 限制适用于 Googlebot 在提取 Google 搜索支持的文件类型时进行的抓取(Googlebot 智能手机版和 Googlebot 桌面版)。

这是否意味着 Googlebot 没有看到我的图片或视频?
否。Googlebot 会通过若干次连续抓取分别抓取在 HTML 中的网址(例如 <img src="https://example.com/images/puppy.jpg" alt="cute puppy looking very disappointed" />)内引用的视频和图片。

数据 URI 会增加 HTML 文件大小吗?
会。使用 data URIs 会增加 HTML 文件大小,因为它们包含在 HTML 文件中。

如何查找网页的大小?
您可以采用多种方法,但最简单的方法可能是使用您自己的浏览器及其开发者工具。照常加载该网页,然后启动开发者工具并切换到“网络”标签页。重新加载该网页,您应该会看到浏览器为呈现该网页而发出的所有请求。最顶部的请求就是您要查找的内容,“大小”列中会显示该网页的字节大小。

例如,Chrome 开发者工具中可能会显示如下内容,“大小”列中为 150 kB:

Chrome 开发者工具中的“网络”标签页

如果您喜欢尝试新鲜事物,可以从命令行使用 cURL

curl \
-A "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" \
-so /dev/null https://example.com/puppies.html -w '%{size_download}'

如果您有任何疑问,可以通过 Twitter搜索中心论坛联系我们;如果您需要关于我们的文档的更多说明,并向我们提供有关网页本身的反馈。