Google 用户触发的抓取工具列表 bookmark_border 用户触发的抓取工具由用户启动,以在 Google 产品中执行抓取功能。例如,Google 网站验证工具会根据用户的请求执行操作,或者 Google Cloud (GCP) 上托管的网站具有允许网站用户检索外部 RSS Feed 的功能。由于是用户请求的抓取,因此这些抓取工具通常会忽略 robots.txt 规则。Google 抓取工具的常规技术属性也适用于用户触发……更多
2026年02月17日
如果在被抓取的网站与产品之间就抓取过程达成协议,特定 Google 产品就会使用特殊爬虫。例如,AdsBot 会在广告发布商许可的情况下忽略全局 robots.txt 用户代理 (*)。Google 抓取工具的常规技术属性也适用于特殊爬虫。 特殊情况下的抓取工具可能会忽略 robots.txt 规则,因此使用的 IP 范围不同于常见抓取工具。这些 IP 范围发布在 special-crawlers.json 对象中。 特殊爬虫……更多
2026年02月17日
Google 常用抓取工具列表 bookmark_border Google 的常用抓取工具用于查找信息,以便构建 Google 搜索索引、执行其他产品特定抓取以及进行分析。在自动抓取时,它们始终会遵循 robots.txt 规则。Google 抓取工具的常规技术属性也适用于常用抓取工具。 常用抓取工具通常会从 googlebot.json 对象中发布的 IP 范围进行抓取,并且其主机名的反向 DNS 掩码与 crawl-***-***-***-*……更多
2026年02月17日
本文介绍了不同的 HTTP 状态代码、网络连接错误和 DNS 错误对 Google 搜索有何影响。我们在本文中介绍了 Googlebot 在网络上最常遇到的 20 个状态代码,以及最突出的网络连接错误和 DNS 错误,但未介绍一些较奇特的状态代码,例如 418 (I'm a teapot)。本文中提及的所有问题都会在 Search Console 的“网页索引编制”报告中生成相应的错误或警告。 除非另有说明,否则受支持协……更多
2026年02月17日
本指南介绍了如何优化 Google 对频繁更新的超大型网站的抓取。 如果您的网站中没有大量经常更新的网页,或者您的网页一般在发布当日就被抓取,那么您无需阅读本指南;只需及时更新站点地图并定期检查索引涵盖范围即可。 如果您的内容已发布一段时间,但从未被编入索引,这便是另外一个问题了;请改用网址检查工具以查明网页未编入索引的原因。 本指南的适用对象 这是一个高级……更多
2026年02月17日
分面导航是网站的常见功能,可让访问者更改内容(例如产品、文章或活动)在网页上的显示方式。这是一种常用且实用的功能,但其最常见的实现方式(基于网址参数)可能会生成无限的网址空间,并通过以下几种方式损害网站: 过度抓取:由于为分面导航创建的网址似乎是新创建的,并且抓取工具无法在先抓取网址之前确定这些网址是否有用,因此抓取工具通常会在确定这些网址实际上……更多
2026年02月17日