如何使用 rel=”canonical” 及其他方法指定规范网址 若要向 Google 搜索指定重复网页或非常相似网页的规范网址,您可以使用多种方法指明您更愿意使用哪个网址。这些方法按照其对规范化的影响程度排列如下: 重定向:强信号,表明重定向的目标应成为规范网址。 rel=”canonical” link 注释:强信号,表明所指定的网址应成为规范网址。 站点地图包含:弱信号,有助于站点地图中包含的网址成为规范网址。 请注意,这些方法可以叠加,因此组合使用会更有效。 这意味着,如果您使用两种或更多种方法,将会增加您的首选规范网址出现在搜索结果中的几率。 虽然我们建议您使用这些方法,但并非硬性要求;即使您不指定首选规范网址,您的网站或许也能表现不错。这是因为,如果您没有指定规范网址,Google 会客观地确定哪个版本的网址最适合在 Google 搜索中向用户显示。 如果您使用了 WordPress、Wix 或 Blogger 等 CMS,可能无法直接修改 HTML。实际上,您的 CMS 可能具有搜索引擎设置页面或其他某种机制,能够将规范网址告知搜索引擎。不妨在 CMS 上搜索有关如何修改网页 <head> 的说明(例如,搜索“wordpress set the canonical element”)。 指定规范网址的原因 虽然指定首选规范网址通常并不重要,但您还是会出于各种原因希望将一组重复或类似网页中的规范网页明确告知 Google: 指定您希望用户在搜索结果中看到的网址。 您可能希望用户通过 https://www.example.com/dresses/green/green-dress.html(而非 https://example.com/dresses/cocktail?gclid=ABCD)访问您的绿色连衣裙商品页。 整合类似网页或重复网页的信号。指定规范网址可帮助搜索引擎将它们掌握的关于各个网址的信号(例如指向它们的链接)整合到一个首选网址上。这意味着,从其他网站到 https://example.com/dresses/cocktail?gclid=ABCD 的信号会整合到指向 https://www.example.com/dresses/green/green-dress.html(如果该网址成为规范网址)的链接。 简化一段内容的跟踪指标。如果特定内容可以通过多个网址访问,获取此内容的综合指标的难度会更大。 避免花费时间抓取重复网页。您可能希望 Googlebot 在您的网站上发现尽量多的内容,因此最好让 Googlebot 将时间用于抓取您网站上的新网页(或更新后的网页),而不是抓取相同内容的重复版本。 最佳做法 无论使用哪种规范化方法,都请遵循以下最佳实践: 请勿使用 robots.txt 文件进行规范化。 请勿使用网址移除工具进行规范化,它会在搜索结果中隐藏网址的所有版本。 请勿使用不同的规范化方法为同一网页指定不同的规范网址(例如,请勿既在站点地图中为某个网页指定一个规范网址,又使用 rel=”canonical” 为同一网页另行指定一个规范网址)。 请勿将网址片段指定为规范网址,因为 Google 通常不支持网址片段。 我们不建议使用 noindex 阻止选择单个网站中的规范网页,因为这样会完全阻止该网页显示在 Google 搜索结果中。rel=”canonical” link 注释是首选解决方案。 如果您使用的是 hreflang 元素,请务必指定一个采用同一语言的规范网页;如果没有这样的规范网页,请指定一个采用最佳替代语言的规范网页。 […]
什么是规范化 规范化是指选择一段内容的有代表性的规范网址的过程。因此,规范网址是指 Google 从一组重复网页中选出的最具代表性的网页的网址。此过程通常称为重复信息删除,有助于 Google 在搜索结果中仅显示重复内容的一个版本。 网站包含重复内容的原因有很多: 区域变体:例如,面向美国和英国的一段内容可通过不同的网址访问,但实质上是同一语言的相同内容 设备变体:例如,一个网页既有移动版又有桌面版 协议变体:例如,网站的 HTTP 版本和 HTTPS 版本 网站函数:例如,类别网页的排序函数和过滤函数的结果 意外变体:例如,网站的演示版本意外仍可供抓取工具访问 网站上的某些重复内容是正常的,并不违反 Google 的垃圾内容政策。但是,多个不同网址访问的是相同内容可能会导致用户体验不佳(例如,用户可能会想知道哪个是正确的网页,以及两者之间是否存在差异),可能会让您更难跟踪自己的内容在搜索结果中的表现。 Google 如何将网站编入索引并选择规范网址 Google 将网页编入索引时,会确定每个网页的主要内容(或“核心”)。如果 Google 发现多个网页似乎相同或者主要内容非常相似,则会根据索引编制流程收集的因素(或“信号”)来选择客观来说对搜索用户而言最完整、最实用的网页,并将其标记为规范网页。为了减少 Google 对网站的抓取工作量,我们会经常抓取规范网页,而不会频繁地抓取重复网页。 有一些因素会影响规范化:网页是通过 HTTP 还是 HTTPS 提供、重定向、站点地图中是否出现了相应网址,以及 rel=”canonical” link 注释。您可运用上述方法告知 Google 您更愿意使用哪个网页,但 Google 仍可能会因各种原因另选一个网页作为规范网页。也就是说,指明首选规范网页是一个提示,而非规则。 对于同一网页的不同语言版本,仅当这些网页的主要内容采用相同的语言时,才会被视为重复网页(也就是说,如果仅网页的页眉、页脚和其他非重要文字翻译了,但其正文部分未变,那么这些网页会被视为重复网页)。如需详细了解如何设置本地化网站,请参阅有关管理多语言和多区域网站的文档。 在评估内容和质量时,Google 会使用规范网页作为主要来源。Google 搜索结果通常会指向规范网页,除非某个重复网页明显与搜索用户的查询更相符。例如,如果用户使用的是移动设备,那么即使桌面版网页为规范网页,搜索结果也可能会指向移动版网页。 详细了解如何指明您的首选规范网址以及您是否需要指明。
Google 如何解读 robots.txt 规范 Google 的自动抓取工具支持 REP(robots 协议)。这意味着,在抓取某一网站之前,Google 抓取工具会下载并解析该网站的 robots.txt 文件,以提取关于网站中哪些部分可以被抓取的信息。REP 不适用于由用户控制的 Google 抓取工具(例如 Feed 订阅),也不适用于用来提高用户安全性的抓取工具(例如恶意软件分析)。 本页介绍了 Google 对 REP 的解读。有关原始标准的信息,请查看 RFC 9309。 什么是 robots.txt 文件 如果您不希望抓取工具访问您网站中的部分内容,可以创建包含相应规则的 robots.txt 文件。robots.txt 文件是一个简单的文本文件,其中包含关于哪些抓取工具可以访问网站的哪些部分的规则。例如,example.com 的 robots.txt 文件可能如下所示: # This robots.txt file controls crawling of URLs under https://example.com. # All crawlers are disallowed to crawl files in the “includes” directory, such # […]
更新 robots.txt 文件 如果您使用了 Wix 或 Blogger 等网站托管服务,则可能无需(或无法)直接修改 robots.txt 文件。您的托管服务提供商可能会通过显示搜索设置页面或借用其他某种方式,让您告知搜索引擎是否应抓取您的网页。如果您想向搜索引擎隐藏/取消隐藏您的某个网页,请搜索以下说明:如何在托管服务上修改网页在搜索引擎中的可见性,例如搜索“Wix 向搜索引擎隐藏网页”。 若要更新现有 robots.txt 文件中的规则,请从您的网站下载 robots.txt 文件的副本,然后进行必要的修改。 下载 robots.txt 文件 您可以通过多种方式下载 robots.txt 文件,例如: 打开您的 robots.txt 文件(例如 https://example.com/robots.txt),并将其内容复制到计算机上的新文本文件中。在创建新的本地文件时,请务必遵循与文件格式相关的准则。 使用 cURL 等工具下载 robots.txt 文件的实际副本。例如: curl https://example.com/robots.txt -o robots.txt 使用 Search Console 中的 robots.txt 报告复制 robots.txt 文件的内容,您随后可将复制的内容粘贴到计算机上的文件中。 修改 robots.txt 文件 在文本编辑器中打开从您的网站下载的 robots.txt 文件,然后对规则进行必要的修改。请确保使用正确的语法,并以 UTF-8 编码格式保存文件。 上传 robots.txt 文件 将新的 robots.txt 文件以文本文件的形式上传到您网站的根目录下,名称仍为 […]
如何编写和提交 robots.txt 文件 如果您使用了 Wix 或 Blogger 等网站托管服务,则可能无需(或无法)直接修改 robots.txt 文件。您的托管服务提供商可能会通过显示搜索设置页面或借用其他某种方式,让您告知搜索引擎是否应抓取您的网页。如果您想向搜索引擎隐藏/取消隐藏您的某个网页,请搜索以下说明:如何在托管服务上修改网页在搜索引擎中的可见性,例如搜索“Wix 向搜索引擎隐藏网页”。 您可以使用 robots.txt 文件控制抓取工具可以访问您网站上的哪些文件。 robots.txt 文件应位于网站的根目录下。因此,对于网站 www.example.com,robots.txt 文件的路径应为 www.example.com/robots.txt。robots.txt 是一种遵循漫游器排除标准的纯文本文件,由一条或多条规则组成。每条规则可禁止或允许所有或特定抓取工具抓取托管 robots.txt 文件的网域或子网域上的指定文件路径。除非您在 robots.txt 文件中另行指定,否则所有文件均隐式允许抓取。 下面是一个包含两条规则的简单 robots.txt 文件: User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml 以下是该 robots.txt 文件的含义: 名为 Googlebot 的用户代理不能抓取任何以 https://example.com/nogooglebot/ 开头的网址。 其他所有用户代理均可抓取整个网站。不指定这条规则也无妨,结果是一样的;默认行为是用户代理可以抓取整个网站。 该网站的站点地图文件路径为 https://www.example.com/sitemap.xml。 如需查看更多示例,请参阅语法部分。 创建 robots.txt 文件的基本准则 要创建 robots.txt 文件并使其在一般情况下具备可访问性和实用性,需要完成 4 个步骤: 创建一个名为 robots.txt 的文件。 […]
robots.txt 简介 robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站收到过多请求;它并不是一种阻止 Google 抓取某个网页的机制。若想阻止 Google 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页。 如果您使用了 Wix 或 Blogger 等 CMS,则可能无需(或无法)直接修改 robots.txt 文件。您的 CMS 可能会通过显示搜索设置页面或借用其他某种方式,让您告知搜索引擎是否应抓取您的网页。 如果您想向搜索引擎隐藏/取消隐藏您的某个网页,请搜索以下说明:如何在 CMS 上修改网页在搜索引擎中的可见性(例如搜索“Wix 向搜索引擎隐藏网页”)。 robots.txt 文件有何用途? robots.txt 文件主要用于管理流向您网站的抓取工具流量,通常用于阻止 Google 访问某个文件(具体取决于文件类型): robots.txt 对不同文件类型的影响 网页 对于网页(包括 HTML、PDF,或其他 Google 能够读取的非媒体格式),您可在以下情况下使用 robots.txt 文件管理抓取流量:您认为来自 Google 抓取工具的请求会导致您的服务器超负荷;或者,您不想让 Google 抓取您网站上的不重要网页或相似网页。 警告:如果您不想让自己的网页(包括 PDF 和受 Google 支持的其他基于文本的格式)显示在 Google 搜索结果中,请不要将 robots.txt 文件用作隐藏网页的方法。 如果其他网页通过使用说明性文字指向您的网页,Google 在不访问您网页的情况下仍能将其网址编入索引。如果您想从搜索结果中屏蔽自己的网页,请改用其他方法,例如使用密码保护或 noindex。 如果您使用 robots.txt 文件阻止 […]
您可以验证访问您服务器的网页抓取工具是否确实是 Google 抓取工具,例如 Googlebot。如果您担心自称是 Googlebot 的垃圾内容发布者或其他麻烦制造者在访问您的网站,则会发现该方法非常有用。 Google 抓取工具分为三类: 类型 说明 反向 DNS 掩码 IP 范围 常见抓取工具 用于 Google 产品的常见抓取工具(例如 Googlebot)。它们始终会遵循自动抓取的 robots.txt 规则。 crawl-***-***-***-***.googlebot.com 或 geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json 特殊情况下的抓取工具 为 Google 产品(例如 AdsBot)执行特定功能的抓取工具,并且被抓取的网站与产品之间会就抓取过程达成协议。这些抓取工具可能遵循 robots.txt 规则,也可能不遵循。 rate-limited-proxy-***-***-***-***.google.com special-crawlers.json 用户触发的抓取器 最终用户触发抓取操作的工具和产品功能。例如,Google 网站验证工具会响应用户请求。由于是用户请求的抓取,因此这些抓取器会忽略 robots.txt 规则。 由 Google 控制的抓取工具源自 user-triggered-fetchers-google.json 对象中的 IP,并解析为 google.com 主机名。user-triggered-fetchers.json 对象中的 IP 解析为 gae.googleusercontent.com 主机名。例如,如果 Google Cloud (GCP) 上运行的网站具有需要根据该网站用户的请求提取外部 RSS Feed 的功能,便会使用这些 IP。 ***-***-***-***.gae.googleusercontent.com 或 google-proxy-***-***-***-***.google.com user-triggered-fetchers.json 和 user-triggered-fetchers-google.json 验证 Google […]
减慢 Google 抓取速度 Google 抓取工具基础架构采用先进的算法来确定网站的最佳抓取速度。我们的目标是,每次访问您的网站时都尽可能多地抓取网页,但不会过多地占用服务器的带宽。在某些情况下,Google 抓取您的网站可能会给您的基础架构带来沉重负载,或在服务中断期间产生不必要的费用。为了避免这种情况,您可以决定减少 Google 抓取工具发出的请求数量。 了解导致抓取量急剧增加的原因 抓取速度急剧提升可能是由于您网站的结构效率低下或网站存在其他问题。根据我们过去收到的报告,最常见的原因包括: 网站上网址的配置效率低下,这通常是由网站的特定功能导致的: 网站的分面导航或其他排序和过滤功能 包含特定日期的大量网址的日历 动态搜索广告定位条件 我们强烈建议您与托管公司联系,并查看服务器的近期访问日志,以了解流量的来源,并了解是否符合上述导致抓取量急剧增加的常见原因。然后,请参阅我们关于管理对分面导航网址的抓取和优化抓取效率的指南。 紧急减少抓取器流量(紧急情况) 警告:减慢 Google 的抓取速度将会产生广泛的影响,请谨慎考虑。对于 Google 搜索,Googlebot 发现的新网页数量会减少,现有网页的刷新频率会降低(例如,价格和商品库存状况可能需要更长时间才能体现在 Google 搜索中),被移除的网页保留在索引中的时间可能会更长。对于 Google Ads,您的广告系列可能会被取消或暂停,并且您的广告可能无法投放。 如果您急需让抓取速度在短时间(如几个小时或 1-2 天)内减慢,则应向抓取请求返回 500、503 或 429 HTTP 响应状态代码(而非 200)。在遇到大量包含 500、503 或 429 HTTP 响应状态代码的网址时(例如,如果您停用了您的网站),Google 的抓取基础架构会减慢对您网站的抓取速度。 抓取速度减慢会影响您网站的整个主机名(例如 subdomain.example.com),同时影响对会返回错误的网址和会返回内容的网址的抓取。这些错误的数量减少后,抓取速度会自动重新开始提升。 警告:我们不建议您长时间(即超过 1-2 天)这么做,因为这可能会对您的网站在 Google 产品中的呈现效果产生负面影响。例如,对于 Google 搜索,如果 Googlebot 一连数天在同一网址上发现上述状态代码,可能会将该网址从 Google 索引中移除。 降低抓取速度的特殊请求 如果向 Google 抓取工具提供错误之举在您的基础架构上不可行,您可提交特殊请求,报告抓取速度异常偏高的相关问题,并在请求中提及您网站的最佳抓取速度。您不能请求提高抓取速度,并且请求可能需要几天时间才能得到评估和满足。
Feedfetcher Google 使用 Feedfetcher 抓取 Google 新闻和 PubSubHubbub 的 RSS 或 Atom Feed。 Feedfetcher 会存储并定期刷新由应用或服务的用户请求的 Feed。只有播客 Feed 才会在 Google 搜索中编入索引;但是,如果 Feed 不符合 Atom 或 RSS 规范,仍可能被编入索引。对于这款由用户控制的 Feed 抓取工具的工作原理,下文列出了一些常见问题的解答。 如何请求 Google 不检索我网站中的部分或全部 Feed? 当用户添加使用 Feedfetcher 数据的服务或应用时,Google 的 Feedfetcher 会尝试获取相应 Feed 的内容,以便将其显示出来。由于 Feedfetcher 请求来自真实用户(而非来自自动抓取工具)的明确操作,因此 Feedfetcher 会忽略 robots.txt 规则。 如果您的 Feed 是公开的,那么 Google 无法限制用户访问该 Feed。一种解决办法是,将网站配置为向用户代理 Feedfetcher-Google 发送 404、410 或其他错误状态消息。 如果您的 Feed 是由某个博客或网站托管服务提供商提供的,请直接与相应服务提供商联系,限制用户对您 Feed 的访问。 Feedfetcher 多久检索一次我的 Feed? 对于大多数网站,Feedfetcher 平均每小时最多检索一次 […]
以下是关于 APIs-Google 用户代理(User Agent) 如何用于自己网站的详细说明,包括作用、配置方法和最佳实践: 1. APIs-Google 用户代理是什么? 官方定义:Google 用于访问和缓存公共 API(如 JavaScript/CSS 文件)的专用爬虫,主要目的是优化网页渲染性能(特别是移动端和动态内容)。 典型场景: 预加载网页所需的 API 资源(如 Google Fonts、Ajax 请求结果) 缓存静态文件以加速 Google 搜索结果中的页面展示(如 AMP 页面) 2. 如何允许 APIs-Google 访问你的网站 2.1 修改 robots.txt 确保 robots.txt 不禁止 APIs-Google 爬取必要资源: txt 复制 下载 User-agent: APIs-Google Allow: /assets/js/ # 允许爬取JS目录 Allow: /fonts/ # 允许爬取字体文件 Disallow: /private/ # 禁止敏感路径 2.2 配置服务器访问权限 Apache (.htaccess): apache 复制 下载 […]
APIs-Google 用户代理 APIs-Google 是 Google API 用于传递推送通知消息的用户代理。 应用开发者可以请求接收这些通知,这样就不必反复询问 Google 的服务器以了解他们感兴趣的资源是否发生了更改。为避免有人滥用此服务,Google 会要求开发者证明网域所有权,然后才允许他们注册相应网域的网址作为消息的接收位置。 APIs-Google 如何访问您的网站 APIs-Google 使用 HTTPS POST 请求发送每条推送通知。如果系统中可能存在的暂时性错误导致请求失败,APIs-Google 会重新发送通知。如果请求仍然没有成功,它会基于指数退避算法继续重试(最多可持续数天)。 APIs-Google 对您网站的访问频率取决于为您网站上的服务器创建的推送通知请求数、所监测资源的更新速度以及重试次数。因此,APIs-Google 流量模式在某些情况下可能相当稳定,但在某些情况下可能会断断续续或急剧起落。 让您的网站为 APIs-Google 做好准备 APIs-Google 使用 HTTPS 传递推送通知,因此您的网站必须具备有效的 SSL 证书。无效证书有以下几种: 自签名证书 由不受信任的来源签发的证书 已被撤消的证书 请确保您的应用已经过精心设计,并能在几秒内及时响应通知消息,以避免不必要的重试请求。 阻止 APIs-Google 访问您的网站 若要阻止 APIs-Google 调用您的网站,请执行以下任一操作: 取消通知接收注册。如果您管理的网域中存在归他人所有或由他人管理的子网域或网址子空间,其中一位子网域所有者可能设置了使用推送通知的应用。如果您希望屏蔽 APIs-Google,请联系可能已设置此类应用的所有者,让他们停用此设置。 使用 robots.txt。您需在 robots.txt 文件中指定用户代理 APIs-Google – APIs-Google 不会遵循 Googlebot 用户代理的规则。 在 APIs-Google 发现您对 robots.txt 文件所做的更改之前,可能会出现短暂的延迟。如果您在 robots.txt 中屏蔽 APIs-Google 数天后,它仍然向您的网站发送消息,请检查 robots.txt […]
Google-Read-Aloud 是 Google Read Aloud 服务的用户代理。该服务借助文字转语音 (TTS) 技术为用户朗读网页内容。最终用户启用 TTS 功能后访问某一网页时,即会激活此服务。Google Go、Google 读一读、Google 应用中的 Read Aloud 和其他 Google 文字转语音服务都使用了 Read Aloud 服务。 抓取频率和行为 Google Read Aloud 是由用户请求触发的。它通过缓存网页结果来节省带宽,不过对于给定网页可能仍然存在多个请求。 Google Read Aloud 并非网页抓取工具,它会被用户请求激活,但不会跟踪链接。用户发出听取某个网页内容的请求后,Google Read Aloud 可能会访问该网页,也可能不会,具体取决于该网页最近是否被提取过。 阻止 Google Read Aloud 访问您的内容 由于 Google Read Aloud 是由用户发起的,而不是由自动网页抓取引起的,因此您无法使用 robots.txt 文件来选择停用 Google Read Aloud。若要完全停用 Google Read Aloud,请使用 nopagereadaloud meta 标记: <meta name=”google” content=”nopagereadaloud”> 若要阻止系统朗读付费内容,请使用订阅和付费内容结构化数据。确保将 isAccessibleForFree 属性设置为 False。 google-speakr 代理是什么? google-speakr 代理是已弃用的旧版用户代理。用户代理当前的名称为 Google-Read-Aloud。
Googlebot 是 Google 搜索使用的两种网页抓取工具的通用名称: Googlebot 智能手机版:模拟移动设备用户的移动版抓取工具。 Googlebot 桌面版:模拟桌面设备用户的桌面版抓取工具。 您可以通过查看请求中的 HTTP user-agent 请求标头来确定 Googlebot 的子类型。不过,这两类抓取工具都遵循 robots.txt 中的同一产品令牌(用户代理令牌),因此您无法通过使用 robots.txt 有选择地指定 Googlebot 智能手机版或 Googlebot 桌面版。 对于大多数网站中的内容,Google 主要将移动版编入索引。因此,多数 Googlebot 抓取请求都会通过移动版抓取工具发出,少数请求会通过桌面版抓取工具发出。 Googlebot 如何访问您的网站 对于大多数网站,Googlebot 的平均访问频率不会高于几秒钟一次。不过,由于存在延迟,在一小段时间内,此频率可能会略高一些。 如果您的网站跟不上 Google 的抓取请求频率,您可以减慢抓取速度。 Googlebot 可以抓取 HTML 文件或受支持的文本型文件中的前 15MB 内容。HTML 中引用的每个资源(例如 CSS 和 JavaScript)都是单独抓取的,并且每次抓取都受到相同的文件大小限制。在抓取完该文件的前 15MB 内容后,Googlebot 会停止抓取,并且只会发送前 15MB 的文件内容以考虑编入索引。文件大小上限适用于未压缩的数据。其他 Google 抓取工具(例如 Googlebot Video 和 Googlebot Image)可能有不同的限制。 从美国的 IP 地址抓取内容时,Googlebot […]
浏览帮助主题 关于发布商中心 发布商中心概览 什么是 Google 新闻 Google 搜索上的“新闻”功能是什么 什么是 Google 新闻编辑精选 管理发布内容 管理您组织的设置 管理用户的访问权限 关于 Google 新闻 各项 Google 产品中的新闻内容 Google 新闻中的排名 Google 新闻政策 测试对出版物做出的重大更改 评估 Google 新闻的影响 您在 Google 新闻中的搜索内容 添加 Google 新闻站点地图 在其他新闻界面上显示 协助 Google 新闻发现您的网络抓取内容 网络抓取内容最佳做法 阻止 Google 访问您网站上的内容 Google 新闻中必须屏蔽的内容 设置 Reader Revenue Manager Enterprise Reader Revenue Buy Flow Migration Set […]
应如何寻求帮助? 网址:https://support.google.com/news/publisher-center/?hl=zh-Hans&visit_id=638841280887473031-2140909823&rd=2#topic=9604348 浏览帮助主题 关于发布商中心 发布商中心概览 什么是 Google 新闻 Google 搜索上的“新闻”功能是什么 什么是 Google 新闻编辑精选 管理发布内容 关于 Google 新闻 您在 Google 新闻中的搜索内容 设置 Reader Revenue Manager Enterprise Set up Reader Revenue Manager
发布商中心概览 Publisher Center 可帮助发布商通过 Reader Revenue Manager 配置创收解决方案并管理其 Google 新闻编辑精选设置。 前往发布商中心 功能 如需设置发布内容,您可以使用一些基本功能: 常规:您可以添加: 出版物的基本信息 发布内容总部所在地点的详细信息 对网站资源网址的验证 发布内容的详细联系信息 切换发布内容和组织 如果您在 Publisher Center 内设置了多个发布内容或组织,可使用“发布内容”和“组织”选择器在它们之间切换。 设置 如需更改您的发布内容设置,请执行以下操作: 在计算机上,前往发布商中心。 在右上角,依次点击“发布内容”选择器 设置 。 “出版物设置”包含以下 3 个标签页: 发布内容设置:管理您的发布内容的基本信息。 组织设置:创建、删除和定义您的组织设置。 用户权限:为您的组织或已提交的发布内容管理用户的访问权限。 提示:您还可以从 Publisher Center 的主页面访问这些设置。在“更多选项”下,依次点击管理您的发布内容和组织 修改发布内容设置。 在产品之间切换 如果您已为发布内容启用多个产品,只需点击“产品”图标 即可在产品之间切换。例如,您可以在 Reader Revenue Manager 和 Google 新闻编辑精选之间切换。如需随时返回 Publisher Center 的主页面,请点击“产品”图标 。 模块 模块可以自定义您出版物的不同体验。部分用户可能看不到某些模块。 Reader Revenue Manager:让读者可以更轻松地通过 Google 账号订阅您的内容、向您贡献内容或与您的内容互动。 新闻编辑精选:使用定制面板,突出显示期刊和事件报导,以优化叙事体验,帮助读者了解最新资讯。 更多选项 您可以通过选项对您的内容进行分类并快速查找设置。部分用户可能看不到某些选项。 添加其他出版物:输入要用于设置其他出版物的网址。 […]
Google 用户触发的抓取工具列表 bookmark_border 用户触发的抓取工具由用户启动,以在 Google 产品中执行抓取功能。例如,Google 网站验证工具会根据用户的请求执行操作,或者 Google Cloud (GCP) 上托管的网站具有允许网站用户检索外部 RSS Feed 的功能。由于是用户请求的抓取,因此这些抓取工具通常会忽略 robots.txt 规则。Google 抓取工具的常规技术属性也适用于用户触发的抓取工具。 用户触发的抓取工具使用的 IP 范围会发布在 user-triggered-fetchers.json 和 user-triggered-fetchers-google.json 对象中。用户触发的抓取工具的反向 DNS 掩码(取决于抓取工具是 Google 还是用户拥有)分别与 ***-***-***-***.gae.googleusercontent.com 或 google-proxy-***-***-***-***.google.com 匹配。 以下列表显示了用户触发的抓取工具、它们在 HTTP 请求中显示的用户代理字符串以及它们关联的产品。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。 注意:用户代理字符串可能会遭到仿冒。了解如何验证访问者是否为 Google 抓取工具。 Feedfetcher HTTP 请求中的用户代理 FeedFetcher-Google; (+http://www.google.com/feedfetcher.html) 相关产品 Feedfetcher 用于为 Google 新闻和 PubSubHubbub 抓取 RSS 或 Atom Feed。 Google 发布商中心 HTTP 请求中的用户代理 GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/google-producer) 相关产品 Google 发布商中心会抓取并处理发布商明确提供的 […]
如果在被抓取的网站与产品之间就抓取过程达成协议,特定 Google 产品就会使用特殊爬虫。例如,AdsBot 会在广告发布商许可的情况下忽略全局 robots.txt 用户代理 (*)。Google 抓取工具的常规技术属性也适用于特殊爬虫。 特殊情况下的抓取工具可能会忽略 robots.txt 规则,因此使用的 IP 范围不同于常见抓取工具。这些 IP 范围发布在 special-crawlers.json 对象中。 特殊爬虫的反向 DNS 掩码与 rate-limited-proxy-***-***-***-***.google.com 匹配。 下表列出了特殊爬虫、它们在 HTTP 请求中显示的用户代理字符串、它们在 robots.txt 中 User-agent: 行的用户代理令牌,以及受抓取工具抓取偏好设置影响的产品。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。 注意:用户代理字符串可能会遭到仿冒。了解如何验证访问者是否为 Google 抓取工具。 APIs-Google HTTP 请求中的用户代理 APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) robots.txt robots.txt 中的用户代理令牌 APIs-Google 系统会忽略全局用户代理 (*)。 robots.txt 组示例 user-agent: APIs-Google allow: /archive/1Q84 disallow: /archive/ 受影响的产品 针对 APIs-Google 用户代理的抓取偏好设置会影响 Google API 传递推送通知消息的方式。 AdsBot Mobile Web HTTP 请求中的用户代理 Mozilla/5.0 […]