如何使用 Google Search Console 强制重新索引错误的 robots.txt 页面?

问题描述

我的问题

所以我最近在处理 robots.txt 文件时犯了一个很大的错误。我添加了一行以防止读取数据文件,目的是防止抓取博客数据 .txt 文件

disallow: *.txt$

回想起来,我应该先包含一个目录:

disallow: /blog/posts/*.txt$

但是,由于我没有这样做,Google 现在无法抓取我的 robots.txt 文件

我现在已经修复了该文件,但我无法让 Google Search Console 重新索引该文件,因为它仍然认为不允许这样做。

我的尝试

  • 我尝试在 GSC 中提取 /robots.txt 文件并手动重新索引但没有骰子。它给我的唯一信息是“robots.txt 不允许
  • 我尝试从站点删除 robots.txt 文件,在 GSC 中手动重新索引,希望它能意识到它已经消失并重置或其他东西。仍然什么都没有,仍然说该操作“robots.txt 不允许
  • 我也尝试过使用 robots.txt 测试工具,但因为它只适用于网址前缀属性,而且这是一个属性 它不会出现在可供测试的站点列表中。如果有人知道我可以使用此工具的方法(或暂时将我的属性转换为 URL 前缀属性),那仍然是一个解决方案。

我的目标

我真的很想以某种方式在 GSC 的索引中重置我的 robots.txt 文件。任何和所有建议将不胜感激。

希望我足够清楚地描述了这个问题。如果您需要更多信息或上下文,请告诉我,我将非常乐意更新帖子。

谢谢!

解决方法

所以,多亏了 Google Search Console Forums 的 Barry Hunter,我才能够弄清楚这一点。我无法想象这是一个很多人都会遇到的问题,但为了以防万一,这里是解决方案。

  1. 转到 Google Search Console 并添加新的网址前缀属性(除非您已将您的属性设置为网址前缀属性,在这种情况下请跳至步骤3)
  2. 使用与您的域属性相同的域来创建其中的两个属性。一种带有“http://”,一种带有“https://”。他们会自动验证,因为您已经声明了域名的所有权。
  3. 转到 Google Search Console robots.txt 测试工具。
  4. 选择您的网址前缀属性之一,将打开 robots.txt 文档的最后一个索引版本。
  5. 编辑文本以更正您的错误并点击提交。然后,按照对话框中显示的步骤进行操作。
  6. 重新加载页面,如果更改卡住,您就可以开始了。对您的其他媒体资源重复第 4 步,然后再次尝试在 GSC 上加载网址。