如何使用 robots.txt 阻止网络搜索

问题描述

我有一个关于如何防止我们的开发文档网站被包含在搜索结果中的问题。

我们一直在对此进行研究,并找到了一种使用 robots.txt 文件执行此操作的可能方法,但它的实际工作方式令人困惑。

我在 Dummies 和 robotstxt.org 站点上找到了最好的信息,其中解释说您可以通过将这两行添加到 robots.txt 文件中,然后将该文件放在根级别,从而明确地阻止整个站点中的搜索您网站的:

User-agent: *
disallow: /

我们的开发文档站点是这样设置的,其中 wwwroot 文件夹包含我们在文件夹 A-P 中的所有开发文档:

Current Dev site structure

通过在 wwwroot 文件夹中添加带有这两行代码的 robots.txt,这会阻止搜索引擎索引文件夹 A-P 中的所有内容吗?

此外,在开发周期结束时,我们“切换”这个开发站点,它成为我们的生产站点。于是域名就从“https://docs-dev.OurSite.com”变成了“https://docs.OurSite.com”。

有没有办法“允许”使用相同的 robots.txt 文件搜索网站的生产版本?也许是这样的:

User-agent: *
disallow: /docs-dev.OurSite.com/

我知道我们可以在“切换”后删除 robots.txt 文件,但我想知道以这种方式对 robots.txt 进行编码是否也能解决问题。

谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)