问题描述
我有很多包含文档(内容)的中英文网址。两个 URL 的内容相同,所以我想禁止来自 robots.txt
的中文 URL。
下面是我的网址片段:
https://www.example.com/zh/docs/UBX-18006379
https://www.example.com/zh/ubx-viewer/view/cB-2254-12(fw_obs421_rd_v5.3.2).bin
我对以下通配符是否正确:
1- disallow: /zh/docs/*
2- disallow: /zh/ubx-viewer/*
谁能帮帮我?以上是正确使用吗? 提前致谢
解决方法
不,这是不正确的。机器人不支持正则表达式。
根据https://www.robotstxt.org/robotstxt.html
另请注意,不支持通配符和正则表达式 用户代理或禁止行。用户代理中的“” field 是一个特殊值,意思是“任何机器人”。具体来说,你不能 有像“User-agent: bot”、“Disallow: /tmp/”或“Disallow: *.gif”。
但是请记住,机器人可以忽略 robots.txt
。所以请注意,如果这些目录是公开可用的,任何人仍然可以访问这些目录,并且您不应该在其中存储敏感信息。
所以在你的情况下,如果你想排除这些目录:
User-agent: *
Disallow: /zh/docs/
Disallow: /zh/ubx-viewer/