如何允许机器人仅访问特定页面和主页

问题描述

我有一个网站,我需要阻止机器人抓取所有页面、图像......一切。但我只需要允许机器人抓取包含 GET 参数 q页面以及主页。例如,我只想允许具有以下模式的 URL:

https://www.example.com
https://www.example.com/?q=xxx
https://www.example.com/?param=yyy&q=xxx
https://www.example.com/index.PHP?q=xxx&another=ppp

为此,我使用以下内容创建了我的 robots.txt 文件

User-agent: *
disallow: /
Allow: /*?q=
Allow: /*&q=

但是我可以发现两个问题:

  1. 有了上面的robots.txt,我就屏蔽了主页https://www.example.com
  2. 我在许多网站上读到,当将 disallowAllow 一起使用时,不得使用 *通配符)以防止冲突。那么如何允许包含 q 的请求?

非常感谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...