问题描述
我有一个网站,我需要阻止机器人抓取所有页面、图像......一切。但我只需要允许机器人抓取包含 GET 参数 q
的页面以及主页。例如,我只想允许具有以下模式的 URL:
https://www.example.com
https://www.example.com/?q=xxx
https://www.example.com/?param=yyy&q=xxx
https://www.example.com/index.PHP?q=xxx&another=ppp
为此,我使用以下内容创建了我的 robots.txt
文件:
User-agent: *
disallow: /
Allow: /*?q=
Allow: /*&q=
但是我可以发现两个问题:
- 有了上面的
robots.txt
,我就屏蔽了主页https://www.example.com
; - 我在许多网站上读到,当将
disallow
与Allow
一起使用时,不得使用*
(通配符)以防止冲突。那么如何允许包含q
的请求?
非常感谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)