问题描述
我正在迁移一个网站,它有很多重定向。我想生成一个列表,在其中可以看到所有重定向、目标和源。
我尝试使用 Cyotek Webcopy,但它似乎无法提供我需要的数据。有没有一种爬行方法来做到这一点?或者可能这可以在 Apache 日志中访问?
解决方法
当然,您可以通过抓取网站来实现,但我建议在这种特定情况下不要这样做,因为有一个更简单的解决方案。
您使用 Apache,因此您(可能)正在使用 HTTP/HTTPS 协议。您可以参考HTTP referrer,如果您使用PHP,则可以通过$_SERVER['HTTP_REFERER']
到达上一页。因此,您需要执行以下操作:
- 想办法存储上一页-下一页
- 在每个请求开始时存储这样一个对,知道 current URL 是什么以及前一个是什么
- 也许您需要对网址进行分组并进行一些聚合
- 在某处加载输出并分析