在 cloudflare 上下载/镜像网站以进行存档

问题描述

尝试备份(下载/镜像)网站以进行存档。该站点显然位于 Cloudflare 上。我常用的工具是 wget,但它在我身上失败了(即使使用 cookie cfduid 标头)。无效的 wget 命令示例:

wget -U "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --header="Accept: text/html" --header="Cookie: __cfduid=someverylongcfduid" - -mirror --convert-links --adjust-extension --page-requisites --no-parent -w 1m www.domain.tld

所以我想我会回到我可信赖的朋友 httrack 那里,但它也失败了(即使使用导出的 cookie)。无效的 httrack 命令示例:

httrack -F "Mozilla/5.0 (X11; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0" --mirror -b1 -s0 -%c1 -c1 --referer "https://www.domain .tld/" "https://www.domain.tld/"

我不想破坏网站,所以限制连接和等待是可以的。我宁愿让它运行得更长/更慢,并且一路走好netizen

目前我遇到了 301 (Moved permanently)403 (Forbidden) 错误,我假设这是由于 Cloudflare。该网站大量使用 javascript :-( 有没有人有任何提示/建议/解决方案来存档这样的网站?

解决方法

我认为你应该尝试使用硒。