问题描述
我正在尝试使用 wget 备份(镜像)网站。被拒绝的日志包含大量以“reason”“BLACKLIST”开头且仅包含其他字段的条目: U_URL、U_SCHEME、U_HOST、U_PORT、U_PATH、P_URL、P_SCHEME、P_HOST 和 P_PORT 但缺少字段: U_ParaMS、U_QUERY、U_FRAGMENT、P_PATH、P_ParaMS、P_QUERY 和 P_FRAGMENT
URL 是 Web 服务器呈现的 HTML 页面的 URL,没有扩展名“.html”。 基于 wget 选项:
--adjust-extension
我希望下载这些页面并附加扩展名“.html”。但是,这些页面均未下载。
这是我完整的 wget 命令:
wget \
--mirror \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--backup-converted \
--restrict-file-names=windows \
--domains=imcz.club \
--no-parent \
--no-proxy \
--append-output=wget.log \
--rejected-log=wget-rejected.log \
--reject=SwitchToAdmin,Search,SignOut \
--show-progress \
--random-wait \
--wait=2 \
https://imcz.club/
这里是一个来自应已下载的可公开访问的页面的拒绝日志条目示例:
BLACKLIST https%3A//imcz.club/Privacy-Policy SCHEME_HTTPS imcz.club 443 Privacy-Policy https%3A//imcz.club/ SCHEME_HTTPS imcz.club 443
我还没有找到任何文档来解释 wget 的拒绝日志中“BLACKLIST”的含义。
什么意思?如何让 wget 下载丢失的页面?
附言我误认为该页面没有被下载。显然,我正在查看的文件列表尚未更新。我还是想知道拒绝日志中的“BLACKLIST”条目是什么意思。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)