问题描述
我正在尝试使用wget优雅而礼貌地从网站上下载所有pdf。 pdf包含在起始URL下的各个子目录中。看来-A pdf选项与-r选项冲突。但是我不是wget专家!该命令:
wget -nd -np -r site/path
忠实地遍历整个站点,下载路径下游的所有内容(不礼貌!)。该命令:
wget -nd -np -r -A pdf site/path
立即完成任何下载。在调试模式下运行同一命令:
wget -nd -np -r -A pdf -d site/path
显示调试消息将忽略子目录:
确定是否排队“ https:// site / path / subdir1”。 https:// site / path / subdir1(subdir1)与acc / rej规则不匹配。决定不加载它。
我认为这意味着子目录不满足“ pdf”过滤器,因此被排除。有没有办法让wget递归到子目录(随机深度)中,而仅下载pdf(到单个本地目录中)?还是wget需要下载所有内容,然后再需要手动过滤pdf?
更新:感谢大家的想法。解决方案是使用包括以下内容的修改版本的两步方法:http://mindspill.net/computing/linux-notes/generate-list-of-urls-using-wget/
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)