使用wget仅以纯xhtml格式下载dokuwiki页面

问题描述

|| 我目前正在修改offline-dokuwiki [1] shell脚本,以获取应用程序的最新文档,以自动嵌入该应用程序的实例中。效果很好,除了以当前形式它捕获每个页面的三个版本: 整页,包括页眉和页脚 仅内容没有页眉和页脚 原始Wiki语法 我实际上只对2感兴趣。这是通过
<head>
中的html
<link>
标记从主页链接到的,如下所示:
<link rel=\"alternate\" type=\"text/html\" title=\"Plain HTML\" 
href=\"/dokuwiki/doku.PHP?do=export_xhtml&amp;id=documentation:index\" /> 
并且与主Wiki页面的URL相同,只不过它们在查询字符串中包含\'do = export_xhtml \'。有没有一种方法指示wget仅下载这些版本或自动将\'&do = export_xhtml \'添加到其后面的任何链接的末尾?如果是这样,这将是一个很大的帮助。 [1] http://www.dokuwiki.org/tips:offline-dokuwiki.sh(作者:samlt)     

解决方法

DokuWiki也接受do参数作为HTTP标头。您可以使用参数--header \“ X-DokuWiki-Do:export_xhtml \”运行wget。     

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...