如何在使用lxml解析HTML时保留命名空间信息？

HTML 2019-06-13

>>> from lxml.etree import HTML,tostring
>>> tostring(HTML('<fb:like>'))
'<html><body><like/></body></html>'

请注意标记如何变为< fb：like>简单地< like>.

这使得将XFBML与lxml合并的处理页面变得更加困难. (同样的事情发生在< g：plusone>< / g：plusone>)

任何帮助表示赞赏.

解决方法

尝试添加缺少的名称空间前缀定义. lxml将是 avoid the namespaces otherwise,据说可以让你更轻松.

您尝试解析的网站很可能不包含这些命名空间定义,因此您应该添加它们.

像这样：xmlns:adlcp=”http://xxx/yy/zzz”

相关文章

Vue+elementUI 自定义动态数据菜单导航组件实现展开收缩+路由跳转router-view渲染数据路由跳转到同一个页面带参数ID 自动刷新数据

准备:导入ElementUI 看官网教程数据准备:JSON数据转换成树状...

vue阻止冒泡事件阻止点击事件的执行结合div和组件阻止点击事件

vue阻止冒泡事件阻止点击事件的执行 <div @click=&a...

自用代码css获取任意网址的/favicon.ico的方法教程

尝试过使用网友说的API接口获取找到的都是失效了暂时就使用...

JS实现 JSON扁平数据转换树状数据

后台我拿的数据是这样的格式: [ {id:1 , parentId: 0, name:...

JAVA下载文件防重复点击,防止多次下载请求，Cookie方式快速简单集成教程

JAVA下载文件防重复点击,防止多次下载请求，Cookie方式快速简...

Mip是什么意思以及作用有哪些

Mip是什么意思以及作用有哪些