如何使用python和BeautifulSoup从xml中删除完整元素

问题描述

例如我有一个XML

<parent class="alpha">
<child>
<subchild>
</subchild>
</child>
</parent>
<parent class="beta">
<child>
<subchild>
</subchild>
</child>
</parent>
<parent class="gamma">
<child>
<subchild>
</subchild>
</child>
</parent>

如果父元素中的类匹配,我想删除完整的父元素。例如说class =“ beta”。

然后我要这样更新的XML。

<parent class="alpha">
<child>
<subchild>
</subchild>
</child>
</parent>
<parent class="gamma">
<child>
<subchild>
</subchild>
</child>
</parent>

我尝试过,但无法获得预期的结果。

with open("path/to/xml","w") as fil2:
        Soup = soup.find_all("parent ",{'class':'beta'})
        for i in Soup:
                i.decompose()

解决方法

要保存没有指定标签的新文件,可以使用以下示例:

from bs4 import BeautifulSoup


txt = '''<parent class="alpha">
<child>
<subchild>
</subchild>
</child>
</parent>
<parent class="beta">
<child>
<subchild>
</subchild>
</child>
</parent>
<parent class="gamma">
<child>
<subchild>
</subchild>
</child>
</parent>'''

soup = BeautifulSoup(txt,'html.parser')

for p in soup.find_all("parent",{'class':'beta'}):
    p.decompose()

with open('new_file.xml','w') as f_out:
    print(soup,file=f_out)

用内容保存new_file.xml

<parent class="alpha">
<child>
<subchild>
</subchild>
</child>
</parent>

<parent class="gamma">
<child>
<subchild>
</subchild>
</child>
</parent>