仅使用Beautiful Soup获取外部html部分

问题描述

我正在使用BS4编写一个python应用程序，我只想获取任何网页的外部元素。

例如，一个网页可能包含：

<section>
    <section>
        <section>
        </section>
    </section>
</section>
<section>
</section>

网页可以具有尽可能多的嵌套部分，但在这种情况下，我只想获取最外面的部分（两个）。

有什么想法吗？

解决方法

您可以将.find_all()与recursive=False参数一起使用：

from bs4 import BeautifulSoup


txt = '''
<section>
    THIS IS SECTION 1 - I WANT THIS
    <section>
        THIS IS SECTION 2
        <section>
            THIS IS SECTION 3
        </section>
    </section>
</section>
<section>
    THIS IS SECTION 4 - I WANT THIS
</section>'''

soup = BeautifulSoup(txt,'html.parser')

for section in soup.find_all('section',recursive=False):
    print(section.contents[0].strip())

打印：

THIS IS SECTION 1 - I WANT THIS
THIS IS SECTION 4 - I WANT THIS

beautifulsoup python