如何使用Beautiful soup python将div中的所有详细信息导出到excel / csv？

问题描述

我是Soup / python的新手，我正在尝试查找数据。我的网站结构看起来像这样。

如果我打开Divclass border class，它看起来像这样。（下图）

我做了这样的事情：

for  P in soup.find_all('p',attrs={'class': 'bid_no pull-left'}) :
  print(P.find('a').contents[0])

一个Div结构如下所示
每页大约有10个div
我要在其中提取项目，所需数量，投标编号，结束日期。请帮助我

<div class="border block " style="display: block;">
    <div class="block_header">
        <p class="bid_no pull-left"> BID NO: <a style="color:#fff !important" href="/showbidDocument/1844736">GEM/2020/B/763154</a></p> 
        <p class="pull-right view_corrigendum" data-bid="1844736" style="display:none; margin-left: 10px;"><a href="#">View Corrigendum</a></p>

         <div class="clearfix"></div>
    </div>

    <div class="col-block">
        <p><strong style="text-transform: none !important;">Item(s): </strong><span>Compatible Cartridge</span></p>
        <p><strong>Quantity required: </strong><span>8</span></p>

        <div class="clearfix"></div>
    </div>
    <div class="col-block">
        <p><strong>Department Name And Address:</strong></p>
        <p class="add-height">
            Ministry Of Railways<br> Na<br> South Central Railway N/a
        </p>
        <div class="clearfix"></div>
    </div>
    <div class="col-block">
        <p><strong>Start Date: </strong><span>25-08-2020 02:54 PM</span></p>
        <p><strong>End Date: </strong><span>04-09-2020 03:00 PM</span></p>
        <div class="clearfix"></div>

    </div>


    <div class="clearfix"></div>
</div>

错误图片

解决方法

使用requests和美丽的汤尝试以下方法。我已经使用从网站获取的URL创建了脚本，然后创建了一个动态URL来遍历每个页面以获取数据。

脚本到底在做什么：

第一个脚本将创建一个URL，其中在每次遍历完成后， page_no 查询字符串参数将增加1。
请求将使用 get 方法从创建的URL中获取数据，然后将其传递给漂亮的汤，以使用 lxml 解析HTML结构。
然后从解析的数据脚本中搜索实际存在数据的 div 。

最后对每个页面逐一循环所有 div 文本数据。

```python
import requests
from urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
from bs4 import BeautifulSoup as bs

def scrap_bid_data():

page_no = 1 #initial page number
while True:
    print('Hold on creating URL to fetch data...')
    URL = 'https://bidplus.gem.gov.in/bidlists?bidlists&page_no=' + str(page_no) #create dynamic URL
    print('URL cerated: ' + URL)

    scraped_data = requests.get(URL,verify=False) # request to get the data
    soup_data = bs(scraped_data.text,'lxml') #parse the scraped data using lxml
    extracted_data = soup_data.find('div',{'id':'pagi_content'}) #find divs which contains required data

    if len(extracted_data) == 0: # **if block** which will check the length of extracted_data if it is 0 then quit and stop the further execution of script.
        break
    else:
        for idx in range(len(extracted_data)): # loops through all the divs and extract and print data
            if(idx % 2 == 1): #get data from odd indexes only because we have required data on odd indexes
                bid_data = extracted_data.contents[idx].text.strip().split('\n')
                print('-' * 100)
                print(bid_data[0]) #BID number
                print(bid_data[5]) #Items
                print(bid_data[6]) #Quantitiy Required
                print(bid_data[10] + bid_data[12].strip()) #Department name and address
                print(bid_data[16]) #Start date
                print(bid_data[17]) #End date                   
                print('-' * 100)

        page_no +=1 #increments the page number by 1

 scrap_bid_data()
 ```

实际代码

输出图像

beautifulsoup excel excel export-to-csv python web-scraping