页面偏移量值永不结束时如何进行网页抓取

问题描述

我正在尝试使用BeautifulSoup从https://sofifa.com中抓取玩家数据。每个页面显示60位玩家,因此我使用偏移查询参数(例如https://sofifa.com/players?offset=60显示第二页)来访问所有玩家的信息。

我注意到的一件事是偏移量值永远不会结束(即,无论我提供的偏移量值多大,它总是显示一页)。具体来说,我注意到对于offset> 20000左右,它始终显示第一页(基本上在耗尽所有播放器之后,它会翻转到第一页,并始终为所有后续更高的offset值显示页面)。尝试使用https://sofifa.com/players?offset=20000000来了解我的意思。

我想知道是否可以通过编程方式找出最后一个“有效”偏移值;除此之外,我肯定会回到第一页。这将帮助我确定何时到达数据集的末尾。

目前这是我的抓取方式

for offset in range(0,20000,60):
  try:
    print("Processing page at offset " + str(offset))
    sofifa_url = "https://sofifa.com/players?offset=" + str(offset)
    # start scraping the page
    :
    :
  except Exception as e:
    print("Exception occured: " + str(e))
    continue

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)