问题描述
我正在尝试使用BeautifulSoup从https://sofifa.com中抓取玩家数据。每个页面显示60位玩家,因此我使用偏移查询参数(例如https://sofifa.com/players?offset=60显示第二页)来访问所有玩家的信息。
我注意到的一件事是偏移量值永远不会结束(即,无论我提供的偏移量值多大,它总是显示一页)。具体来说,我注意到对于offset> 20000左右,它始终显示第一页(基本上在耗尽所有播放器之后,它会翻转到第一页,并始终为所有后续更高的offset值显示该页面)。尝试使用https://sofifa.com/players?offset=20000000来了解我的意思。
我想知道是否可以通过编程方式找出最后一个“有效”偏移值;除此之外,我肯定会回到第一页。这将帮助我确定何时到达数据集的末尾。
目前这是我的抓取方式
for offset in range(0,20000,60):
try:
print("Processing page at offset " + str(offset))
sofifa_url = "https://sofifa.com/players?offset=" + str(offset)
# start scraping the page
:
:
except Exception as e:
print("Exception occured: " + str(e))
continue
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)