蜘蛛反复寻找HTML

问题描述

我想以example.com/- .html

的形式访问网站

但是我不知道网址中的确切数字。

数字可能从0到10000或更多。

我写了一个小的python脚本来做到这一点，但是我觉得它很慢。

是否存在一些可以完成这项工作的工具？

for n in range(0,10000):
  print("n",n)
  for m in range(0,10000):     
      r = url+str(n)+str('-')+str(m)+str('.html')
      
      html = requests.get(r,headers=headers)
      try:
        html.raise_for_status()
      except requests.exceptions.HTTPError:
        continue
        #print(r+" doesn't exist")
      print(r)

此代码也忽略了像0012这样的字符串的可能性，

解决方法

我认为您应该创建一个文件夹，其中包含要制作的东西的代码。为了获得编号，您必须为文件夹命名该编号。我通常会在带有某些子页面的网站上这样做。但是，如果这就像一个带有带标签的帖子的社交媒体网站，我不知道该怎么办。

brute-force html python web-crawler