使用python的动态网页爬虫

问题描述

我想在线阅读这篇文章,并且弹出一些内容,并且我想在我成功提取它之后想脱机阅读...所以在这里我经过4周的试用,所有问题都归结为我即使在所有骚动之后,爬虫似乎也无法阅读网页的内容...

最初的问题是所有信息都不在一个页面上,因此可以使用该按钮浏览网站本身的内容...

我尝试了BeautifulSoup,但它似乎无法很好地解析页面。我目前正在使用硒和chromedriver。

爬虫无法读取页面的原因似乎是robot.txt文件(爬虫等待单个页面的时间为3600,文章大约有10页,这是可以忍受的,但是如果表示100+),我不知道如何绕过它或绕开它。

有帮助吗?

解决方法

如果robots.txt设置了限制,那就结束了。您应该在道德上进行网络爬网,这意味着如果网站所有者希望您在两次请求之间等待3600秒,就可以了。

即使robots.txt没有规定等待时间,您也应该注意。小型企业/网站所有者可能不知道这一点,因此,如果您不断锤打一个网站,对他们来说可能是昂贵的。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...