问题描述
我试图用C ++制作网络爬虫(我知道我可以使用其他语言,但是我只是想学习)。我正在尝试将一个网页获取HTML代码,但是使用我想要的链接在一两秒钟后页面就会更改。如何让程序等到某个时候返回html?
编辑:我想进行一次curl调用,然后等待一段时间,然后过一段时间再对同一网页进行另一个curl调用。 (不要再次打开该链接,因为它会显示相同的页面)
解决方法
您有三个选择:
- 调查该网站并找出javascript代码如何更改页面,然后以C ++复制该代码(通过对网址进行硬编码或解析页面的一部分)
- 嵌入了一个完整的浏览器引擎,该引擎可以理解JavaScript,并在更改后单击链接,或者
- 放弃C ++,使用专用的抓取工具,例如CasperJS或Scrapy或wring或...
我将检查页面,看看是否可以使选项1正常工作,但到目前为止,选项3是最简单的方法。