如何抓取受登录保护的站点或页面?

问题描述

我想抓取一个网站,需要访问该网站才能查看页面。我能够抓取访客页面,但如何抓取登录保护页面? 如果有人分享配置或跳过身份验证机制以使用 Storm crawler 抓取页面的步骤,那就太好了。

非常感谢您。

解决方法

您可以在拓扑配置中使用相应的值设置以下键

http.basicauth.user
http.basicauth.password

参见 WIKI page 配置