我想抓取一个网站,需要访问该网站才能查看页面。我能够抓取访客页面,但如何抓取登录保护页面? 如果有人分享配置或跳过身份验证机制以使用 Storm crawler 抓取页面的步骤,那就太好了。
非常感谢您。
您可以在拓扑配置中使用相应的值设置以下键
http.basicauth.user http.basicauth.password
参见 WIKI page 配置