问题描述
我目前正在从事基于Storm Crawler的项目。客户向我们提供了如下域名列表:
example.com
example1.org
example2.net
但是,如果没有HTTP / HTTPS协议,Storm Crawler无法读取它们。如果我们添加他们的协议,有时会重定向到另一个URL地址。例如http://example.com重定向到http://example.com/,需要再次对其进行新的爬网。但是,我们想深入了解网站首页。如何在Storm Crawler中做到这一点?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)