使用域名解析基本网址以获取网页

问题描述

我目前正在从事基于Storm Crawler的项目。客户向我们提供了如下域名列表：

example.com
example1.org
example2.net

但是，如果没有HTTP / HTTPS协议，Storm Crawler无法读取它们。如果我们添加他们的协议，有时会重定向到另一个 URL地址。例如http://example.com 重定向到http://example.com/，需要再次对其进行新的爬网。但是，我们想深入了解网站首页。如何在Storm Crawler中做到这一点？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-storm stormcrawler