问题描述
我们正在尝试使用我们的Spider爬网(尊重robots.txt等)。我们遇到的问题是,由于受到恶意网站的攻击/以前被黑客入侵,我们不断在abuseat.org上受到报告的打击。例如:
在这种情况下,我们要做的就是:
curl -L -A "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9; OurSiteName http://oursite.com) Gecko/2008052906 Firefox/3.0" --max-time 10 --connect-timeout 10 -LsI $_->{domain} | grep -i Location: | tail -1
这一切都可以运行-但是当我们从另一个域中访问相同的IP进行检查时,它最终使我们被报告为从服务器中运行了恶意软件(我们不是-因为这是服务器上唯一运行的脚本,并锁定)。
所以我的问题:
- 是否有一种方法可以阻止带有curl的恶意域,例如当您尝试访问钓鱼网站时,Chrome就会这样做?
- 或更妙的是-是否有最新的域名清单值得我们避免使用?昨天我找到了一些列表,并设法清除了约2亿个域中的5万多个域,但是我敢肯定那里肯定还有其他域可能再次导致我们遇到问题:/
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)