爬网时避免出现漏洞/恶意域

问题描述

我们正在尝试使用我们的Spider爬网(尊重robots.txt等)。我们遇到的问题是,由于受到恶意网站的攻击/以前被黑客入侵,我们不断在abuseat.org上受到报告的打击。例如:

enter image description here

在这种情况下,我们要做的就是:

curl -L -A "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9; OurSiteName http://oursite.com) Gecko/2008052906 Firefox/3.0" --max-time 10 --connect-timeout 10 -LsI $_->{domain} | grep -i Location: | tail -1

这一切都可以运行-但是当我们从另一个域中访问相同的IP进行检查时,它最终使我们被报告为从服务器中运行了恶意软件(我们不是-因为这是服务器上唯一运行的脚本,并锁定)。

所以我的问题:

  1. 是否有一种方法可以阻止带有curl的恶意域,例如当您尝试访问钓鱼网站时,Chrome就会这样做?
  2. 或更妙的是-是否有最新的域名清单值得我们避免使用?昨天我找到了一些列表,并设法清除了约2亿个域中的5万多个域,但是我敢肯定那里肯定还有其他域可能再次导致我们遇到问题:/

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...