去年,做了几个JFinal项目,大量使用了Java爬虫去全网抓取数据,清洗筛选后入库,成为本地结构化数据。
介绍 spider-flow,新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly
ProxyIpPool 是一个爬虫代理 ip 池,主要用途爬取代理 ip ,然后将这些代理 ip 放入池子里(池子是某个数据结构的概念,比如我用的是队列)进行维护。
GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。
XCrawler - 轻量级、易维护的PHP爬虫框架 特性: 极易上手,具备完善的文档和示例
grab_huaban_board 花瓣网下载工具是一个用户脚本,用来批量抓取花瓣网用户画板的高清原图,支持PC与Mobile,并可以选择通过不同方式下载到本地。
GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。
VW-Crawler 背景 自己一直对爬虫比较感兴趣,大学的毕业论文也是一个爬虫项目(爬教务处信息,然后做了个Android版教务管理系统,还获得了优秀毕业设计的称号),自那以后遇到自己感兴趣的网站就会去抓一下。前段时间
_________________________ _____ \\___________/_____/____________ __/ / /__ \\__/___/__ \\____/ _/_/ // /_/ / /_/ / / /_/ / /__//
北京地铁客流量统计(py爬虫+js统计图) 很好奇北京地铁每天的客流量变化,于是写了个爬虫。结果很有意思,每周7天的客流变化都很规律。
一款小巧、灵活的Java多线程爬虫框架(AiPa) 1.框架简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架。
CrawlerForReader Android 本地网络小说爬虫,基于 jsoup 与 xpath,通过模版解析网页。
wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标
蓝天采集器(skycaiji)是一款免费的数据采集发布爬虫软件,采用php+mysql开发,可部署在云服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登录实时发布数据,全自动无需人工干预!是大数据、云时代
Ferret 是一个声明式的 Web 爬虫系统,旨在简化网络上的数据提取,以用于 UI 测试、机器学习和分析等等。
GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。
http-proxy-pool 是一个流量代理工具。 对于代理地址,期望是越多越好,但是对于代理质量有着更高的要求,宁缺勿滥,因此proxy-
AntNest 简明飞快的异步爬虫框架(python3.6+),只有600行左右的代码 功能 开箱即用的HTTP客户端
Douyin-Bot 是一个用 Python 和 ADB 打造的 Python 抖音机器人。 特性 自动翻页 颜值检测
发源地开源云采集引擎 发源地云采集引擎是由发源地研发团队开发的一套开源分布式云采集工具化引擎,致力于让用户快捷挖掘大数据矿山背后的价值!
Scrapyd 是一个部署和运行 Scrapy 爬虫的应用,它允许使用 HTTP JSON API 部署 Scrapy 项目并控制其爬虫。
Blog-Hunter(博客猎手),基于 webMagic 的博客爬取工具,支持慕课、csdn、iteye、cnblogs、掘金和 V2EX
简介 Botsonar 一款企业使用的反爬虫管理平台。该平台集爬虫发现,策略,防御,流量分析于一体,目前处于 Alpha 测试版本,开源测试版本为旁路分析模式。
gugu(股估) gugu(股估)是适用于金融/投资领域数据分析及量化工程的开源项目,通过对互联网上的公开数据进行采集、清洗和存储,完成了对股票/债券/基金等金融数据的统一调用和分析。其优点是速度快、可定制及高度的
一个轻量级的基于事件分发的爬虫框架。 功能介绍 基于完全自定义事件处理机制的爬虫框架。