本项目 fork
项目go_spider,github:https://github.com/hu17889/go_spider
,因此项目架构的部分文档可以参考此项目。
WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。
WebFetch 要达到的目标:
Creeper 是一个基于简单脚本( Creeper Script ,扩展名 .crs )的下一代开源爬虫框架。
Beats 是一款轻量级的数据采集器,采用 Go 语言编写。它集合了多种单一用途数据采集器。这些采集器安装后可用作轻量型代理,从成百上千或成千上万台机器向Logstash 或Elasticsearch 发送数据。
Jedi-Crawler 是一款轻量级 Node/PhantomJS爬虫,可以动态的抓取网页内容。
安装:
npm install jedi-crawler
php实现的dht (BT种子)分布式爬虫
24小时采集 bt种子磁力链接信息
区别于传统爬虫 不会被封ip
VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。为了方便描述,文档中可能使用VS替代VSCrawler作为VSCra
zerg
基于docker的分布式爬虫服务
特性
多机多 IP,充分利用 IP 资源
服务自动发现和注册(基于 etcd 和 registrator)
wyps
是一个采用Java编写的一个在线采集系统,通过jsoup解析html网页,,只要会写jQuery语法就可以轻松采集任意网页的内容。并且使用selenium自动化测试工具解析动态网站或者需要登录的网站,使用chrome浏览器模拟
ghost-login
**此处所说的模拟登录不是指利用网站本身提供的认证API接口进行登录,主要是通过分析前端代码,摸清登录认证原理、核心加密代码,然后程序模拟,来实现自动登录网站的过程;
包含百度云网盘爬虫、网站前后端、搜索,整套服务。
技术栈
网站: PHP Codeigniter
php爬虫系统
程序只支持CLI
安装程序
1.dbconfig.php 添加正确的数据库配置
2. 安装程序
项目背景
从一开始是想编写一个单纯的知乎爬虫,并实现其持久化,并由此展开周期性爬取知乎问题及答案以及其用户资料信息,完善前后端分离归档分类,信息检索等项目模块。但是在实现过程中,我逐渐发现自己对信息爬
nspider
node版的轻量级爬虫框架
特性:
在服务端进行dom处理,默认使用的jquery语法
scrapy
Scrapy:Python的爬虫框架
实例Demo
抓取:汽车之家、瓜子、链家 等数据信息
爬取开源中国中的项目信息并保存到数据库(sqlite),方便按收藏、评论、评分查找。
一个简约灵活强大的Java爬虫框架。
Features:
1、代码简单易懂,可定制性强
2、简单且易于使用的api
分布式爬虫框架XXL-CRAWLER
XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有”多线程、异步、IP动态代理、分布式、JS渲染”等特性;
DribbbleCrawler 是一款小而美的爬虫工具。
Windows平台应用程序
点击获取
使用
PATH:存储图片的地址
V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作,也适应针对复杂数据采集的能力,所见即可采。
Python-
goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-
Grabant
Grabant是一个用go语言开发,用javascript语法书写规则的爬虫框架 规则开发和神箭手的爬虫规则类似,开发的目的是兼容大部分神箭手已有的规则
百度云分享爬虫项目
github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发
WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。
网络小说搜索引擎 — owllook
owllook是一个基于其他网站的垂直小说搜索引擎,至于为什么写这个,一个是想利用sanic尽量做成异步服务,二是想就此练习下推荐系统,顺便作为毕业设计。
CatGate 是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。
Zicada系统最基本的功能就是录制爬虫抓取的页面规则。将抓取规则划分为登录页、列表页、详情页以及翻页,自由定制。 Zicada系统分为本地模式和远程模式。
神箭手云爬虫是一个帮助开发者快速开发爬虫系统的云框架。神箭手提供上手简单,灵活开放的爬虫云开发环境,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效
HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽,
项目代号:土拨鼠
万维网网络机器人,又称蜘蛛,爬虫,原理主要是通过构造符合HTTP协议的网络数据包,向指定主机请求资源,获取返回的数据.万维网有大量的公开信息,人力采集数据费时费力,故激发了爬虫的产业化.
Gather Platform 数据抓取平台是一套基于 Webmagic
内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。具有以下功能
Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。
Jsoup + MaterialViewPager + RxJava2 + Retrofit + Lifecycle + Realm + Fresco +
Retrolambda example
一款Android图文精选app,通过抓取网页获得图文列表。目前包含猫弄(MONO)早午茶、站酷(Zcool)精选、国家