这个就是一篇介绍爬虫框架的文章,开头就不说什么剧情了。什么最近一个项目了,什么分享新知了,剧情是挺好,但介绍的很初级,根本就没有办法应用,不支持队列的爬虫,都是耍流氓。 所以我就先来举一个例子,看一下这个爬虫框架是多么简单并可用。
第一步:安装 Crawl-pet
nodejs 就不用多介绍吧,用 npm 安装 crawl-pet
运行,程序会引导你完成配置,首次运行,会在项目目录下生成 info.json 文件
<div class="jb51code">
<pre class="brush:bash;">
$ crawl-pet
Set project dir: ./test-crawl-pet
Create crawl-pet in ./test-crawl-pet [y/n]: y
Set target url: http://foodshot.co/
Set save rule [url/simple/group]: url
Set file type limit:
The limit: not limit
Set parser rule module:
The module: use default crawl-pet.parser