出于研究目的,我想列出npm上可用的所有软件包.我怎样才能做到这一点?
https://github.com/npm/registry/blob/master/docs/REGISTRY-API.md#get-all的一些旧文档提到了/ – /所有可能曾经工作的端点,但http://registry.npmjs.org/-/all现在只返回{“message”:“deprecated”}.
解决方法
http://blog.npmjs.org/post/157615772423/deprecating-the-all-registry-endpoint描述了
http://registry.npmjs.org/-/all端点的弃用,以及作为替代方法的
https://github.com/npm/registry/blob/master/docs/follower.md教程的链接.该教程描述了如何设置“跟随者”,以接收对NPM注册表所做的所有更改.那是……有点奇怪,说实话.显然,如果您想在整个NPM生态系统上进行数据分析,那么这样的关注者不能充分替代获取所有包的列表.
但是,在该代码库中,我们了解到NPM注册表的核心是位于https://replicate.npmjs.com的CouchDB数据库._all_docs
端点未被禁用,因此我们可以在https://replicate.npmjs.com/_all_docs点击它以获取一个JSON对象,其rows属性包含一个列表NPM上的所有公共包裹.每个包看起来像:
{"id":"lodash","key":"lodash","value":{"rev":"634-9273a19c245f088da22a9e4acbabc213"}},
在我写这篇文章时,该响应中有618660行,大约为64MB.
如果您需要有关特定包的更多数据,可以使用其密钥查找特定包 – 例如点击https://replicate.npmjs.com/lodash获取包含Lodash描述和发布历史等内容的巨大文档.
如果您需要有关所有包的所有当前数据,可以使用include_docs
参数_all_docs将实际文档主体包含在响应中 – 即命中https://replicate.npmjs.com/_all_docs?include_docs=true.准备好处理大量数据.
如果您需要更多数据,例如下载次数,这些数据未包含在这些CouchDB文档中,那么值得仔细阅读https://github.com/npm/registry/tree/master/docs中的文档,其中详细介绍了其他一些可用的API – 请注意问题中提到的警告,并非所有文档都记录在那里实际上有效.