如何使用 HTTP for Common Crawl News Dataset 获取 WARC 文件列表?

问题描述

我可以通过以下方式获得 Common Crawl 的列表:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz

如何使用 Common Crawl News Dataset 执行此操作?

我尝试了不同的选项,但总是出错:

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz

解决方法

由于每隔几个小时就会向新闻数据集中添加一个新的 WARC 文件,因此静态文件列表没有意义。相反,您可以使用 AWS CLI 获取文件列表 - 对于按年份或月份的任何子集,例如

aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/

另见news data release announcement

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...