如何从CommonCrawl检索页面的HTML？

问题描述

假设我有：

CC * .warc文件的链接（以及文件本身，如果有帮助的话）；
偏移量；和
长度

感谢您的时间和精力。

解决方法

使用warcio会很简单：

warcio extract --payload <file.warc.gz> <offset>

或者，使用HTTP范围请求获取WARC记录，然后提取偏移量为0的有效负载：

curl -s -r331727487-$((331727487+6613-1)) \
   https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2020-40/segments/1600400203096.42/warc/CC-MAIN-20200922031902-20200922061902-00310.warc.gz \
   >warc_temp.warc.gz
warcio extract --payload warc_temp.warc.gz 0

范围从偏移量开始，并以offset + length-1结束。另请参见getting WARC file

common-crawl

如何从CommonCrawl检索页面的HTML？

问题描述

解决方法

相关问答