程序名称:Common Crawl
授权协议: 未知
操作系统: 跨平台
开发语言: Java
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。
Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于 org.commoncrawl.samples) 用来配置 InputFormat。
http://www.commoncrawl.org/