维基媒体浏览量压缩不起作用

问题描述

我正在尝试分析每月 wikimedia pageview统计数据。他们的每日转储还可以,但 2021 年 6 月 (https://dumps.wikimedia.org/other/pageview_complete/monthly/2021/2021-06/pageviews-202106-user.bz2) 的月度报告似乎已损坏:

[radim@sandBox2 pageviews]$ bzip2 -t pageviews-202106-user.bz2 
bzip2: pageviews-202106-user.bz2: bad magic number (file not created by bzip2)

You can use the `bzip2recover' program to attempt to recover
data from undamaged sections of corrupted files.

[radim@sandBox2 pageviews]$ file pageviews-202106-user.bz2 
pageviews-202106-user.bz2: Par archive data

知道如何提取数据吗?这里使用什么编码?它可以是来自他们的 Hive 分析集群的 Parquet 文件吗?

解决方法

这些文件不是 bzip2 档案。它们是 Parquet 文件。 Parquet-tools 可用于检查它们。

$ java -cp 'target/*:target/dependency/*' org.apache.parquet.cli.Main schema /tmp/pageviews-202106-user.bz2 2>/dev/null 
{
  "type" : "record","name" : "hive_schema","fields" : [ {
    "name" : "line","type" : [ "null","string" ],"default" : null
  } ]
}

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...