编程之家收集整理的这篇文章主要介绍了Hive 导入 parquet 格式数据,编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随编程之家小编过来看看吧!
Hive 导入 parquet 数据步骤如下:
查看结构:java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30
查看内容:java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 activity.201711171437.0.parquet
BINARY -> STRING
BOOLEAN -> BOOLEAN
DOUBLE -> DOUBLE
FLOAT -> FLOAT
INT32 -> INT
INT64 -> BIGINT
INT96 -> TIMESTAMP
BINARY + OriginalType UTF8 -> STRING
BINARY + OriginalType DECIMAL -> DECIMAL
create table test_data(a bigint) stored as parquet;
# 创建表时可选择数据存储格式
Tips:分区 partitioned by (date string)
load data local inpath '/path/data.parquet' into table test_database.test_table_name;
load data inpath '/path/data.parquet' into table test_database.test_table_name;
Tips:区别是没有 local
先安装 pyarrow
或 fastparquet
库
import pandas as pd
>>> df = pd.DataFrame(data={'col1': [1,2],'col2': [3,4]})
>>> df.to_parquet('df.parquet.gzip',compression='gzip')
>>> pd.read_parquet('df.parquet.gzip')
col1 col2
0 1 3
1 2 4
以上是编程之家为你收集整理的Hive 导入 parquet 格式数据全部内容,希望文章能够帮你解决Hive 导入 parquet 格式数据所遇到的程序开发问题。
如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢交流学习经验,点击链接加入编程之家官方QQ群:1065694478
微信公众号搜索 “ 程序精选 ”
精选程序员所需精品干货内容!