如何在Linux中拆分巨大的CSV文件？

Linux 2020-06-08

我有60TB的数据驻留在12个csv文件中.

数据将加载到集群数据库中,其中加载过程是单线程的.为了提高我的负载性能,我需要从每个节点启动一个加载过程.

从这个角度来看,到目前为止一直很好.我最大的问题是如何分割这些数据？它是压缩的,每个csv文件有大约5TB的数据！我试过分裂,但需要太长时间！

最简单但不是最快,最可能的方式是

unzip -p <zipfile> | split -C <size>

程序异常分析指南

在Linux上编写运行C语言程序，经常会遇到程序崩溃、卡死等异...

git使用小结

git使用小结很多人可能和我一样，起初对git是一无所知的。我...

Oracle11g CentOS7安装记录

1. 操作系统环境、安装包准备宿主机：Max OSX 10.10.5 虚拟...

nginx常用代理配置

因为业务系统需求，需要对web服务作nginx代理，在不断的尝试...

Linux模块机制浅析

Linux模块机制浅析 Linux允许用户通过插入模块，实现干预内核...

使用Nginx+Lua代理Hadoop HA

一、Hadoop HA的Web页面访问 Hadoop开启HA后，会同时存在两个...

相关文章