问题描述
我使用 clickhouse-jdbc 将数据写入 clickhouse 的分布式“所有”表(3 个主机用于 3 个分片 1 个副本)。
使用 PreparedStatement 对 1000000 条记录进行 5000 次批量提交花费 6280 秒。
...
ps.setString(68,dateTimeStr);
ps.setDate(69,date);
ps.addBatch();
System.out.println("i: " + i);
if(i % 5000 == 0 || i == maxRecords) {
System.out.println(new java.util.Date());
ps.executeBatch();
System.out.println(new java.util.Date());
// ps.execute();
conn.commit();
System.out.println("commit: " + new java.util.Date());
}
...
每天插入一亿条记录有什么更好的方法吗?
解决方法
是的,由于每次插入操作都需要完成大量逻辑(将数据同步到特定分片等),因此插入 Distributed engine 可能会很慢。
您可以尝试调整一些设置,如上面链接中所述。
但是,我发现直接写入底层表更方便快捷。但这需要您关心在所有节点上分片和传播数据,即根据自己的喜好分配数据。