Clickhouse:删除重复数据

问题描述

我在 clickhouse 中遇到重复数据的问题。 我的情况是我有部分记录,然后我必须按 text_id 对所有这些部分进行分组。 零件到货时间可能不同

例如:

id,text_id,total_parts,part_number,text
101,11,3,1,How
102,12,2,World
103,Hello
104,you
105,are

结果应该是这样的:

text_id,text
11,How are you
12,Hello World

我创建了一个视图来对所有部分进行分组,并且工作正常。 但是当我从这个视图阅读时,我想删除我已经阅读的行。我尝试在名为 flag 的表中添加一列,然后将此列更新为 1,然后将视图更改为读取 flag = 0。 但我在 clickhouse 文档中读到更新它会降低性能。我的表有数十亿条记录。

1- 如果我不能删除处理过的记录,视图会很慢。

2- 如果没有性能问题,我不想再次读取处理过的数据。

有什么建议吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)