问题描述
我在 clickhouse 中遇到重复数据的问题。 我的情况是我有部分记录,然后我必须按 text_id 对所有这些部分进行分组。 零件到货时间可能不同
例如:
id,text_id,total_parts,part_number,text
101,11,3,1,How
102,12,2,World
103,Hello
104,you
105,are
结果应该是这样的:
text_id,text
11,How are you
12,Hello World
我创建了一个视图来对所有部分进行分组,并且工作正常。 但是当我从这个视图阅读时,我想删除我已经阅读的行。我尝试在名为 flag 的表中添加一列,然后将此列更新为 1,然后将视图更改为读取 flag = 0。 但我在 clickhouse 文档中读到更新它会降低性能。我的表有数十亿条记录。
1- 如果我不能删除处理过的记录,视图会很慢。
2- 如果没有性能问题,我不想再次读取处理过的数据。
有什么建议吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)