问题描述
我想知道如何在 clickhouse 的一个表中找到重复的数据条目。
我实际上正在研究merge tree table,实际上将optimize statements扔到了我的桌子旁,但这并不能解决问题。重复的条目仍然存在。
首选不采用个别列名的通用策略。
我只想查看重复的条目,因为我正在处理非常大的表。
解决方法
直接的方法是运行此查询。
SELECT
*,count() AS cnt
FROM myDB.myTable
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC
如果该查询很大,您可以分批运行它。
SELECT
*,count() AS cnt
FROM myDB.myTable
WHERE (date >= '2020-08-01') AND (date < '2020-09-01')
GROUP BY *
HAVING cnt > 1
ORDER BY date ASC