问题描述
我在使用postgresql表时遇到问题。该表有14列,其中2列的索引如下:
Column | Type | Modifiers
---------------------+------+-----------
u_id | text | not null
p_date | date | not null
...
Indexes:
"unq_uid_pdate" UNIQUE CONSTRAINT,btree (u_id,p_date)
"pdate_idx" btree (p_date)
表的大小约为50亿行,u_id中总共有约1000万个不同的值,每个p_date中的u_id平均有约500个不同的值。
当我尝试通过u_id导出或不使用任何过滤器时,性能达到每秒40万行的良好速度,并且不会随时间大幅下降。
psql "..." -c "\\copy (SELECT u_id,p_date FROM l_nights) to stdout with csv header" | pv --line-mode --rate > /dev/null
[ 468k/s]
[ 485k/s]
[ 497k/s]
[ 435k/s]
但是,如果我要导出特定p_date的大约1000万行,则性能非常差,从每秒几千行开始,并在几分钟内达到停顿状态。添加limit
的行为是相同的:
psql "..." -c "\\copy (SELECT u_id,p_date FROM l_nights where p_date = '2020-06-01' limit 50000) to stdout with csv header" | pv --line-mode --rate > /dev/null
[1.09k/s]
[1.28k/s]
[1.48k/s]
[3.01k/s]
[ 954 /s]
[1.40k/s]
[ 918 /s]
[ 849 /s]
[ 383 /s]
[ 364 /s]
[ 358 /s]
[0.00 /s]
[ 170 /s]
[0.00 /s]
查询使用的是正确的索引,基于解释响应:
explain analyse select u_id,p_date from l_nights where p_date = '2020-06-01' limit 50000;
QUERY PLAN
---------------------------------------------------------------------------------------------------------------------------------------------------------------
Limit (cost=0.72..158646.09 rows=50000 width=15) (actual time=9.672..207430.728 rows=50000 loops=1)
-> Index Scan using pdate_idx on l_nights (cost=0.72..233913736.58 rows=73722207 width=15) (actual time=9.671..207396.204 rows=50000 loops=1)
Index Cond: (p_date = '2020-06-01'::date)
Planning Time: 0.182 ms
Execution Time: 207451.360 ms
基于当前性能,在我看来,即使对列进行了索引,搜索仍在进行完整扫描。其他导出策略(例如在node.js中获取postgresql游标)的行为也相同。
我在做什么错了?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)