在日期字段上使用索引时,PostgreSQL表导出查询的性能低下

问题描述

我在使用postgresql表时遇到问题。该表有14列,其中2列的索引如下:

       Column        | Type | Modifiers 
---------------------+------+-----------
 u_id                | text | not null
 p_date              | date | not null
...

Indexes:
    "unq_uid_pdate" UNIQUE CONSTRAINT,btree (u_id,p_date)
    "pdate_idx" btree (p_date)

表的大小约为50亿行,u_id中总共有约1000万个不同的值,每个p_date中的u_id平均有约500个不同的值。

当我尝试通过u_id导出或不使用任何过滤器时,性能达到每秒40万行的良好速度,并且不会随时间大幅下降。

psql "..." -c "\\copy (SELECT u_id,p_date FROM l_nights) to stdout with csv header" | pv --line-mode --rate > /dev/null

[ 468k/s]
[ 485k/s]
[ 497k/s]
[ 435k/s]

但是,如果我要导出特定p_date的大约1000万行,则性能非常差,从每秒几千行开始,并在几分钟内达到停顿状态。添加limit的行为是相同的:

psql "..." -c "\\copy (SELECT u_id,p_date FROM l_nights where p_date = '2020-06-01' limit 50000) to stdout with csv header" | pv --line-mode --rate > /dev/null

[1.09k/s]
[1.28k/s]
[1.48k/s]
[3.01k/s]
[ 954 /s]
[1.40k/s]
[ 918 /s]
[ 849 /s]
[ 383 /s]
[ 364 /s]
[ 358 /s]
[0.00 /s]
[ 170 /s]
[0.00 /s]

查询使用的是正确的索引,基于解释响应:

explain analyse select u_id,p_date from l_nights where p_date = '2020-06-01' limit 50000;

QUERY PLAN                                                                           
---------------------------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost=0.72..158646.09 rows=50000 width=15) (actual time=9.672..207430.728 rows=50000 loops=1)
   ->  Index Scan using pdate_idx on l_nights  (cost=0.72..233913736.58 rows=73722207 width=15) (actual time=9.671..207396.204 rows=50000 loops=1)
         Index Cond: (p_date = '2020-06-01'::date)
 Planning Time: 0.182 ms
 Execution Time: 207451.360 ms

基于当前性能,在我看来,即使对列进行了索引,搜索仍在进行完整扫描。其他导出策略(例如在node.js中获取postgresql游标)的行为也相同。

我在做什么错了?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)