问题描述
|
好吧,我有下表(来自pgAdmin的信息):
CREATE TABLE comments_lemms
(
comment_id integer,freq integer,lemm_id integer,bm25 real
)
WITH (
OIDS=FALSE
);
ALTER TABLE comments_lemms OWNER TO postgres;
-- Index: comments_lemms_comment_id_idx
-- DROP INDEX comments_lemms_comment_id_idx;
CREATE INDEX comments_lemms_comment_id_idx
ON comments_lemms
USING btree
(comment_id);
-- Index: comments_lemms_lemm_id_idx
-- DROP INDEX comments_lemms_lemm_id_idx;
CREATE INDEX comments_lemms_lemm_id_idx
ON comments_lemms
USING btree
(lemm_id);
还有一张桌子:
CREATE TABLE comments
(
id serial NOT NULL,nid integer,userid integer,timest timestamp without time zone,lemm_length integer,CONSTRAINT comments_pkey PRIMARY KEY (id)
)
WITH (
OIDS=FALSE
);
ALTER TABLE comments OWNER TO postgres;
-- Index: comments_id_idx
-- DROP INDEX comments_id_idx;
CREATE INDEX comments_id_idx
ON comments
USING btree
(id);
-- Index: comments_nid_idx
-- DROP INDEX comments_nid_idx;
CREATE INDEX comments_nid_idx
ON comments
USING btree
(nid);
在comments_lemms中,有800万条目,在注释中-27万。
我正在执行以下SQL查询:
update comments_lemms set bm25=(select lemm_length from comments where id=comment_id limit 1)
它需要20多个分钟的运行时间,而我将其停止,因为pgAdmin看起来将要崩溃。
有什么方法可以修改此查询或索引或数据库中的任何内容以加快速度吗?将来我必须运行一些类似的查询,而每个查询要等待30分钟以上是非常痛苦的。
解决方法
在comments_lemms中,有800万条目,在注释中-27万。我正在执行以下SQL查询:
update comments_lemms set bm25=(select lemm_length from comments where id=comment_id limit 1)
换句话说,您要使它遍历8M个条目,并且对于每一行,您都在使用索引循环进行嵌套循环。由于使用了“ 4”指令,PG不会对其进行重写/优化。
尝试以下方法:
update comments_lemms set bm25 = comments.lemm_length
from comments
where comments.id = comments_lemms.comment_id;
它应该执行两次seq扫描,然后将它们哈希或合并在一起,然后一次性进行更新。