如何限制上传到 ElasticSearch 的数据数量

问题描述

如何限制上传到 Elasticsearch 的数据数量?我的旧笔记本电脑无法处理像我正在使用的那样庞大的数据集。

我使用以下代码来“限制”要上传的数据

from elasticsearch import helpers,Elasticsearch
import csv
import itertools

with open('my_data.csv',encoding="utf8") as f:
    reader = csv.DictReader(f)
    for row in itertools.islice(reader,1000): #limitation of data
        helpers.bulk(es,reader,index='movie-plots',doc_type=None)

但这显然行不通;当我检查“POST movie-plots/_count”时,它返回整个数据集的初始大小。

我对 Elasticsearch 完全陌生,如果这是一个新手问题,我很抱歉。我正在使用 Python 客户端(在 Jupyter notebook 中)以便使用 Elasticsearch 和 Kibana。

解决方法

您在 islice 上调用 reader ......但无论如何您都将所有 reader 传递给 helpers.bulk

不在我可以测试的地方;但尝试删除 for 循环并直接将 islice 传递给 helpers.bulk

with open('my_data.csv',encoding="utf8") as f:
    reader = csv.DictReader(f)
    helpers.bulk(es,itertools.islice(reader,1000),index='movie-plots',doc_type=None)