问题描述
希望你今天过得愉快!
我正在尝试将数据从 python 脚本导入到 elasticsearch 索引中。索引必须每隔一段时间(10 分钟)接收一次数据,并在每次 Python 脚本完成该过程时累积所述数据,当然,不要忘记第一个数据,以便可以在 kibana 中绘制它。
我正在使用 eland
从 elastic 获取数据,执行过程(使用 pandas)并使用 pandas_to_eland
(eland documentation here) 将信息发送到 elastic。问题是索引忘记了新传入的数据。
这是我正在做的:
while(True):
#Get data from elasticsearch
eland_data = ed.DataFrame(es,"index_name") # (elasticsearch client,index)
#To pandas
pandas_data = ed.eland_to_pandas(eland_data)
#=====================================================================
#Some proccess with pandas_data that gives 1 dataframe row of data
#=====================================================================
ed_df = ed.pandas_to_eland(pandas_data,#Processed data
es,#Elasticsearch client
"new_index_data,#Name the new index
es_if_exists="append",#append?
es_refresh=True) #Refresh index
time.sleep(600) #10 min until next catch of data
解决方法
Elasticsearch 有一个叫做 pivot transforms 的概念,可以持续聚合一个索引的数据(基于唯一键)。它还将该信息放入一个新索引中,并在 Elasticsearch 集群中运行。您可以通过 API 创建这些作业,也可以通过 UI 在 Kibana 中一起单击它们。
这就是你所追求的吗?