有什么方法可以用python在elasticsearch中提供累积索引?

问题描述

希望你今天过得愉快!

我正在尝试将数据从 python 脚本导入到 elasticsearch 索引中。索引必须每隔一段时间(10 分钟)接收一次数据,并在每次 Python 脚本完成该过程时累积所述数据,当然,不要忘记第一个数据,以便可以在 kibana 中绘制它。

我正在使用 eland 从 elastic 获取数据,执行过程(使用 pandas)并使用 pandas_to_eland (eland documentation here) 将信息发送到 elastic。问题是索引忘记了新传入的数据。

这是我正在做的:

while(True):

  #Get data from elasticsearch
  eland_data = ed.DataFrame(es,"index_name") # (elasticsearch client,index)

  #To pandas 
  pandas_data = ed.eland_to_pandas(eland_data)

#=====================================================================
  #Some proccess with pandas_data that gives 1 dataframe row of data
#=====================================================================

  ed_df = ed.pandas_to_eland(pandas_data,#Processed data
                              es,#Elasticsearch client
                              "new_index_data,#Name the new index
                              es_if_exists="append",#append?
                              es_refresh=True) #Refresh index

  time.sleep(600) #10 min until next catch of data

是否有其他方法可以在弹性搜索索引中累积数据?

解决方法

Elasticsearch 有一个叫做 pivot transforms 的概念,可以持续聚合一个索引的数据(基于唯一键)。它还将该信息放入一个新索引中,并在 Elasticsearch 集群中运行。您可以通过 API 创建这些作业,也可以通过 UI 在 Kibana 中一起单击它们。

这就是你所追求的吗?

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...