如何使用Google Spreadsheets执行Spark Streaming?

问题描述

我想构建一个将在本地运行的应用程序,以支持实时数据处理,并且需要使用python构建。

需要实时提供的输入,该输入采用Google电子表格的形式(多个用户一次提供那里的数据)。

此外,还需要将代码的实时输出写回到相邻列中的电子表格。

请帮助我。

谢谢

解决方法

您可以使用spark-google-spreadsheets库从Spark as described here读取和写入Google表格。

下面是一个示例,该示例说明了如何将数据从Google表格读取到DataFrame中:

val df = sqlContext.read.
    format("com.github.potix2.spark.google.spreadsheets").
    load("<spreadsheetId>/worksheet1")

增量更新将很困难。您可能只想尝试完全刷新即可。