如何在Spark中从Cassandra Datastax Cloud中读取数据

问题描述

如何在Spark 2.0中从Cassandra Datastax读取数据?

这是我尝试过的-

val df = spark.read.format("org.apache.spark.sql.cassandra").options(Map("keyspace" -> "my_keyspace","table" -> "my_table","spark.cassandra.connection.config.cloud.path" -> "file:///home/training/secure-connect-My_path.zip","spark.cassandra.auth.password" -> "password","spark.cassandra.auth.username" -> "Username"
      ))
      .load()

我收到此错误

Exception in thread "main" java.lang.classNotFoundException: Failed to find data source: org.apache.spark.sql.cassandra. Please find packages at http://spark.apache.org/third-party-projects.html

当我使用datastax zip时,为什么需要安装Cassandra或执行其他任何步骤?

使用相同的zip文件,我可以在java程序中读取数据。为什么我无法阅读Spark?

解决方法

您在正确的轨道上。如果您是通过Spark Shell连接的,则应传递如下详细信息:

$ spark-shell --packages com.datastax.spark:spark-cassandra-connector_2.11:2.5.0 \
  --files /path/to/your/secure-connect-dbname.zip \
  --conf spark.cassandra.connection.config.cloud.path=secure-connect-dbname.zip \
  --conf spark.cassandra.auth.username=astra_username \
  --conf spark.cassandra.auth.password=astra_password

然后您的代码应类似于:

import org.apache.spark.sql.cassandra._

val df = spark.read.cassandraFormat("ks_name","tbl_name").load()

有关详细信息,请参见Spark Cassandra Connector documentation on connecting to Astra。另外还有{@ 3}的Alex Ott的博客文章。干杯!

,

DataStax Astra仅在Spark Cassandra Connector 2.5.0+中受本机支持,它需要Spark 2.4(尽管它也可以与2.3一起使用)。从理论上讲,您可以从安全捆绑包中提取证书和其他信息,并使用它们,但这是繁琐的任务。因此最好升级Spark版本。

但最初的问题是未提供该软件包-请参见@flightc的答案。