尝试通过 scala/spark 应用程序连接到 postgres 数据库时出现 ClassNotFoundException

问题描述

我需要通过 scala/spark 应用程序连接到 postgres 数据库。当我在 IDE 中运行它时它运行良好,但是,当我尝试使用此命令运行打包的可执行 jar 时,我收到以下日志消息:

触发可执行jar:

java -cp HighestPerformingCampaign-assembly-1.0.jar com.scala.Executor

抛出异常:

Exception in thread "main" java.lang.classNotFoundException: Failed to find data source: jdbc. Please find packages at http://spark.apache.org/third-party-projects.html
            at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:689)
            at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSourceV2(DataSource.scala:743)
            at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:266)
            at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:226)
            at com.scala.Executor$.findHighestCampaign(Executor.scala:31)
            at com.scala.Executor$.main(Executor.scala:15)
            at com.scala.Executor.main(Executor.scala)
    Caused by: java.lang.classNotFoundException: jdbc.DefaultSource
            at java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:602)
            at java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:178)
            at java.base/java.lang.classLoader.loadClass(ClassLoader.java:522)
            at org.apache.spark.sql.execution.datasources.DataSource$.$anonfun$lookupDataSource$5(DataSource.scala:663)
            at scala.util.Try$.apply(Try.scala:213)
            at org.apache.spark.sql.execution.datasources.DataSo`enter code here`urce$.$anonfun$lookupDataSource$4(DataSource.scala:663)
            at scala.util.Failure.orElse(Try.scala:224)
            at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:663)
            ... 6 more

我的build.sbt文件设置如下:

name := "HighestPerformingCampaign"

version := "1.0"

crossScalaVersions := Seq("2.11.12","2.12.12")

libraryDependencies += "org.apache.spark" %% "spark-core" % "3.1.1"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.1.1"

libraryDependencies +=  "org.postgresql" % "postgresql" % "9.3-1102-jdbc41"

mainClass := Some("com.scala.Executor")
assemblyJarName in assembly := "HighestPerformingCampaign-assembly-1.0.jar"

我正在使用存储在项目文件夹下的 sbt-assembly 插件生成 jar:

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.15.0")

在这里遗漏了什么阻止驱动程序被添加到打包的 jar 中?我的连接详细信息也指定如下:

val df = spark
      .sqlContext
      .read
      .format("jdbc")
      .option("url","jdbc:postgresql:postgres")
      .option("user","postgres")
      .option("password","postgres")
      .option("query",query)
      .load()

解决方法

您可以使用 jar -tf HighestPerformingCampaign-assembly-1.0.jar 检查您的 jar 是否具有所需的类。如果它不包含所需的类 jdbc.DefaultSource(应该是这种情况),则意味着胖 / 打包的 jar 未按预期构建。我建议您不要创建这个胖 jar,而是可以从 IDE 创建 Artifacts (在 Intellij 中它位于 Project Settings -> Artifacts ),这基本上是创建并将所有依赖的 jar 放在某些 Artifacts 根目录下,并且然后将此目录的路径提供给 java 命令,如 java -cp HighestPerformingCampaign-assembly-1.0.jar:<absolute path to artifact root> com.scala.Executor

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...