使用 Atlas 集群的 pyspark-mongoDB 连接器

问题描述

我正在 jupyter notebook 中运行下面的代码

    authURI="mongodb://<username>:[email protected]/database.collection"


    spark = SparkSession.builder.appName("myApp")\
            .config('spark.executor.extraClasspath','C:/Users/marcos Motta/.ivy2/jars')\
            .config("spark.jars.packages","org.mongodb.spark:mongo-spark-connector_2.12:3.0.1") \
            .config('spark.mongodb.input.uri',authURI)  \
            .config('spark.mongodb.output.uri',authURI)  \
            .getorCreate()

我正在努力使我的应用程序正常工作。在 SparkSession 构建期间,我收到如下错误消息

Py4JJavaError:调用 None.org.apache.spark.api.java.JavaSparkContext 时出错。 :java.io.FileNotFoundException:文件文件:/C:/Users/marcos%20Motta/.ivy2/jars/org.mongodb.spark_mongo-spark-connector_2.12-3.0.1.jar 不存在 在 org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:666) 在 org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:987) 在 org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:656) 在 org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:454) 在 org.apache.spark.SparkContext.addFile(SparkContext.scala:1534) 在 org.apache.spark.SparkContext.addFile(SparkContext.scala:1498) 在 org.apache.spark.SparkContext.$anonfun$new$12(SparkContext.scala:494) 在 org.apache.spark.SparkContext.$anonfun$new$12$adapted(SparkContext.scala:494) 在 scala.collection.immutable.List.foreach(List.scala:392) 在 org.apache.spark.SparkContext.(SparkContext.scala:494) 在 org.apache.spark.api.java.JavaSparkContext.(JavaSparkContext.scala:58) 在 sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) 在 sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) 在 sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) 在 java.lang.reflect.Constructor.newInstance(Constructor.java:423) 在 py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:247) 在 py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357) 在 py4j.Gateway.invoke(Gateway.java:238) 在 py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80) 在 py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69) 在 py4j.GatewayConnection.run(GatewayConnection.java:238) 在 java.lang.Thread.run(Thread.java:748)

有人可以帮忙吗?文件路径正确

提前致谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)