Spark SQL中的fetchSize,PartitionColumn,LowerBound,upperBound

问题描述

嗨,我是Spark sql的新手,并得到了一份编写Spark作业的任务,以使用Spark sql从jdbc加载数据并将其加载到cassandra中。

我试图从现有项目中引用一些旧的Spark代码。 这是提到的配置e:

Total Record Count in JDBC table :233400

以下是火花代码中提到的配置:

LowerBound:0
Upper bound:100000
numPatrition:20
fetchSize:100

根据文章:How to operate numPartitions,lowerBound,upperBound in the spark-jdbc connection?

numPatrition:一次可以与数据库建立的并发连接数。

SELECT * FROM table WHERE partitionColumn < 5000 or partitionColumn is null

SELECT * FROM table WHERE partitionColumn >= 5000 AND <10000

SELECT * FROM table WHERE partitionColumn >= 10000 AND <15000

SELECT * FROM table WHERE partitionColumn >= 15000 AND <20000

...

SELECT * FROM table WHERE partitionColumn >= 95000

但是在参考代码中,我无法理解获取大小将在这里扮演什么角色。我的数据将如何分区(考虑到记录数与上述记录相同:233400) 同样,一旦达到上限,是否意味着最后一个分区将具有: (totalRecord-upperBound)记录数?

请帮助我理解这个概念

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...