在Apache Spark Databricks上的Scala笔记本中，您如何正确地将数组强制转换为十进制30,0类型？

问题描述

我正在尝试将数组强制转换为Decimal（30,0），以便在select中动态使用：

WHERE array_contains(myArrayUDF(),soMetable.someColumn)

但是使用以下方法进行投射

val arrIds = someData.select("id").withColumn("id",col("id")
                .cast(DecimalType(30,0))).collect().map(_.getDecimal(0))

Databricks接受并签名，但是看起来已经是错误的： intArrSurrIds：Array [java.math.BigDecimal] = Array（2181890000000，...）//即，一个BigDecimal

这将导致以下错误：

sql语句中的错误：AnalysisException：无法解决..由于数据类型不匹配：函数array_contains的输入应该是array，后跟具有相同元素类型的值，但它是[array ，十进制（30,0）]

如何在Spark Databricks Scala笔记本中正确转换为十进制（30,0）而不是十进制（38,18）？

任何帮助表示赞赏！

解决方法

您可以使用以下代码将arrIds设为Array[Decimal]：

import org.apache.spark.sql.functions.col
import org.apache.spark.sql.types.{Decimal,DecimalType}

val arrIds = someData.select("id")
  .withColumn("id",col("id").cast(DecimalType(30,0)))
  .collect()
  .map(row => Decimal(row.getDecimal(0),30,0))

但是，它不能解决您的问题，因为一旦创建了用户定义的函数as I explain in this answer

，您就会失去精度和规模。

要解决您的问题，您需要将列someTable.someColumn转换为与UDF返回类型相同的精度和小数位数的Decimal。因此，您的WHERE子句应为：

WHERE array_contains(myArray(),cast(someTable.someColumn as Decimal(38,18)))