在 spark 中的图像数据集上应用 PCA

问题描述

关注这个话题How is Spark reading my image using the image format?

我有一个文件夹,里面有几张图片 JPG。

使用df = spark.read.format("image").load(....),根据上面的主题,图像被编码为与OpenCV兼容的二进制格式

我的目标是应用 PCA 来使用 OpenCV 对图像进行预处理,但我明白首先,二进制格式应该是一个 numpy 数组格式,每个像素都有矩阵。

我的目的是应用 blue,green,red = cv2.split(img) 但在 spark 数据框中。

我尝试在 OpenCV 中使用 withColumn PySpark 方法,但没有奏效。我也无法弄清楚如何从二进制转换为 OpenCV 能够理解的正确 np 数组

我对图片没有太多经验,如果问题不清楚,我很抱歉。

重点是如何使用 df = spark.read.format("image").load(....) 在 Spark DF 中加载的图像中应用 R、G、B 拆分以使它们适合 PCA

感谢您对之前提出的不太好的问题的任何帮助和抱歉

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)