如何为分区键定义特定的火花节点?

问题描述

我需要在异构集群中运行数据集的相似性连接算法。

在程序的第一步中,对数据集的记录进行签名,并将签名相同的记录发送到同一个处理节点。

不共享签名的集合对不能相似。因此,一种直观的方法是使用签名作为分区键,确定将记录发送到的工作人员。因此,仅将具有共同签名的对发送给同一工作人员,避免了不必要的数据传输和相似性评估。

但是,我需要确保将具有许多记录的签名发送给具有更好处理能力的工作人员,例如 GPU。那么,如何为分区键定义特定的火花节点?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)