记录跨多个数据集链接的最佳方法

问题描述

我一直在尝试使用重复数据删除库来使用 2 个数据集进行记录链接。我现在想用它来链接 10 个(或更多)数据集中的记录。

没有规范的数据集。一条记录可能只出现在一个数据集中,最多出现在所有十个数据集中,但只会在单个数据集中出现一次(该数据集独有)。

链接记录的最佳方式是什么?记录链接同时比较两个数据集;要跨多个数据集进行比较,我需要相互比较。例如,如果我有 3 组(A、B、C),我需要比较 A & B、A & C 和 B & C。这是正确的吗?直觉上,我认为像这样链接彼此独立的数据集可能会产生虚假链接,其中记录 A1 链接到 B1,B1 链接到 C1,但 A1 无法链接到 C1; C1应该被认为是链接的吗? docs note 这是一个挑战。

那么将其视为单个大型数据集并在整个事物中查找重复项会更好吗?这会改善结果吗?会有什么坏处?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)