有没有办法查看 2 个数据列是否代表相同类型的信息?

问题描述

我有 2 个数据集代表重叠信息。例如:

**数据集 1:**

ID 注册日期 类别
P123 23/2/2019 3
P345 24/6/2019 2

**数据集 2:**

EID 注册日期 位置
P666 27/4/2020 新西兰
P459 6/6/2019 AU

我想要做的是创建一种自动的方式来接收2个数据集,然后输出匹配的列,即哪些列代表相同类型的信息。在这里,虽然ID和EID名称不同,但它们代表的都是同一种信息,因为它们都是以P开头,后跟3个数字的ID。

同样,对于注册日期,虽然日期不同,但从标题我们可以看出,它们可能代表的是同一种信息:ID的注册日期。

至于最后一列,“类别”和“位置”可能代表完全不同的信息。

最终,我想要做的是能够推导出一种自动方式将数据集 1 中的相关列连接到数据集 2 中的匹配列。(例如,将 P123 和 P345 从“ID”连接到“EID” )。而且我希望这种方法尽可能自动化,以便它也可以用于其他数据集。

我认为使用每列信息的特征训练机器学习模型来预测数据集 2 中的匹配列可能是最可行的方法。但是,我对要提取的特征类型以及机器学习模型是否是完成此任务的最有效方法感到困惑。非常感谢一些想法!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)