计算包含两个不同数据帧中字符串的两列之间的字符串相似度

问题描述

我在特定数据框 (df1) 中有一个列,其中包含一定数量的观察值。我想计算 df1 的每个观察值与包含更多观察值的另一个数据框 (df2) 的所有观察值之间的最高相似度得分。

示例: df1-

先生。号 句子
1. 我的名字是Hitakshi
2. 我来自美国
3. “你好!你好吗?”
4. 呆在那里

df2 -

先生。号 句子
1. 你是个白痴
2. 足够聪明
3. 我叫雅利安
4. 怎么了
5. 入住
6. 我来自美国
7. 要有耐心
8. 你很漂亮
9. 我的名字是Hitakshi

问题: 我想在 df1 的第一次观察(“我的名字是 Hitakshi”)和 df2 的所有观察(忽略标点符号)之间找到最高的字符串相似度分数。同样,对于第二次观察,依此类推。

预期输出-

句子 最高相似度得分
我的名字是Hitakshi 100
我来自美国 100
“你好!你好吗?” 40
呆在那里 20

我知道我可以使用 Jarowinkler 距离,但是我如何通过其他列的所有观察值迭代每个观察值。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)