问题描述
我在特定数据框 (df1) 中有一个列,其中包含一定数量的观察值。我想计算 df1 的每个观察值与包含更多观察值的另一个数据框 (df2) 的所有观察值之间的最高相似度得分。
示例: df1-
先生。号 | 句子 |
---|---|
1. | 我的名字是Hitakshi |
2. | 我来自美国 |
3. | “你好!你好吗?” |
4. | 呆在那里 |
df2 -
先生。号 | 句子 |
---|---|
1. | 你是个白痴 |
2. | 足够聪明 |
3. | 我叫雅利安 |
4. | 怎么了 |
5. | 入住 |
6. | 我来自美国 |
7. | 要有耐心 |
8. | 你很漂亮 |
9. | 我的名字是Hitakshi |
问题: 我想在 df1 的第一次观察(“我的名字是 Hitakshi”)和 df2 的所有观察(忽略标点符号)之间找到最高的字符串相似度分数。同样,对于第二次观察,依此类推。
预期输出-
句子 | 最高相似度得分 |
---|---|
我的名字是Hitakshi | 100 |
我来自美国 | 100 |
“你好!你好吗?” | 40 |
呆在那里 | 20 |
我知道我可以使用 Jarowinkler 距离,但是我如何通过其他列的所有观察值迭代每个观察值。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)