问题描述
我正在尝试将2列〜50.000实例与Fuzzywuzzy进行匹配。 A列(公司)包含公司名称和一些错字。 B列(正确)包含正确的公司名称。
我正在尝试将错字与正确的错字匹配。在下面运行我的脚本时,内核会持续执行数小时且未提供结果。
关于如何改进的任何想法?
非常感谢!
更新文件链接:https://fromsmash.com/STLz.VEub2-ct
import pandas as pd
from fuzzywuzzy import process,fuzz
import matplotlib.pyplot as plt
correct = pd.read_excel("correct.xlsx")
companies = pd.read_excel("companies2.xlsx")
actual_comp = []
similarity = []
for i in companies.Customers:
ratio = process.extract(i,correct.Correct,limit=1)
actual_comp.append(ratio[0][0])
similarity.append(ratio[0][1])
companies['actual_company'] = pd.Series(actual_comp)
companies['similarity'] = pd.Series(similarity)
companies.head(10)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)