Fuzzywuzzy匹配2列...脚本保持运行

问题描述

我正在尝试将2列〜50.000实例与Fuzzywuzzy进行匹配。 A列(公司)包含公司名称和一些错字。 B列(正确)包含正确的公司名称。

我正在尝试将错字与正确的错字匹配。在下面运行我的脚本时,内核会持续执行数小时且未提供结果。

关于如何改进的任何想法?

非常感谢!

更新文件链接:https://fromsmash.com/STLz.VEub2-ct

import pandas as pd
from fuzzywuzzy import process,fuzz 
import matplotlib.pyplot as plt 

correct = pd.read_excel("correct.xlsx")
companies = pd.read_excel("companies2.xlsx")

actual_comp = []
similarity = []

for i in companies.Customers: 
    ratio = process.extract(i,correct.Correct,limit=1)
    actual_comp.append(ratio[0][0])
    similarity.append(ratio[0][1])
    
companies['actual_company'] = pd.Series(actual_comp)
companies['similarity'] = pd.Series(similarity) 

companies.head(10)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)