问题描述
在处理文本数据时,我以如下所示的不同方式应用了Python代码进行拼写校正。
from spellchecker import SpellChecker
import re
spell = SpellChecker()
def spell_correct(x):
for w in spell.unkNown(x.split()):
x=re.sub(w,spell.correction(w),x)
return x
df['twitts'] = df['twitts'].apply(lambda x :spell_correct(x))
我尝试的另一种方法是:
from textblob import TextBlob
df['twitts'] = df['twitts'].apply(lambda x :TextBlob(x).correct())
上面提到的两个python代码都花费大量时间来执行df中30000行数据的代码。 (实际上必须手动停止执行。)
如果有人知道以更有效的方式进行拼写检查的技巧,请分享或发表评论。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)