文本预处理中更快的拼写纠正

问题描述

在处理文本数据时,我以如下所示的不同方式应用了Python代码进行拼写校正。

from spellchecker import SpellChecker
import re

spell = SpellChecker()

def spell_correct(x):
   for w in spell.unkNown(x.split()):
       x=re.sub(w,spell.correction(w),x)
   return x


df['twitts'] = df['twitts'].apply(lambda x :spell_correct(x))

我尝试的另一种方法是:

from textblob import TextBlob
df['twitts'] = df['twitts'].apply(lambda x :TextBlob(x).correct())

上面提到的两个python代码都花费大量时间来执行df中30000行数据的代码。 (实际上必须手动停止执行。)

如果有人知道以更有效的方式进行拼写检查的技巧,请分享或发表评论

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)