用Python语言进行大数据检测

问题描述

我正在尝试对熊猫数据框中的Series对象运行语言检测。但是,我正在处理数百万行的字符串数据,并且标准的Python语言检测库langdetectlangid太慢,并且在运行数小时后仍未完成。

我将代码设置如下:

#function to detect language
def detect_language (cell):
    if len(cell) > 0:
        lan = langid.classify(cell)
    else:
        lan = "NaN"
    return lan
#language detection using langid module

df['language'] = df.apply(lambda row: detect_language(row.Series),axis = 1)

有人对如何加快我的代码速度或者是否还有另一个库提出建议吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)