多语言错误:输入在字节 333789共 361147 个附近包含无效的 UTF-8

问题描述

我正在使用 polyglot 检测英文文本,我在 Pandas 数据帧上应用了一个函数,但出现错误。这是我的代码

def is_english(self,txt):
    # try:
    wrap = self.detector(txt)
    languages = wrap.languages  # The first language will be the most confident language,check if it's English and with more than 98% confidence!
    top_lan = languages[0]
    return top_lan.name == 'English' and top_lan.confidence >= 98

df = pd.read_csv('data.csv')
df = df[df.input_text.apply(is_english)]

错误是:

pycld2.error: input contains invalid UTF-8 around byte 1383 (of 22731)

我该如何解决这个问题? 谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...