识别列表中单个单词的语言

问题描述

假设我有一个不同语言的单词列表,我需要按语言对单词进行排序。什么是最有效的方法来做到这一点?目前我正在使用 Python 的 langdetect,它非常擅长识别独特字符集的单个单词。例如,“这是什么”是普通话的概率大于 0.99,而“תפוחים”是希伯来语的概率大于 0.99,但是当给出一个来自拉丁字母表中不同语言的单词时,它会遇到困难。例如,'intro' 是意大利语的概率大于 0.99,而 'já' 是匈牙利语的概率大于 0.99。我正在考虑以某种方式将这些词组合在一起(因为每种语言都有多个词),“sweaty intro”产生的概率大于 0.99 是英语,而“ele já”产生的概率大于 0.99 是葡萄牙语。

testWords = ['这是什么','这是什么','王明是学生。','sweaty','intro','am','תפוח','תפוחים','אני','criança','ele','já']

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)