识别列表中单个单词的语言

问题描述

假设我有一个不同语言的单词列表，我需要按语言对单词进行排序。什么是最有效的方法来做到这一点？目前我正在使用 Python 的 langdetect，它非常擅长识别独特字符集的单个单词。例如，“这是什么”是普通话的概率大于 0.99，而“תפוחים”是希伯来语的概率大于 0.99，但是当给出一个来自拉丁字母表中不同语言的单词时，它会遇到困难。例如，'intro' 是意大利语的概率大于 0.99，而 'já' 是匈牙利语的概率大于 0.99。我正在考虑以某种方式将这些词组合在一起（因为每种语言都有多个词），“sweaty intro”产生的概率大于 0.99 是英语，而“ele já”产生的概率大于 0.99 是葡萄牙语。

testWords = ['这是什么','这是什么','王明是学生。','sweaty','intro','am','תפוח','תפוחים','אני','criança','ele','já']

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

language-detection nlp python stanford-nlp