问题描述
假设我有一个包含特定语言单词的 WorkBank 数据库。例如,俄语。俄语单词因数量和格而有不同的词尾(主格、宾格等)
因此,学生可能是:
студент студента
还有什么...
还有其他语言,例如英语,其中动词可以根据其时态(说、说、说等)有不同的形式。 此外,其他语言,如意大利语和法语,其中的单词可能会与另一个单词连接:
酒店 = 酒店 l'hôtel = 酒店
anatra = 鸭子 l'anatra = 鸭子
我想将所有单词存储在 WorkBank 中,但是,我想将它们链接到它们的父单词并区分唯一单词与派生单词,因此所有形式的 студент 和所有形式的“speak”都只计算一个.
我知道这是一个非常广泛的主题,我不是在寻求解决方案。如果有人能给我指出正确的方向或任何我可以阅读的文档来开始实施,我将不胜感激。
解决方法
您需要执行一些步骤:
- 为每个单词找到一个引理(为此,您可以查看
nltk
库文档,其中包含示例)。 - 将这些词条翻译成一种语言(例如英语),然后通过这种翻译将单词分组。