Spacy lemmatization:单词“number”的结果不正确

问题描述

我发现 spacy 错误地将“数字”一词词形还原为“麻木”,这会导致我之后进行主题建模时主题不准确。下面是输出为“numb”的示例代码。我试图用“word.lemma_.strip()”替换“word.lemma_”,但得到了相同的结果。

如何自定义 lemma_ 函数,以便在词形还原后不会将“数字”转换为“麻木”?

test = nlp('number')

for word in test:
        print(word.lemma_)

##This output "numb" 

更新: 我试图将 'number' 的 POS 强制为 NOUN,但在 .lemma_ 函数后仍然得到 'numb'。

from spacy.symbols import NOUN,PROPN

test = nlp('my phone number is 3')

for word in test:
    if word.text == "number":
        word.pos = NOUN
    
    print(word.lemma_)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)