问题描述
我发现 spacy 错误地将“数字”一词词形还原为“麻木”,这会导致我之后进行主题建模时主题不准确。下面是输出为“numb”的示例代码。我试图用“word.lemma_.strip()”替换“word.lemma_”,但得到了相同的结果。
如何自定义 lemma_ 函数,以便在词形还原后不会将“数字”转换为“麻木”?
test = nlp('number')
for word in test:
print(word.lemma_)
##This output "numb"
更新: 我试图将 'number' 的 POS 强制为 NOUN,但在 .lemma_ 函数后仍然得到 'numb'。
from spacy.symbols import NOUN,PROPN
test = nlp('my phone number is 3')
for word in test:
if word.text == "number":
word.pos = NOUN
print(word.lemma_)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)