在保持 SpacyR + Quanteda 中的填充的同时选择具有特定 POS 标签的单词的最佳方法?

问题描述

在保持填充的同时删除具有特定 POS 的单词的最佳方法是什么?

根据documentation,一种可能的方法是:

spacy_parse("The cat in the hat ate green eggs and ham.",pos = TRUE) %>%
as.tokens(include_pos = "pos") %>%
tokens_select(pattern = c("*/NOUN"),padding = TRUE)

然而,这会导致 POS 标签不断附加到单词上(例如“cat/NOUN”),当我想对文本进行额外处理/可视化时,这会变得有问题且麻烦。

或者,我可以根据 pos 做一个子集,但这没有添加填充的选项,当我想创建 ngram 时,这会成为问题。

spacy_parse("The cat in the hat ate green eggs and ham.",pos = TRUE) %>%
subset(pos == 'NOUN') %>%
as.tokens()

在这种情况下最好的解决方案是什么?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...