在保持 SpacyR + Quanteda 中的填充的同时选择具有特定 POS 标签的单词的最佳方法？

问题描述

在保持填充的同时删除具有特定 POS 的单词的最佳方法是什么？

根据documentation，一种可能的方法是：

spacy_parse("The cat in the hat ate green eggs and ham.",pos = TRUE) %>%
as.tokens(include_pos = "pos") %>%
tokens_select(pattern = c("*/NOUN"),padding = TRUE)

然而，这会导致 POS 标签不断附加到单词上（例如“cat/NOUN”），当我想对文本进行额外处理/可视化时，这会变得有问题且麻烦。

或者，我可以根据 pos 做一个子集，但这没有添加填充的选项，当我想创建 ngram 时，这会成为问题。

spacy_parse("The cat in the hat ate green eggs and ham.",pos = TRUE) %>%
subset(pos == 'NOUN') %>%
as.tokens()

在这种情况下最好的解决方案是什么？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

quanteda r r spacy

在保持 SpacyR + Quanteda 中的填充的同时选择具有特定 POS 标签的单词的最佳方法？

问题描述

解决方法

相关问答