问题描述
在保持填充的同时删除具有特定 POS 的单词的最佳方法是什么?
根据documentation,一种可能的方法是:
spacy_parse("The cat in the hat ate green eggs and ham.",pos = TRUE) %>%
as.tokens(include_pos = "pos") %>%
tokens_select(pattern = c("*/NOUN"),padding = TRUE)
然而,这会导致 POS 标签不断附加到单词上(例如“cat/NOUN”),当我想对文本进行额外处理/可视化时,这会变得有问题且麻烦。
或者,我可以根据 pos 做一个子集,但这没有添加填充的选项,当我想创建 ngram 时,这会成为问题。
spacy_parse("The cat in the hat ate green eggs and ham.",pos = TRUE) %>%
subset(pos == 'NOUN') %>%
as.tokens()
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)