R:为什么matchs函数比要求的多38个单词正则表达式中有13个?

问题描述

上下文: 名词计数数据框中有10489列-其中大多数是字典中单词的计数。我正在尝试从此框架中标识和取消选择13列以用于新框架。我创建了一个正则表达式,其中包含我想省略的13个单词,并希望使用匹配项来取消选择该正则表达式中的新列。这适用于上面的较小数据框。

问题: 但是,该功能过大并选择了51个单词,而不是13个单词。

我正在尝试解决代码

#new data frame (nouncount_ctrl) for control which removes final rain tokens
nouncount_ctrl <- nouncount %>% select(ematches(fin_rainsetregex)) 

有效的代码

nouncount_ctrl <- nouncount_ctrl %>% select(-c(cloud,clouds,drizzle,hail,mist,monsoon,rain,rainbow,rainfall,rains,sleet,storm,thunderstorm))

我希望使match函数的工作效率更高。

解决方法

简单的解决方案。发布以防万一:创建rain_terms后未正确计算正则表达式:

fin_rainset_regex