问题描述
我正在使用 R/Quanteda 并且我正在尝试仅使用大写单词制作 wordcloud。 txt 来自 ABNT 格式的参考书目,因此我将只保留作者的姓氏。 任何提示?坦克!
解决方法
基础 R
string <- "lowercase UPPERCASE more lower case UPPER 1143 + 40 = !!!"
gsub(" {2,}"," ",# replace 2 or more consecutive spaces with one space
gsub("[^A-Z ]","",string) # remove anything that's not a space or an uppercase letter
)
#> [1] " UPPERCASE UPPER "
由 reprex package (v2.0.0) 于 2021 年 7 月 2 日创建
Stringr 包
require(stringr)
#> Loading required package: stringr
string <- "lowercase UPPERCASE more lower case UPPER 1143 + 40 = !!!"
str_squish( # remove excess whitespace
str_remove_all(string,"[^[:UPPER:] ]") #remove everything except uppecase and spaces
)
#> [1] "UPPERCASE UPPER"
由 reprex package (v2.0.0) 于 2021 年 7 月 2 日创建