问题描述
我有一个很大的数据集,其中包含数百个公司名称,看起来像这样:
Name:
Earth Ltd.
Rocket International LLC
Space Corp LLC
Space Corporation LLc
Space International Corporation Ltd
Satellite Global
有些条目只是拼写不同(有时拼写错误或重命名),或者(出于我的目的)是同一家公司。我正在尝试将这些不同的拼写合并为一个一致的版本,例如Space Corp LLC,Space Corporation LLc,Space International Corporation Ltd
变成Space Corp. LLC
。
是否有一个脚本或软件包可让我句法提取或以其他方式提取类似的条目,所以我可以查看需要折叠的条目吗?
非常感谢!
解决方法
这项工作:
corp <- c( 'Earth Ltd.','Rocket International LLC','Space Corp LLC','Space Corporation LLc','Space International Corporation Ltd','Satellite Global')
corp <- data.frame(name = corp)
library(stringr)
library(dplyr)
corp
name
1 Earth Ltd.
2 Rocket International LLC
3 Space Corp LLC
4 Space Corporation LLc
5 Space International Corporation Ltd
6 Satellite Global
corp %>% mutate(newcol = str_replace_all(name,'Space Corp LLC|Space Corporation LLc|Space International Corporation Ltd','Space Corp. LLC'))
name newcol
1 Earth Ltd. Earth Ltd.
2 Rocket International LLC Rocket International LLC
3 Space Corp LLC Space Corp. LLC
4 Space Corporation LLc Space Corp. LLC
5 Space International Corporation Ltd Space Corp. LLC
6 Satellite Global Satellite Global
>