R:提取与数据集在语法上相似的条目

问题描述

我有一个很大的数据集,其中包含数百个公司名称,看起来像这样:

Name:
Earth Ltd.
Rocket International LLC
Space Corp LLC
Space Corporation LLc
Space International Corporation Ltd
Satellite Global

有些条目只是拼写不同(有时拼写错误重命名),或者(出于我的目的)是同一家公司。我正在尝试将这些不同的拼写合并为一个一致的版本,例如Space Corp LLC,Space Corporation LLc,Space International Corporation Ltd变成Space Corp. LLC

是否有一个脚本或软件包可让我句法提取或以其他方式提取类似的条目,所以我可以查看需要折叠的条目吗?

非常感谢!

解决方法

这项工作:

corp <- c( 'Earth Ltd.','Rocket International LLC','Space Corp LLC','Space Corporation LLc','Space International Corporation Ltd','Satellite Global')
corp <- data.frame(name = corp)
library(stringr)
library(dplyr)
corp
                                 name
1                          Earth Ltd.
2            Rocket International LLC
3                      Space Corp LLC
4               Space Corporation LLc
5 Space International Corporation Ltd
6                    Satellite Global
 
corp %>% mutate(newcol = str_replace_all(name,'Space Corp LLC|Space Corporation LLc|Space International Corporation Ltd','Space Corp. LLC'))
                                 name                   newcol
1                          Earth Ltd.               Earth Ltd.
2            Rocket International LLC Rocket International LLC
3                      Space Corp LLC          Space Corp. LLC
4               Space Corporation LLc          Space Corp. LLC
5 Space International Corporation Ltd          Space Corp. LLC
6                    Satellite Global         Satellite Global
>