匹配多列中的行，但忽略Rstudio中的NA

问题描述

我正在使用Rstudio识别数据框中的重复帐户。我想找到一种方法来识别某些列中的所有重复项，但是我遇到了NA问题。在下面的代码行中，如果前两行的性别相同，但我希望这两行具有相同的首字母，最后一位，性别和性别，则我将其视为匹配项，因为我创建了is_duplicate标志，因此这两行不是重复的基于串联的匹配列。

有什么想法要对此进行调整吗？

Id-第一-最后-dob-性别-比赛-Is_duplicates

123-阿里-史密斯-1993-女- AliSmith1993女-0

435-阿里-史密斯-1993-不适用- AliSmith1993NA -0

解决方法

您是否尝试过使用agrep进行模糊匹配？ https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/agrep

或者也许这篇文章对您有帮助？

Smartest way to double loop over a data frame (comparing rows to each other with a Levenshtein Dist) in R?

duplicates matching na na r r