使用SequenceMatcher在多个字符串中查找常见片段

问题描述

我想在以下两者之间找到共同的字符串: strings_list = ['PS1 123456测试','PS1 758922测试','PS1 978242测试']

下面的代码仅返回第一部分“ PS1 1”,我可以想象结果是“ PS1 Test”。您能帮我吗,可以使用SequenceMatcher获得吗?预先谢谢你!

def findCommonStr(strings_list: list) -> str:

        common_str = strings_list[0]

        for i in range(1,n):
            match = SequenceMatcher(None,common_str,strings_list[i]).get_matching_blocks()[0]      
            common_str = common_str[match.b: match.b + match.size]

        common_str = common_str.strip()

        return common_str

解决方法

您需要保留所有片段,而不仅仅是第一个:

def get_common_str(strs: List[str]) -> str:
    common_str = strs[0] if strs else ''

    for str_ in strs[1:]:
        common_str = ''.join(
            common_str[m.a:m.a + m.size]
            for m in SequenceMatcher(None,common_str,str_).get_matching_blocks()
        )

    return common_str


print(get_common_str(['PS1 123456 Test','PS1 758922 Test','PS1 978242 Test']))

给出

PS1 2 Test

这个问题很棘手,因此这种启发式方法可能并不总是有效,请随时提出另一个问题!看起来SequenceMatcher在您的情况下做得很好。我们不仅得到了常用词,而且还得到了碎片,令人印象深刻。

,

这没有SequenceMatcher方法。如果所有字符串都遵循相同的模式,则可以将它们拆分为空格上的单词。

strings_list = ['PS1 123456 Test','PS1 978242 Test']

test = []
for string in strings_list:
  print(string.split())
  test.append(string.split())

>>> ['PS1','123456','Test']
['PS1','758922','978242','Test']

现在,您可以简单地执行一个相交来查找公共元素。参考:Python -Intersection of multiple lists?

set(test[0]).intersection(*test[1:])

>>> {'PS1','Test'}

# join them to get string
' '.join(set(test[0]).intersection(*test[1:]))

>>> PS1 Test

仅当他们遵循这种由空格分隔的模式时,此方法才有效。

功能:

def findCommonStr(strings_list: list) -> str:

  all_str = []
  for string in strings_list:
    
    all_str.append(string.split())

  return ' '.join(set(all_str[0]).intersection(*all_str[1:]))

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...