如何找到输入列表的匹配模式,然后使用python将找到的模式替换为正确的模式转换

问题描述

请注意,此模式的最后两个数字(例如FBXASC048)应为数字的数字编码(0-9)

输入示例列表['FBXASC048009Car','FBXASC053002Toy','FBXASC050004Human'] 结果示例['1009Car','5002Toy','2004Human']

什么是在输入列表中搜索任何这些模式的正确方法

num_ascii = ['FBXASC048','FBXASC049','FBXASC050','FBXASC051','FBXASC052','FBXASC053','FBXASC054','FBXASC055','FBXASC056','FBXASC057']

,然后用转换列表中的一项替换找到的模式,但不是随机的 因为模式列表中的每个元素仅等于conv_list中的一个元素

conv_list = ['0','1','2','3','4','5','6','7','8','9']

这是解决方案: 它有两个部分

第一部分->将找到ASCII模式[48,49,50,51,52,53,54,55,56,57] 然后将其替换为正确的十进制匹配(0-9) 所以我们将获得新的输入列表,将其称为input_modi_list,其中的ascii替换为小数 第二部分->使用固定模式替换的另一个过程,该替换函数是此“ FBXASC0” new_list3

for x in input_modi_list:
    y = x.replace('FBXASC0','')
    new_list3.append(new_string)  

所以new_list3将具有上述两个部分的组合结果。

我不知道是否有一个简单的解决方案或使用正则表达式的更好的解决方案 还请注意,我不知道如何用十进制替换项目列表中的ascii

解决方法

这就是我要做的。

  1. 通过简单地将字符串与|连接起来,即可制成正则表达式模式:
>>> num_ascii = ['FBXASC048','FBXASC049','FBXASC050','FBXASC051','FBXASC052','FBXASC053','FBXASC054','FBXASC055','FBXASC056','FBXASC057']
>>> conv_list = ['0','1','2','3','4','5','6','7','8','9']

>>> regex_pattern = '|'.join(num_ascii)
>>> regex_pattern
'FBXASC048|FBXASC049|FBXASC050|FBXASC051|FBXASC052|FBXASC053|FBXASC054|FBXASC055
|FBXASC056|FBXASC057'
  1. 只需压缩两个列表,即可创建查找字典:
>>> conv_table = dict(zip(num_ascii,conv_list))
>>> conv_table
{'FBXASC048': '0','FBXASC049': '1','FBXASC050': '2','FBXASC051': '3','FBXASC
052': '4','FBXASC053': '5','FBXASC054': '6','FBXASC055': '7','FBXASC056': '8
','FBXASC057': '9'}
  1. 遍历数据并将匹配的字符串替换为相应的数字:
>>> import re
>>> result = []
>>> for item in ['FBXASC048009Car','FBXASC053002Toy','FBXASC050004Human']:
...     m = re.match(regex_pattern,item)
...     matched_string = m[0]
...     digit = (conv_table[matched_string])
...     print(f'replacing {matched_string} with {digit}')
...     result.append(item.replace(matched_string,digit))
...
replacing FBXASC048 with 0
replacing FBXASC053 with 5
replacing FBXASC050 with 2
>>> result
['0009Car','5002Toy','2004Human']
,

我认为这应该可以解决问题:

import re

input_list = ['FBXASC048009Car','FBXASC050004Human']

pattern = re.compile('FBXASC(\d{3,3})')
def decode(match):
    return chr(int(match.group(1)))
result = [re.sub(pattern,decode,item) for item in input_list]

print(result)

现在,有一些解释了:

1- pattern对象是regular expression,它将匹配以'FBXASC'开头并以3位数字(0-9)结尾的字符串的任何部分。 (\d表示数字,{3,3}表示它应该出现至少3次,最多3次,即恰好3次)。另外,\ d {3,3}周围的括号表示匹配的三个数字将被存储以供以后使用(在下一部分中说明)。

2- decode函数接收一个match object,使用.group(1)提取第一个匹配的组(在我们的例子中是\ d {3,3}匹配的三个数字) ),然后使用int函数将字符串解析为整数(例如,将'048'转换为48),最后使用chr函数查找哪个字符具有该ASCII码。 (例如,chr(48)将返回“ 0”,而chr(65)将返回“ A”)

3-最后一部分将re.sub函数应用于列表的所有元素,这些元素将使用相应的ASCII字符替换您描述的模式(FBXASC048 [3位数字])的每次出现。

您可以看到此解决方案不仅限于您的特定示例。可以使用任何数字,只要它具有chr函数可以识别的相应ASCII字符即可。

但是,如果您确实希望将其限制在48-57范围内,则只需修改decode函数:

def decode(match):
    ascii_code = int(match.group(1))
    if ascii_code >= 48 and ascii_code <= 57:
        return chr(ascii_code)
    else:
        return match.group(0) # returns the entire string - no modification