问题描述
我有一个二进制数,我需要将其分组为 0 和 1 组。 另外我需要得到每个这样新成立的组的开始和结束索引
例如,假设数字是 1100111100
我需要将其分组为 11,00,1111,00
现在每组的开始和结束索引应该是这样的
11 : (1,2),00 : (3,4),1111:(5,8) and 00: (9,10)
我打算使用 Python。我研究并发现 itertools 可以提供帮助,但不确定在 itertools 中使用哪个函数。
非常感谢任何帮助
谢谢
解决方法
这可以在一行中使用正则表达式来完成
a = "1100111100"
[' : '.join([i.group(),str((i.start()+1,i.end()))]) for i in re.finditer("0+|1+",a)]
重新查找器
返回一个迭代器,在字符串中 RE 模式的所有非重叠匹配上产生匹配对象。
意味着所有唯一的命中都在迭代器中返回
输出
['11 : (1,2)','00 : (3,4)','1111 : (5,8)','00 : (9,10)']
,
请您尝试以下操作:
import re
str = '1100111100'
l = re.findall('0+|1+',str) # now l = ['11','00','1111','00']
l2 = []
pos = 1
for x in l:
l2.append("%s : (%d,%d)" % (x,pos,pos + len(x) - 1))
pos += len(x)
print(l2)
输出:
['11 : (1,10)']
,
使用 itertools.groupby:
from itertools import groupby
def func(string):
i = 1
for _,g in groupby(string):
g = ''.join(g)
j = len(g)
yield (i,i+j-1),g
i += j
>>> dict(func('1100111100'))
{(1,2): '11',(3,4): '00',(5,8): '1111',(9,10): '00'}
要将其用作字典,键必须是您的结束和开始索引,值必须是子字符串。