问题描述
我有这个程序应该返回(使用线性搜索)“语料库”中紧跟在“last”之后的所有单个字符实例的列表(包括重复项)。字符应该与它们在语料库中出现的顺序相同
示例:
filter_possible_chars('lazy languid line','la')
['z','n']
filter_possible_chars('pitter patter batton','tt')
['e','e','o']
filter_possible_chars('pitter pattor batt','tt')
['e','o']
但是我的程序在第二个示例中遇到了问题,在单词 batt 中的第三个 tt 之后,它之后没有任何内容,因此显然不应将其他任何内容放入列表中,但我得到的 IndexError 列表索引超出了范围?
这是函数:
def filter_possible_chars(corpus,last):
listo = []
last_list = []
final = []
for thing in corpus:
listo.append(thing)
for last_word in last:
last_list.append(last_word)
for index,letter in enumerate(listo):
if letter == last_list[0]:
if listo[index+1] == last_list[1]:
final.append(listo[index+2])
print(final)
解决方法
您似乎已经确定了问题;您有时会尝试访问索引超过列表最大索引的列表元素:final.append(listo[index+2])
或此处 listo[index+1]
。
您可以定义一个辅助方法来首先检查访问是否成功。
def get(_list,index):
if len(_list) >= index - 1:
return _list[index]
my_list = [1,2,3]
idx = get(my_list,2) # 3
idx = get(my_list,4) # None
if idx is not None:
# do stuff
,
您遇到的问题是 'tt'
位于您的第三个字符串的末尾,因此当您尝试查找此后的字母时,您增加了索引,但字符串已到达末尾,当试图将索引增加一,你最终会要求一个不存在的字符
首先,在这种情况下,如果您想让它返回字符串的第一个字符,请使用 modulus 运算符将值减少为零:
def filter_possible_chars(corpus,last):
listo = []
last_list = []
final = []
for thing in corpus:
listo.append(thing)
for last_word in last:
last_list.append(last_word)
for index,letter in enumerate(listo):
if letter == last_list[0]:
if listo[(index+1)%len(corpus)] == last_list[1]:
final.append(listo[(index+2)%len(corpus)])
print(final)
或者,如果你希望它在这种情况下返回 None,你可以添加一个 if 语句来检测它是否在它的极限,如果是,什么都不做,然后使用 {{ 1}}
,好吧,试试这个,它解决了索引问题:
import re
query_list = [
['lazy languid line','la'],['pitter patter batton','tt'],['pitter pattor batt','tt']
]
def search(query):
query_string = query[0]
query_key = query[1]
result = []
for match in re.finditer(query_key,query_string):
if match.span()[-1] < len(query_string):
result.append(query_string[match.span()[-1]])
else:
result.append(None)
return result
for query in query_list:
result = search(query)
print (query)
print (result)
输出:
['lazy languid line','la']
['z','n']
['pitter patter batton','tt']
['e','e','o']
['pitter pattor batt','o',None]
,
它后面没有任何东西,所以显然不应该在列表中放任何其他东西
当代码到达倒数第二个 t 时,if 条件都为 True 并且它试图得到 listo[index+2]
什么都不是,所以它引发 IndexError 告诉你我没有'不知道你想让我得到什么。当涉及到最后一个 t 时,它再次发生,试图获得 listo[index+1]
。
您可以在倒数第三个字符处停止搜索:
def filter_possible_chars(corpus,last):
result = []
for i in range(len(corpus)-2):
if corpus[i:i+2] == last:
result.append(corpus[i+2])
print(result)
,
你可以使用列表推导来做到这一点。
def filter_possible_chars(corpus,last):
parts = [word.split(last) for word in corpus.split() if last in word]
return [w[1][0] for w in parts if w[1]]
print (filter_possible_chars('lazy languid line','la'))
print (filter_possible_chars('pitter patter batton','tt'))
print (filter_possible_chars('pitter pattor batt','it'))
print (filter_possible_chars('pitter pattor batt','er'))
print (filter_possible_chars('pitter pattor batt','ox'))
您可以将这两行合并为一个长列表推导式,如下所示:
return [word.split(last)[1][0] for word in corpus.split() if last in word and word.split(last)[1]]
让我解释一下代码:
parts = [word.split(last) for word in corpus.split() if last in word]
这里我尝试使用
将语料库拆分为单个单词for word in corpus.split()
之后,我检查 last
是否在单个单词中
如果子字符串 last
存在,那么我将再次使用 last
作为子字符串拆分单词。这将给出两组字符串。第一部分将是 last
中子字符串之前的所有字符,第二部分将是 last
中子字符串之后的所有字符。
例如,对于子字符串 lazy
,['','zy']
将被拆分为 la
。而对于pitter
['pi','er']
将被拆分为tt
一旦你有了这个列表,那么你需要从索引 1 中选择第一个字符。
搜索la
:
lazy languid line
将导致 [['','zy'],['','nguid']]
搜索`tt':
pitter patter batton
将导致 [['pi','er'],['pa',['ba','on']]
搜索`tt':
pitter pattor batt
将导致 [['pi','or'],'']]
搜索`er':
pitter pattor batt
将导致 []
搜索`ox':
pitter pattor batt
将导致 []
这告诉我们,如果索引 1 值有一个字符串,我们可以选择所有结果。
所以下一个列表推导式语句是:
return [w[1][0] for w in parts if w[1]]
在这里,我们从 parts
中提取每个块并检查索引 1 是否包含任何字符串。如果是,则提取第 0 个位置并返回。
以下语句的输出是:
print (filter_possible_chars('lazy languid line','ox'))
['z','n']
['e','o']
['e','o']
['t']
[]
[]