问题描述
cpython 中确保迭代线程安全的一个常见习惯用法是使用 tuple()
。
例如 - tuple(dict.items())
保证在 cpython 中是线程安全的,即使项目被不同的线程删除。
这是因为解释器在运行这些 C 函数时不运行 eval 循环并且不释放 GIL。我已经测试过了,效果很好。
然而,tuple(reversed(dict.items()))
似乎不是线程安全的,我不明白为什么。它没有运行任何 Python 函数,也没有明确发布 GIL。如果我从 dict
中删除密钥,而它在不同线程上运行,为什么我仍然会收到错误消息?
解决方法
在迭代时修改 dict
的大小总是会出错。 tuple(d.items())
之所以是线程安全的,是因为迭代器的检索和迭代都发生在同一个 C 函数中。
d.items()
创建了一个 dict_items
对象,但还没有迭代器。这就是为什么仍然反映字典大小的变化:
>>> d = {'a': 1,'b': 2}
>>> view = d.items()
>>> del d['a']
>>> list(view)
[('b',2)]
然而,一旦检索到迭代器,字典大小 must not change 就不再:
>>> d = {'a': 1,'b': 2}
>>> iterator = iter(d.items())
>>> del d['a']
>>> list(iterator)
Traceback (most recent call last):
File "<stdin>",line 1,in <module>
RuntimeError: dictionary changed size during iteration
这就是使用 reversed
时发生的情况:它 creates a reverse iterator 的 dict 项。导致麻烦的是迭代器部分,因为一旦创建了迭代器,底层 dict 就不能改变大小:
>>> d = {'a': 1,'b': 2}
>>> r = reversed(d.items())
>>> r # Note the iterator here.
<dict_reverseitemiterator object at 0x7fb3a4aa24f0>
>>> del d['a']
>>> list(r)
Traceback (most recent call last):
File "<stdin>",in <module>
RuntimeError: dictionary changed size during iteration
因此在特定示例 tuple(reversed(dict.items()))
中,创建了原始 dict 的迭代器 reversed(dict.items())
,然后由 tuple
对其进行迭代。然而,这个迭代器要求 dict 的大小不变。就像 tuple(iter(dict.items()))
的顺序相反。
关于 GIL 开关,eval 循环在获取 reversed()
的结果时运行,在创建迭代器后,将其发送到 tuple()
进行迭代。请参阅以下反汇编:
>>> dis.dis("tuple({}.items())")
1 0 LOAD_NAME 0 (tuple)
2 BUILD_MAP 0
4 LOAD_METHOD 1 (items)
6 CALL_METHOD 0
8 CALL_FUNCTION 1
10 RETURN_VALUE
>>> dis.dis("tuple(reversed({}.items()))")
1 0 LOAD_NAME 0 (tuple)
2 LOAD_NAME 1 (reversed)
4 BUILD_MAP 0
6 LOAD_METHOD 2 (items)
8 CALL_METHOD 0
10 CALL_FUNCTION 1
12 CALL_FUNCTION 1
14 RETURN_VALUE