理解python中的引用计数

问题描述

我正在尝试了解 Python 中的引用计数是如何工作的。我创建了一个变量 x 并为其分配了 10 的值。所以基本上 x 指向存储类 int (10) 对象的内存位置。现在,当我尝试获取 x 和 10 的引用计数时,会得到两个不同的引用计数。如果 x 指向存储 10 的相同内存位置,那么为什么它们具有不同的引用计数?

>>> import sys
>>> sys.getrefcount(10)
12
>>> a = 10
>>> sys.getrefcount(10)
13
>>> sys.getrefcount(a)
11

解决方法

当您直接调用 sys.getrefcount(10) 时,调用本身会增加引用计数。 10 在呼叫站点上有一个参考,由于我记不清原因,至少还有一个参考。

更详细的答案:当您在交互式提示中运行语句时,该语句会被编译成字节码,然后由解释器执行。字节码存储在 code 对象中,您可以通过自己编译带有 compile() 内置语句的语句来检查该对象:

>>> a = 10
>>> c = compile('sys.getrefcount(10)','<stdin>','single')
>>> c
<code object <module> at 0x7f4def343270,file "<stdin>",line 1>

我们可以使用 dis 模块来检查编译后的字节码:

>>> dis.dis(c)
  1           0 LOAD_NAME                0 (sys)
              2 LOAD_ATTR                1 (getrefcount)
              4 LOAD_CONST               0 (10)
              6 CALL_FUNCTION            1
              8 PRINT_EXPR
             10 LOAD_CONST               1 (None)
             12 RETURN_VALUE

可以看到前面的CALL_FUNCTION是字节码LOAD_CONST 10。但是它如何知道 10 是要加载的常量?实际的字节码指令是 LOAD_CONST(0),其中 0 是存储在 code 对象中的常量表的索引:

>>> c.co_consts
(10,None)

所以这是对 10 的新引用之一(暂时)。

如果我们这样做:

>>> c2 = compile('sys.getrefcount(a)','single')
>>> dis.dis(c2)
  1           0 LOAD_NAME                0 (sys)
              2 LOAD_ATTR                1 (getrefcount)
              4 LOAD_NAME                2 (a)
              6 CALL_FUNCTION            1
              8 PRINT_EXPR
             10 LOAD_CONST               0 (None)
             12 RETURN_VALUE

除了 LOAD_CONST 之外,只有 LOAD_NAME 的任何 a 碰巧指向。对象 10 本身没有在 code 对象中的任何地方被引用。

更新:第二个引用的来源相当模糊,但它来自 AST 解析器,它使用 Arena 结构来有效管理 AST 节点等的内存。 arena 还维护在 AST 中解析的 Python 对象的列表(如在实际的 Python list 中),如果数字出现在这里:https://github.com/python/cpython/blob/fee96422e6f0056561cf74fef2012cc066c9db86/Python/ast.c#L2144(其中 PyArena_AddPyObject 添加对象到所述列表)。 IIUC 存在此列表只是为了确保从 AST 解析的文字至少在某处保存了一个引用。

在用于编译和运行交互式语句的实际 C 代码中,arena 没有被释放 until after the compiled statement has been executed,此时第二个额外引用消失了。