将 R 示例函数与 rpy2 一起使用时出现意外行为？

问题描述

我需要交叉验证 R 中的 python 代码。我的代码包含大量伪随机数生成，因此，为了更容易比较，我决定使用 rpy2 在我的 python 代码“来自 R”中生成这些值。>

例如，在 R 中，我有：

set.seed(1234)
runif(4)
[1] 0.1137034 0.6222994 0.6092747 0.6233794

在 python 中，使用 rpy2，我有：

import rpy2.robjects as robjects
set_seed = robjects.r("set.seed")
runif =  robjects.r("runif")
set_seed(1234)
print(runif(4))
[1] 0.1137034 0.6222994 0.6092747 0.6233794

如预期（值相似）。但是，我在使用 R sample 函数（相当于 numpy.random.choice 函数）时遇到了奇怪的行为。

作为最简单的可重现示例，我在 R 中有：

set.seed(1234)
sample(5)
[1] 1 3 2 4 5

在 python 我有：

sample =  robjects.r("sample")
set_seed(1234)
print(sample(5))
[1] 4 5 2 3 1

结果不同。谁能解释为什么会发生这种情况和/或提供一种使用 R sample 函数在 R 和 python 中获得相似值的方法？

解决方法

也许试一试（来自 here 的 stackoverflow 答案）。引用答案：“p 参数对应于 sample() 函数中的 prob 参数”

import numpy as np
np.random.choice(a,size=None,replace=True,p=None)

如果您在两种情况下都打印 R 函数 RNGkind() 的值，我怀疑您不会得到相同的答案。 Python 结果看起来像默认输出，而您的 R 结果看起来像旧的错误输出。

例如，在 R 中：

set.seed(1234,sample.kind = "Rejection")
sample(5)
#> [1] 4 5 2 3 1
set.seed(1234,sample.kind = "Rounding")
#> Warning in set.seed(1234,sample.kind = "Rounding"): non-uniform 'Rounding'
#> sampler used
sample(5)
#> [1] 1 3 2 4 5
set.seed(1234,sample.kind = "default")
sample(5)
#> [1] 4 5 2 3 1

^{由 reprex package (v0.3.0) 于 2021 年 1 月 15 日创建}

所以在我看来，您似乎仍在 R 会话中使用旧的“舍入”方法。您可能很久以前保存了一个工作区，然后重新加载了它。不要那样做，每个会话都从一个干净的工作区开始。

python r r random random random rpy2