问题描述
我正在做一个生物识别分类问题。我正在将测试集中每个探针与图库的欧几里得距离进行比较。
每次运行代码都会得到不同的结果。如果我移除缩放器,我总是会得到相同的结果。
为什么缩放器会产生不同的值? (区别略有不同,有时它识别多 10 个探针,有时少 10 个)。感谢所有回答的人。
scaler = StandardScaler()
training_walks_matrix = load('training_imputeZero.npy')
training_scaled = scaler.fit_transform(training_walks_matrix)
testing_walks_matrix = load('testing_imputeZero.npy')
testing_scaled = scaler.transform(testing_walks_matrix)
pca = PCA(n_components=50).fit(training_scaled)
training_walks_matrix = pca.transform(training_scaled)
testing_walks_matrix = pca.transform(testing_scaled)
解决方法
我唯一可以怀疑的是,在您的情况下,可能在幕后使用了 arpack
或 randomized
求解器,因为这是自动定义的。在这种情况下,您需要修复随机种子以重现结果。
尝试通过在 random_state
实例的输入参数 PCA
中传递一个值来修复随机种子。
myseed = 0
scaler = StandardScaler()
training_walks_matrix = load('training_imputeZero.npy')
training_scaled = scaler.fit_transform(training_walks_matrix)
testing_walks_matrix = load('testing_imputeZero.npy')
testing_scaled = scaler.transform(testing_walks_matrix)
#here
pca = PCA(n_components=50,random_state=myseed).fit(training_scaled)
training_walks_matrix = pca.transform(training_scaled)
testing_walks_matrix = pca.transform(testing_scaled)