如何将 Python 字典转换为 Numpy 数组？

因此，来自 Python sklearn 库的逻辑回归具有 .fit() 函数，该函数以 x_train(features) 和 y_train(labels) 作为参数来训练分类器。

似乎x_train.shape = (number_of_samples,number_of_features)

对于 x_train，我应该使用提取的 xvector.scp 文件，我正在阅读该文件：

b = kaldiio.load_scp('xvector.scp')

我可以像这样打印内容：

for file_id in b:
  xvector = b[file_id]
  print(xvector)

现在b变量就像一个字典，你可以得到对应id的x向量值。我想使用 sklearn Logistic Regression 对 x 向量进行分类，为了使用 .fit() 方法，我应该传递一个数组作为参数。

我的问题是如何制作一个只包含 xvector 变量的数组？

PS：file_ids 大约为 100 万个，每个 xvector 的长度为 512，这对于数组来说太大了

您似乎正在尝试将字典存储到一个 numpy 数组中。如果字典很小，可以直接将值存储为：

import numpy as np

x = np.array(list(b.values()))

但是，如果字典很大，这将遇到 OOM 问题。在这种情况下，您需要按照此处的说明使用 np.memmap：https://ipython-books.github.io/48-processing-large-numpy-arrays-with-memory-mapping/

本质上，您必须一次向数组添加一行，并在内存不足时刷新它。数组直接存储在磁盘上，避免了OOM问题。

相关问答