问题描述
对于稀疏矩阵,我们通常传入列索引(indices
)和一个indptr
向量,该向量为indices
向量建立索引,以便indices[indptr[i]:indptr[i+1]]
是第{行的元素{1}}在稀疏矩阵中。
有没有一种快速的矢量化(最好为numpy)解决方案来转换连续的矢量
在Python中将行索引插入i
中?
例如,如果这是我的indptr
索引向量:rows
...
[0,1,2,3,5]
向量将是indptr
,其中7重复,因为行向量缺少第4行。
我可以使用一个简单的循环来做到这一点:
[0,6,7,8]
但是我想知道是否有更快的矢量化方法?
解决方法
我认为您正在寻找的是这个
np.bincount(rows).cumsum()
#[1 3 6 7 7 8]
如果矩阵底部的行可能为空,只需将其作为参数添加到bincount
(根据@CJR的建议):
np.bincount(rows,minlength=num_rows).cumsum()
#[1 3 6 7 7 8]
您可能还想在前面插入0
。 bincount
所做的是计算每个bin /行中的元素数量,然后cumsum
将它们相加。这样,您还将包括丢失的垃圾箱/行。
插入0的最佳方法可能是这样的:
np.bincount(np.array(rows)+1).cumsum()
#[0 1 3 6 7 7 8]
或者您可以直接通过以下方式实现:
np.insert(np.bincount(rows).cumsum(),0)
#[0 1 3 6 7 7 8]
,
另一个想法是
n = len(rows)
indptr = np.searchsorted(rows,np.arange(-1,n),side='right')
不确定哪个更快/更好