问题描述
我想知道bin_edges
一次如何分配计数和np.histogram
值。
counts,bin_edges=np.histogram(iris_setosa['sepal_length'],bins=10,density=True)
解决方法
假设data
是一维numpy数组,而bins
是严格的正整数,则代码大致类似于:
import numpy as np
def numpy_histogram(data,bins=10,density=False):
xmin = data.min()
xmax = data.max()
bin_edges = np.linspace(xmin,xmax,bins + 1)
counts = np.zeros(bins,dtype=int)
bin_indices = ((data - xmin) / (xmax - xmin) * bins * 0.999999).astype(int)
for i in bin_indices:
counts[i] += 1
if density:
counts = counts / sum(counts) / (bin_edges[1] - bin_edges[0])
return counts,bin_edges
counts,bin_edges = numpy_histogram(np.random.uniform(1,10,20),density=True)
print(sum(counts),counts)
因此,数据的最小值和最大值用于定义bin边界。 (边界比箱子多一个)。然后从每个数据值中减去xmin
,然后除以数据的总范围。然后乘以箱数。这标识了该值应到达的bin的索引。需要以小于1的因子进行校正,以使最右边的值不会落在以下(未定义)的bin中。
当density=True
时,计数被归一化,以使所有条形的面积之和为1。条形的宽度为两个连续bin_edges
之间的差值。
PS:关于Python同时分配多个元素,this question很有趣。