如何使用KDnuggets样式的PDF绘制比较Boxplot

问题描述

通过Understanding Boxplots from the KDnuggets Article时。我找到了带有概率密度函数(pdf)的Boxplot的详细图

我正试图绘制一个比较Boxplot和一个概率密度函数(pdf),如下图所示

enter image description here

我知道分别绘制基本的box plotpdf。我对可视化的知识是最少的。我并没有要求重复上述图表的确切内容,因此高度赞赏类似的详细图表。

我愿意接受新的想法和方法,并希望在开始使用之前先把一些探空者放出来

如果是,是否可以使用Python绘制上述绘图,哪个软件包将用于绘制以上绘图?任何人都可以在使用Python绘制上述图形时有所启发吗?我很高兴收到您的指导。

解决方法

此处尝试重新创建绘图的图形元素。除了使用完美的正态分布,还使用了一些随机数据,因此您可以插入自己的数据。 (要获得更完美的曲线,请生成更多样本。)

from matplotlib import pyplot as plt
import numpy as np
import seaborn as sns

x = np.random.normal(0,1,1000)
mean = x.mean()
std = x.std()
q1,median,q3 = np.percentile(x,[25,50,75])
iqr = q3 - q1

fig,(ax1,ax2) = plt.subplots(nrows=2,sharex=True)

medianprops = dict(linestyle='-',linewidth=2,color='yellow')
sns.boxplot(x=x,color='lightcoral',saturation=1,medianprops=medianprops,flierprops={'markerfacecolor': 'mediumseagreen'},whis=1.5,ax=ax1)

ticks = [mean + std * i for i in range(-4,5)]
ticklabels = [f'${i}\\sigma$' for i in range(-4,5)]
ax1.set_xticks(ticks)
ax1.set_xticklabels(ticklabels)
ax1.set_yticks([])
ax1.tick_params(labelbottom=True)
ax1.set_ylim(-1,1.5)
ax1.errorbar([q1,q3],[1,1],yerr=[-0.2,0.2],color='black',lw=1)
ax1.text(q1,0.6,'Q1',ha='center',va='center',color='black')
ax1.text(q3,'Q3',color='black')
ax1.text(median,-0.6,'median',1.2,'IQR',color='black')
ax1.text(q1 - 1.5*iqr,0.4,'Q1 - 1.5*IQR',color='black')
ax1.text(q3 + 1.5*iqr,'Q3 + 1.5*IQR',color='black')
# ax1.vlines([q1 - 1.5*iqr,q1,q3,q3 + 1.5*iqr],-2,color='darkgrey',ls=':',clip_on=False,zorder=0)

sns.kdeplot(x,ax=ax2)
kdeline = ax2.lines[0]
xs = kdeline.get_xdata()
ys = kdeline.get_ydata()

ylims = ax2.get_ylim()
ax2.fill_between(xs,ys,color='mediumseagreen')
ax2.fill_between(xs,where=(xs >= q1 - 1.5*iqr) & (xs <= q3 + 1.5*iqr),color='skyblue')
ax2.fill_between(xs,where=(xs >= q1) & (xs <= q3),color='lightcoral')
# ax2.vlines([q1 - 1.5*iqr,100,zorder=0)
ax2.set_ylim(0,ylims[1])
plt.show()

example plot

一些评论:

  • 通常中位数和均值不一致,因此0 sigma可能与中位数线有些偏离。
  • Matplotlib在最靠近计算的Q1 - 1.5 IQRQ3 + 1.5 IQR的数据点处绘制晶须,因此,当没有大量点时,晶须的位置可能会偏离位。
  • 对于真实数据,分布很少看起来像完美的钟形曲线。

以下是一百万个样本的示例:

plot for 1 million samples