消除探索性数据分析 (EDA) 中的偏度

很自豪能在这里回答我的第一个问题:) 我正在成为一名自学成才的数据科学家，每天都会带来另一个挑战。我今天的挑战：

我遵循了一个示例，其中有人曾经通过 pandas 'cut' 函数对值进行分箱，但这并没有消除数据的高偏度：

(-0.512,102.466]     838
(102.466,204.932]     33
(204.932,307.398]     17
(409.863,512.329]      3
(307.398,409.863]      0

所以我用熊猫 'qcut' 将它们分箱，以获得大部分均匀大小的分箱（分箱 'value_counts' 的分布没有“视觉”偏斜）：

(7.854,10.5]        184
(21.679,39.688]     180
(-0.001,7.854]      179
(39.688,512.329]    176
(10.5,21.679]       172

我的直觉告诉我，在我通过“log”或“sqrt” f.e. 了解数据转换后，这不是处理倾斜数据的方法

我是在比较苹果和橙子吗？ :)

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）