问题描述
我最近在学习数据分析和数据科学。
当我预处理货币数据(金额)时,我通常使用“日志”来降低规模并标准化。但是,python 中有一些缩放器,例如 'StandardScaler'、'normalizer'、'MinScaler' 等。我想知道我什么时候应该使用 log 方法和 StandardScaler/normalizer 来缩放数据。
我已经考虑过这个问题并且理解如下。
-
log scale 降低了数据的大小并使数据标准化,但不能形成完美的正态分布。主要用于货币数据。
-
StandardScaler 使数据完美的正态分布
-
当我有不同的度量特征(如距离、美元、重量等)时,我必须使用归一化器。用它来一次性预处理特征。
我理解对了吗?
解决方法
- 是的,你是对的
- 不,它不一定使数据呈正态分布,但它使所有数据单元自由且位于相同的位置和尺度内,即均值 0 和方差 1。因此,许多基于距离度量的算法不会受到高方差的影响与国家收入模型中的利率等低方差变量相反。
- 如果你的意思是缩放,那么通过规范化器是
但是,对于基于树的算法或任何不使用距离度量的算法,不需要缩放