两种不同的缩放方式,目的都是缩小范围。
归一化(Normalization):将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1],广义的讲,可以是各种区间,比如图像中可能会映射到[0,255],主要是为了数据处理方便提出来的
标准化(Standardization):就是将训练集中某一列数值特征(假设是第i列)的值缩放成均值为0,方差为1的状态。具体操作是将数据按比例缩放,使之落入一个小的特定区间。
min-max 归一化的公式为:(缩放到0和1之间)

mean 归一化的公式为:

其中 mean(x)、min(x) 和 max(x) 分别是样本数据的平均值、最小值和最大值。
Z-score标准化(0-1标准化),标准化的公式为:

其中 μ 和 σ 分别是样本数据的均值(mean)和标准差(std)。