数据预处理(处理数字过大过小等)

2020-02-04 148

通过数学方法将 数据(数字) 转换成算法要求的数据。 分为 数值型数据处理(归一化、标准化、缺失值)、类别型数据处理(one-hot编码)、时间型数据处理(时间切分)、降维(特征选择、主成分分析、)

数值型数据 标准缩放:归一化把数据进行转换映射到[0,1](默认)区间内
总结:容易受异常点影响,适用于精确小量数据
类:sklearn.preprocessing MinMaxScalar(featrue_range=(0,1)..) #featrue_range:数据归一化到一定范围内 MinMaxScalar.fit_transform(X) #X:number array数据,返回相同形状array
标准化:把数据进行转换到均值为0,标准差为1的范围内
总结:少量异常点对平均值影响不大,方差改变小,适用较多情景
类:sklearn.preprocessing.StandarScaler StandardScaler() StandardScaler.fit_transform(X) #X:number array数据,返回相同形状array StanderdScaler.mean_ StanderdScaler.std_