当前位置：首页 > 抖音教程 > 抖音资讯 > 本文内容

数据分析-建模分析基本流程

发布时间：2023-03-11 08:50:01源自：https://www.it-th.com作者：it谈话网阅读(359)

日常的数据分析工作中，除了基本的拆解法、对比法做分析外，也经常需要用到模型的方法来做预测或者分类。这里会介绍建模分析的基本流程及常见处理方法。

01 描述性分析

在拿到数据后，不能着急立刻开始清洗数据或者模型训练，而是先了解数据（除建模分析外，其他的数据开发也要做这一步），这样才能避免后期的踩坑，否则十有八九是要复工的。那“了解数据”这一环节，具体要了解哪些东西呢？

了解各个特征的业务含义和计算逻辑
各个特征的分布是否符合预期
特征之间的相关性如何，是否符合基本逻辑
特征和目标值的相关性如何，是否符合基本逻辑

在相关性分析这里，数值型变量之间可通过计算相关系数或者画图呈现数值型变量和分类变量可通过箱线图呈现关系。

02 缺失值处理

在初步了解数据后，需要做一些数据预处理的行为。第一步就是对缺失值处理，一般根据样本量多少以及缺失比例，来判断是“宁缺毋滥”的删除，还是缺失值填充。具体处理的思路可以是这样的：

统计计算样本量n，各个特征数据缺失率y，各样本数据特征缺失率x
特征缺失率x比较高的样本一般都建议删除因为多个特征都缺失，填补也比较困难，即使填补信息偏差也会比较大。
如果某特征缺失率y比较大，则删除此特征如果特征缺失率低且样本量比较大的话，可删除特征缺失的样本。如果样本量少不可删除，则对缺失值做填充。

根据特征的众数、中位数或者平均值来填充也可以对样本做分类，根据所在类的平均值众数等填充
通过回归法来做样本填充，缺失值作为因变量，其他特征做自变量去预测
还可通过比较复杂的方法，如多重插补法。

03 异常数据处理

处理完缺失值后，需要做异常数据处理。之前介绍过一篇异常数据处理的方法，数据分析-异常数据识别这篇介绍了多种适应不同场景下的异常数据识别方法。

04 数据标准化处理

对于很多模型，如线性回归、逻辑回归、Kmeans聚类等，需要计算不同特征的系数，或者计算样本距离。这种情况下，如果不同特征的数值量级差的特别大，会严重影响系数和距离的计算，甚至这种计算都会失去意义。所以在建模前必须要做的就是要去量纲，做标准化处理。当然有些模型是不需要做数据标准化处理的，如决策树、随机森林、朴素贝叶斯等。

(x-min)/(max-min)，将其规范到[0,1]之间

(x-均值)/标准差，将其规范为均值为0，标准差为1

如果这种情况，受离群点影响比较大的话，可以用中位数代替均值，用绝对标准差代替标准差。

还需要注意的是，如果样本分布非常有偏的话，可以先做box-cox变换，将其往正态分布变换后再标准化。