发布时间:2022-09-20 21:50:01源自:https://www.it-th.com作者 :it谈话网阅读(316)
这篇文章从数据分析的几个阶段,总结了14个我们可能会犯的一些错误,以及如何避免。
在数据采集/获取阶段,容易犯的错误:
在数据采集的时候,如果不能获取到总体的数据,那就要采集到可以代表总体的样本,抽样就显得尤其重要,如果样本不具有代表性,那么得出的结论一定是有失偏颇的。
小红书的用户群体是年轻的女性用户为主,如果用这份数据去预测一部受众是青少年的电影票房,结果可能就不合理了。
使样本能够充分代表总体。
指的是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息。
在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼,其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航,在这个飞机问题中,只统计到了幸存下来的飞机,以此下结论,是不正确的。
在某产品开放日,邀请使用该产品的用户到现场给产品打分,结果用户满意度都很高,其实就是一个幸存者偏差的例子,愿意来现场打分的客户,基本上都是忠实客户了,得分自然就高。
还是样本不具备代表性的问题,避免主观臆断,用科学的方法选择样本。
在数据处理阶段,容易犯的错误:
行百里者半九十,都说做数据分析有80%的时间都是在处理数据,其实就在告诉我们数据处理是多么的重要,干净的数据源是一切工作的前提,不然一切都要从头开始。
尽量不要直接在原始数据上开始修改处理,最好拷贝一份,保留好原始数据。这样做的目的是避免后续处理时出现错误,无法返回到原始数据的情况。
在做异常值处理时,直接把异常值删除了,后面发现其实不是异常值,而是一个值得注意的小概率事件,这就麻烦了,还不如一开始就在原始数据的备份上进行操作。
在拷贝的原始数据上处理
在数据分析阶段,容易犯的错误:
各种数据分析工具Excel、SQL、Python、Power BI、Tableau运用的炉火纯青,但却没有一个分析的逻辑思维方法,没有深入地去分析现象背后的原因。通常要搞清楚分析的目的是什么,工具都是辅助。
在分析时,崇尚所谓高级的、时尚的方法,而不从项目自身实际出发,找到适合项目的分析方法。同样,过分追求“高端”工具的使用,比如在数据量很少的情况下,非要用数据库/Python,但其实Excel就可以简单便宜地满足分析的需求。
在可视化阶段,容易犯的错误:
比不做图表更可怕的是做出具有误导性的图表。常见的比如把Y轴的刻度不从0开始计,这样得到的图形走势就显得差距非常大,给人造成一定程度上的视觉冲击,但实际上,差距并没有那么大。
下图中净利润的增长可以看到Q4增长幅度非常明显,但仔细一看可以发现,纵坐标是从13%开始的,如果把纵坐标调成0%开始,就会发现这个增长幅度其实并不明显。
纵坐标从13%开始
纵坐标从0开始
保持客观的态度做图表,不要被心里预设的结论所左右,该是什么就是什么。
在得出结论时,容易犯的错误:
完全抛弃数据,而是以自我经验或想法来给出结论。这样做数据分析就没有意义了,要保持客观的态度,不要总是“我觉得”,“我认为”,要以数据为依据。
以数据为导向,保持一个数据人应用的科学客观的态度。
在得出结论时,仅选择支持你声明的数据,丢弃不支持声明的部分。这就失去了客观性,是建立在数据上的主观臆断,一定要让数据反映出客观事实。
发现了啤酒和尿布的销量一样好,如果我只选择性地关注啤酒的销量,而忽视尿布,那就不会有购物篮分析了。
客观,客观,还是客观的态度。
我们经常说相关性不等于因果性,两个变量之间存在相关关系,并不意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。
如果一个指标和另一个指标是一起变化的,说明它们是相关的,而如果是一个指标先变化从而导致了另一个指标的变化,才说明它们是有因果性的。
在数据分析时很容易将相关性判断为因果性,这是不对的。相关性已经很好了,但因果性更佳,很多时候,我们只能发现相关性,但应永不停止寻找因果性。因为发现相关性可以帮助我们预测未来,而发现因果性意外着可以改变未来。
由数据分析得到的结果不具备可行性,完全不考虑常识和业务需求,数据脱离了业务,也是常犯的错误。
依据经验常识先预设了一个结果,再从结果出发,为结果找原因,这
也是一种主观臆断,颠倒了数据分析的逻辑,我们应当是先分析,再结果,现在变成了先结果,再为结果找一个说辞。
可以有假设,但假设不能等同于结论,大胆假设,小心求证。
在发现澳大利亚的黑天鹅之前,17世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个不可动摇的观念崩溃了。
黑天鹅的存在寓意着不可预测的重大稀有事件,它在意料之外,却又改变着一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就足以颠覆一切。
2008年美国次贷危机爆发就是一个典型的黑天鹅事件,大家用通用的风险价值模型预测投资风险,结论是美国商业银行放贷业务崩溃发生的概率只有不到1%,结果我们都知道了,这种不到1%的小概率事件居然发生了。
所以不要忽视小概率事件,它有可能会造成严重的后果。
-END-
欢迎分享转载→ 数据分析中会常犯哪些错误,如何解决?
下一篇:小红书品牌机构创作者排行榜