白芸汐 (@cloudwide) 在 [长文手敲] 简论机器学习——机器学习之前,先学会看数据(其四) 中发帖
探索性数据分析
前面几篇已经把很多坑摊开说过了。
数据来源要查,字段含义要问,标签口径要定,缺失和异常要分清楚,相关性不能当圣旨,平均数不能当全景图,时间顺序更不能随便打乱。
这些事情看起来零碎,实际都指向同一个动作。
探索性数据分析。
听起来有点像教材上的词汇,换成人话就是,别急着建模,先把数据翻一遍,看它到底长什么样,能说什么,不能说什么,哪里可信,哪里可疑,哪里需要我们继续深挖。
很多人一听 EDA,第一反应是画几张图。
直方图,箱线图,散点图,热力图,最后再来一个 pairplot,电脑风扇开始起飞,notebook 看上去非常努力。图画了几十张,滑轮滚到冒烟,结论只有一句,看起来还行。
EDA 当然需要图,但 EDA 远远不等于把所有列全都画一遍。那叫图表批发,量大管饱,但是信息含量不一定高。真正的 EDA 更像侦查。你要带着问题进入数据,带着怀疑检查数据,带着目标...