白芸汐 (@cloudwide)[长文手敲] 简论机器学习——机器学习之前,先学会看数据(其三) 中发帖

看见数据关系,才算真正开始看数据
前两篇说了很多看数据之前该做的事。
先弄清楚数据从哪里来,字段代表什么,标签怎么定义,缺失值为什么缺,异常值到底是错误还是信号,训练集和测试集有没有互相串门,线上数据会不会和训练数据分道扬镳。
这些事情听起来麻烦,做起来折腾,是因为这些本来就是非常琐碎的工作,甚至有一个专门的信息集采和清洗的职业(工资都很低,别去尝试)。
但是在机器学习项目里,越基础的地方越容易埋雷。所谓千里之堤,溃于蚁穴,即便是一个不起眼的小洞,后面可能就是洪水滔天。
你以为自己只是随手跳过一个字段说明,后面可能就是半个月的模型排查。你以为自己只是漏看了一处时间窗口,后面可能就是线下分数高歌猛进,线上系统安静躺平。你以为自己只是顺手删掉几个离群点,后面可能就把真正有价值的大客户、异常交易、故障前兆一起扫进垃圾桶。捡了芝麻丢了西瓜是万不可取的。
回归正题,很多人学习机器学习的时候...