褚岩 (@freshman) 在 公司信贷风险分析问题 中发帖
我最近在参加一个比赛,主要是更具各公司财务数据分析财务风险,有标签区分是否有财务风险。但是正常数据有七万多条,异常数据只有三千条,并且缺失值相对较多。我使用过逻辑回归,随机森林和xgboost模型,对于数据不平衡用过向下采样和向上采样。但效果都不是很好。auc可以保持在0.8几,但是召回率和精确率通常只能保证一个,往往是一个0.9几一个0.0几。请问各位大佬我现在应该选择对数据集清洗,自己查找有风险的公司数据填入还是应该更换模型?