本文共 246 字,大约阅读时间需要 1 分钟。
来源《Python数据分析与数据化运营》 批注1: (丢弃)不宜采用的场景: (1)数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。 (2)带有缺失值的数据记录大量存在着明显的数据分布规律或特征,例如带有缺失值的数据记录的label主要集中于某一类或者某积累,如果删除会导致对应的数据样本丢失大量特征信息,导致模型过拟合或分类不准确 批注2: (插值)方法 拉格朗日插值 牛顿插值 Hermite插值 分段插值 样条插值