为了纠正异常值,您的数据分析师或预测营销软件将需要检测并移除异常值或替换它具有分布高端的数字(例如,最低的前10%客户的花费是2400美元,所以替换掉50000美元2400美元)。这种替换仅用于建模目的。或者,您可以将这些客户视为一个单独的群体并为这一部分创建专业计划。在另一个例子中,一个零售商正在测量每个站点的客流量但是在某些日子里,只要测量装置被清洁人员碰掉,就会错过数据。纠正错误由于数据缺失,零售商根据三周数据进行了估算一周中与缺失天数相同的天数的平均值。插补是替换错误或缺失信息的艺术和科学。根据具体的数据元素,有多种技术可以实现这一点:替换为静态或时间平均值。基于其他可用变量对数据建模。比如你可以根据维生素商店顾客是否购买来模拟她的年龄适合50岁以上女性的维生素。从基础分布中随机选择。例如,如果缺少步行交通数据并且该数据通常跟在钟形曲线,然后从底层随机生成一个数字分配。填补是弥补缺失数据直到问题出现的一个好方法在源头得到纠正。另一个归罪的例子是询问顾客的生日。对于建模和行动目的来说,这是一条很好的信息,但并不是所有的客户都想提供这些信息。在这种情况下在某些情况下,预测模型要么丢弃生日作为输入或者丢弃没有生日的客户。
正在翻譯中..
