全文阅读:https://lianxh.cn/news/cb05be5a4dc6e.html
目录
4. 数据清理
4.2 多变量清理
数据中有些问题不是关于某一特定变量取值不合理,有时需要联合其他变量才能发现其不合理的地方。多变量的清理建立在单变量清理完成的基础上,通过多变量的联合分布、交叉验证检验变量之间的逻辑一致性等。
4.2.1 用分类变量检查分类变量
此时可以用两个分类变量的交互表来查看两个变量的所有取值组合,用分类变量的取值检验和另一个分类变量的取值是否矛盾。这里以是否处于结婚状态和是否结过婚两个变量的交叉验证为例 (此例无数据)。marriedornot 表示是否结过婚 (0-1 变量),marriednow 表示当下是否处于婚姻状态(0-1 变量)。
全文阅读:https://lianxh.cn/news/cb05be5a4dc6e.html