本节书摘来自异步社区《数据科学:R语言实战》一书中的第1章,第1.4节,作者 【美】Dan Toomey(丹·图米),更多章节内容可以访问云栖社区“异步社区”公众号查看
1.4 问题
实际问题
- 如何决定是否使用K-means或K-medoids?
- 设计箱线图的意义是什么?为什么那样设计?
- 对于密度图,请描述生成于iris数据异常值中的底层数据。
- 对于市场数据集中的其他项目,有哪些抽取规则?
什么时候做、怎样做以及为什么这样做?
- 未审查在特定领域检测的异常值存在哪些风险?难道不该一直进行计算吗?
- 为什么需要将iris分类栏排除在异常值检测算法以外?确定异常值时能在某些-
方面使用iris分类栏吗? - 您设想过生成的购物篮数据和规则并不适用于您工作的商店吗?
挑战 - 通过使用随机数据,在出现同一示例的两个维度中开发异常值的测试数据十分困难。您能开发出一个测试在至少两个维度中总是出现异常值并且这些维度出现在同一示例中吗?
- 网络上有一个关于“泰坦尼克号”游轮乘客个人信息数据的数据集,生成有关可能生还乘客的规则。