程序员学数据科学需要掌握的常用算法和方法术语

  数据科学是一门有关机器学习、统计学与数据挖掘的交叉学科,它的目标是通过算法和统计分析方法从现存数据中获取新知识。下面小编将介绍数据科学中的算法和方法术语。

  k最近邻算法:一种预测未知数据项的算法,未知数据项(的值)近似于其k个最近邻居的多数值。朴素贝叶斯分类器:使用关于条件概率的贝叶斯定理,即P(A|B)=(P(B|A) P(A))/P(B),来分类数据项的一种方法,假设数据的特定变量之间相互独立。决策树:一种模型,根据树上的分支与实际数据项之间的匹配属性,将数据项分类到叶子节点中的一个类中。随机决策树:决策树的一种,其中的每个分支在构建时仅使用可用变量的随机子集。随机森林:基于有放回抽取的数据随机子集构建的随机决策树集合,数据项被归类给这些树投票最多的类。k-means算法:一种聚类算法,将数据集划分为k个组,组内的每个成员尽可能地相似,也就是说,每个成员距离彼此最近。回归分析:一种预测函数模型中未知参数的方法,根据输入变量预测输出变量,例如预测线性模型y=a x + b中的a和b。时间序列分析:对依赖于时间的数据的分析,主要包括趋势分析和季节性分析。支持向量机(SVM):一种分类算法,用于寻找将训练数据分成特定类别的超平面,然后用超平面划分从而对数据进行进一步分类。主成分分析(PCA):对给定数据的各个组成部分进行预处理,以达到更高的准确率,例如,二手手机购买平台根据输入向量对最终结果的影响程度,对输入向量中的变量进行重新缩放。文本挖掘:对文本的搜索和提取,以及用于数据分析的数值型数据的转换。神经网络:一种机器学习算法,由简单分类器网络组成,根据输入数据或网络中其他分类器的结果作出决策。深度学习:神经网络提升其学习过程的能力。Apriori关联规则:可以在训练数据中观察到的规则,并且根据这个规则对未来数据进行分类。PageRank:一种搜索算法,在给定搜索关键字的情况下,从最相关的搜索结果中搜索那些具有最大入链数的结果,它为这些结果赋予最大的相关性。在数学术语中,网页排名计算出了代表这些相关度量的某个特征向量。集成学习:一种使用不同的学习算法得到最终结论的学习方法。装袋法:一种分类数据项的方法。分类器在训练数据的随机子集上进行训练,然后根据这些分类器投票表决的结果来分类数据。遗传算法:受遗传过程启发的机器学习算法,例如,对有着更高精度的分类器的进化过程进一步进行训练。归纳推理:学习生成实际数据的规则的机器学习方法。贝叶斯网络:表示随机变量及其条件依赖关系的图模型。奇异值分解:一种矩阵分解,也是特征分解的一种推广,用于最小二乘法。提升算法:一种机器学习的元算法,基于分类器集合作出预测来降低预测中的方差。期望最大化:用于搜索能最大化模型预测准确率的模型参数的迭代方法。

上一篇:Eclipse中使用Ant打Android包报错解决方案 – Perhaps JAVA_HOME does not point to the JDK


下一篇:Java动态 遍历List 时删除List特征元素 异常问题 及解决方案总结