Python机器学习第一章

1. 机器学习 (Machine Learning, ML)
     
     1.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
 
     1.2 学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
     
     1.3 定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。
          
         Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科
 
         Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”
 
         Tom Michell (1997):  “机器学习是对能通过经验自动改进的计算机算法的研究”
 
     1.4: 学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力
 
              例子: 下棋,语音识别,自动驾驶汽车等
 
2)机器学习的应用:
       语音识别
       自动驾驶
       语言翻译
       计算机视觉
       推荐系统
       无人机
       识别垃圾邮件
3)机器学习的基本概念
  基本术语:
    (1)数据集:由若干记录组成的集合被称作做数据集(data set),记录是关于一个事件或者对象的描述。
    (2)属性(特征):对事物或者对象某一方面的表现或性质的事项,叫做属性(Attribute)。
    (3)属性空间(样本空间、输入空间):在属性上能够取到的范围,叫做属性空间(Attribute value)。
    (4)特征向量:将所有的属性张成一个空间,对于每个对象都能在空间上找到自己的坐标点,由于空间中的每个点对应的一个坐标向量,被称作特征向量(feature vector)。
    (5)维数:一般,如果有D = {X1,X2...Xm}表示M个实例的数据集,而对每一个示例有d个属性,这Xi =(xi1,xi2...xid)是d维样本空间的一个向量,xi属于样本空间(没有超出取值范围)那么成d成为样本xi的维数(dimensionnality)。
    (6)学习(训练):从数据学的模型的过程叫做学习(learning)或者训练(training)。
    (7)训练数据:在学习的过程中使用的数据,叫做训练数据(training data)。
    (8)训练样本:每个数据样本叫做训练样本(training sample)。
    (9)训练集:训练样本组成的集合叫做训练集(training set)。
    (10)标记:对与一组记录的标签叫做标记(label)。
    (11)样例:拥有标记信息的实例,叫做样例(example)。
    (12)标记空间(输出空间):一般,用(xi,yi)表示i个样例,其中yi属于Y是示例xi的标记,Y是所有标记的集合(标记的取值范围),Y被称作标记空间(Label space)。
4)机器学习分类:
  (1)监督学习
    分类和回归:分类有两种:第一种是二分类,通常的标记为两个值,这一种叫做分类,另一种是多值分类,通常标记是连续的值,叫做回归。(提前知道标记)
  (2)无监督学习
    聚类:将训练集中的训练数据分成若干组,每个组被称为一个簇,这些自动形成的簇可能对应一些潜在的概念划分。(提前不知道,数据训练时会形成簇。)
  (3)强化学习
 
 
未完待续...
    
  
上一篇:音频和视频的插入


下一篇:HTTP-MIME对照表