全网东拼西凑的笔记文章罢了
目录
0-1分布、二项分布(伯努利分布)、几何分布、高斯分布、指数分布、泊松分布
微积分
微分
几何意义:设 Δx 是曲线 y=f(x) 上的点 M 在横坐标上的增量,Δy 是曲线在点 M 对应 Δx 在纵坐标上的增量,dy 是曲线在点 M 的切线对应 Δx 在纵坐标上的增量。当 |Δx| 很小时,|Δy - dy| 比 |Δx| 要小得多(高阶无穷小),因此在点 M 附近,我们可以用切线段来近似代替曲线段。
设函数y = f(x)在x的邻域内有定义,x及x + Δx在此区间内。如果函数的增量Δy = f(x + Δx) - f(x)可表示为 Δy = AΔx + o(Δx)(其中A是不随Δx改变的常量,但A可以随x改变),而o(Δx)是比Δx高阶的无穷小(注:o读作奥密克戎,希腊字母)那么称函数f(x)在点x是可微的,且AΔx称作函数在点x相应于因变量增量Δy的微分,记作dy,即dy = AΔx。函数的微分是函数增量的主要部分,且是Δx的线性函数,故说函数的微分是函数增量的线性主部(△x→0)。
通常把自变量x的增量 Δx称为自变量的微分,记作dx,即dx = Δx。于是函数y = f(x)的微分又可记作dy = f'(x)dx。函数因变量的微分与自变量的微分之商等于该函数的导数。因此,导数也叫做微商。
不懂手推即可
不懂手推即可
不懂手推即可
不懂手推即可
导数
导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0)/dx。
导数是函数的局部性质。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。如果函数的自变量和取值都是实数的话,函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。导数的本质是通过极限的概念对函数进行局部的线性逼近。
可导的函数一定连续;不连续的函数一定不可导。
导数的四则运算:
-
常为零,幂降次
-
对倒数(e为底时直接倒数,a为底时乘以1/lna)
-
指不变(特别的,自然对数的指数函数完全不变,一般的指数函数须乘以lna)
-
正变余,余变正
-
切割方(切函数是相应割函数(切函数的倒数)的平方)
-
割乘切,反分式
d/dx(sin x) = cos x
d/dx(cos x) = -sin x
d/dx(tan x) = sec^2 x
d/dx(e^x) = e^x
d/dx(e^u) = (e^u)(du/dx)
d/dx(ln x) = 1/x
三角函数:
d/dx(sin x)=cos x
d/dx(cos x)=-sin x
d/dx(tan x)=sec^2 x
d/dx[sin(ax+b)]=a[cos(ax+b)]
d/dx[cos(ax+b)]=-a[sin(ax+b)]
d/dx[tan(ax+b)]=a[sec^2(ax+b)]
d/dx(sin^n x)=n[sin^(n-1) x](cos x)
d/dx(cos^n x)=-n[cos^(n-1) x](sin x)
自然指数函数:
d/dx(e^x)=e^x
d/dx(e^u)=(e^u)(du/dx)
d/dx[e^(ax+b)]=ae^(ax+b)
自然对数函数:
d/dx(ln x)=1/x
d/dx(ln u)=(1/u)(du/dx)
d/dx[ln (ax+b)]=a/(ax+b)
上确界、下确界
上确界是最小的上界,下确界是最大的下界,这个概念将用来定义上极限和下极限。
上/下确界,数列最小的上界或最大下界。而上/下极限,则是强调当 n 趋近于 无穷时数列或者集合收敛子列的最大/最小的极限。
Lipschitz连续性(GAN)
Lipschitz连续_YZXnuaa的博客-CSDN博客_lipschitz连续
Lipschitz连续性,是一类特殊的Holder连续性,主要用在微分方程解的存在性与唯一性的判断中
梯度
梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
当前位置的梯度方向,为函数在该位置处方向导数最大的方向,也是函数值上升最快的方向,反方向为下降最快的方向。
当前位置的梯度长度(模),为最大方向导数的值。
i,j是x0和y0,或者(0,0,1)、(0,1,0)、(1,0,0)
偏导数
在数学中,一个多变量的函数的偏导数,就是它关于其中一个变量的导数而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)。
链式求导法则
导数与函数的极值&单调性&凹凸性判断
导数用于判断函数的单调性,凹凸性,极值_Robin's Home-CSDN博客_求导判断函数的单调性
若一个一元函数 [公式] 在某区间内处处可导(即对区间内的任何 [公式] 导数 [公式] 都存在),若区间内存在某些 [公式] 能使 [公式]( 即在这些点处函数曲线的斜率为零), 这样的点被称为驻点.
而从函数曲线来看,驻点又分为三类: 极大值,极小值,鞍点。
单调性:
设函数f(x)在闭区间 [a,b]上连续,在开区间(a,b)内可导。
(1)如果在(a,b)内,f’(x) > 0, 那么函数f(x) 在[a,b]上单调增加
(2)如果在(a,b)内,f’(x) < 0, 那么函数f(x) 在[a,b]上单调减少
凹凸性:
设函数f(x)在闭区间 [a,b]上连续,在开区间(a,b)内有二阶导数:
(1)如果在(a,b)内,f’’(x) > 0, 那么f(x) 在[a,b]上的图形是凹的
(2)如果在(a,b)内,f’’(x) < 0, 那么f(x) 在[a,b]上的图形是凸的
拐点:
连续曲线上的凹弧与凸弧的分界点称为曲线的拐点
如果f’’(x) 在x0的左右两侧临近异号,那么点(x0, f(x0))就是曲线 f(x)的一个拐点。这时f’’(x0) =0或者f’’(x0) 不存在。
驻点:
使f’(x)=0的点称为函数f(x)的驻点。
函数f(x)的极值点一定是它的驻点,但是,函数的驻点不一定是极值点。
极大值,极限值:
设函数f(x)在x0处有二阶导数,且f’(x0) = 0,f’’(x0)≠0,那么:
(1)当f’’(x0)<0时,函数f(x) 在点x0处取得极大值
(2)当f’’(x0)>0时,函数f(x) 在点x0处取得极小值
函数的最大值,最小值:
设函数f(x)在闭区间 [a,b]上连续,则f(x)在 [a,b]上必有最大值和最小值,且最大值和最小值只能在区间的端点或极值点处取得
不定积分
在微积分中,一个函数f 的不定积分,或原函数,或反导数,是一个导数等于f 的函数 F ,即F ′ = f。
根据牛顿-莱布尼茨公式,许多函数的定积分的计算就可以简便地通过求不定积分来进行。这里要注意不定积分与定积分之间的关系:定积分是一个数,而不定积分是一个表达式,它们仅仅是数学上有一个计算关系。一个函数,可以存在不定积分,而不存在定积分,也可以存在定积分,而没有不定积分。连续函数,一定存在定积分和不定积分;若在有限区间[a,b]上只有有限个间断点且函数有界,则定积分存在;若有跳跃、可去、无穷间断点,则原函数一定不存在,即不定积分一定不存在。
积分公式法、换元积分法、分部积分法
定积分
定积分是积分的一种,是函数f(x)在区间[a,b]上积分和的极限。
这里应注意定积分与不定积分之间的关系:若定积分存在,则它是一个具体的数值,而不定积分是一个函数表达式,它们仅仅在数学上有一个计算关系。
定积分的正式名称是黎曼积分。用黎曼自己的话来说,就是把直角坐标系上的函数的图象用平行于y轴的直线把其分割成无数个矩形,然后把某个区间[a,b]上的矩形累加起来,所得到的就是这个函数的图象在区间[a,b]的面积。实际上,定积分的上下限就是区间的两个端点a,b。
泰勒公式(优化算法的核心)
泰勒公式,是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件,泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。
中值定理、余项、一元多元公式
线性代数与矩阵论
线性空间
标量、向量、矩阵、张量
一个标量就是一个单独的数,一般用小写的的变量名称表示
一个向量就是一列数,这些数是有序排列的。用过次序中的索引,我们可以确定每个单独的数。通常会赋予向量粗体的小写名称。当我们需要明确表示向量中的元素时,我们会将元素排列成一个方括号包围的纵柱,我们可以把向量看作空间中的点,每个元素是不同的坐标轴上的坐标。
矩阵是二维数组,其中的每一个元素被两个索引而非一个所确定。我们通常会赋予矩阵粗体的大写变量名称,比如A。由二维矩阵(二维数组)扩展到高维矩阵(高维数组)。
几何代数中定义的张量是基于向量和矩阵的推广,通俗一点理解的话,我们可以将标量视为零阶张量,矢量视为一阶张量,那么矩阵就是二阶张量。 例如,可以将任意一张彩色图片表示成一个三阶张量,三个维度分别是图片的高度、宽度和色彩数据。
标量表示值, 矢量表示位置, 张量表示整个空间。
范数
秩
矩阵和向量的基本运算方式
线性代数笔记1——矩阵的基本运算_我是8位的-CSDN博客_线性代数矩阵运算
特征值、特征向量
特征值是指设 A 是n阶方阵,如果存在数m和非零n维列向量 x,使得 Ax=mx 成立,则称 m 是A的一个特征值(characteristic value)或本征值(eigenvalue)。非零n维列向量x称为矩阵A的属于(对应于)特征值m的特征向量或本征向量,简称A的特征向量或A的本征向量。
从数学上看,如果向量v与变换A满足Av=λv,则称向量v是变换A的一个特征向量,λ是相应的特征值。这一等式被称作“特征值方程”。
矩阵的正定、正定矩阵
特征值分解(主成分分析和线性判别分析等)
奇异值分解(正太贝叶斯分类器及主题模型等)
和特征分解不同,SVD并不要求要分解的矩阵为方阵
矩阵分解
矩阵分解(Matrix Decomposition) - 知乎
线性变换
相似矩阵
欧氏空间
正交矩阵
对称矩阵
概率论与信息论
随机变量
概率分布
条件概率
统计与假设检验
概率密度函数(连续)、概率质量函数(离散)
贝叶斯公式
期望
方差
协方差
0-1分布、二项分布(伯努利分布)、几何分布、高斯分布、指数分布、泊松分布
最小二乘法
最大似然估计
指数移动平均
熵的概念
条件熵
联合熵
相对熵
最大熵
互信息
最优化方法
基本概念
决策变量、目标函数、约束条件
凸集
在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内。
凸函数
判定方法可利用定义法、已知结论法以及函数的二阶导数,对于实数集上的凸函数,一般的判别方法是求它的二阶导数,如果其二阶导数在区间上小于等于零,就称为凸函数。如果其二阶导数在区间上恒小于0,就称为严格凸函数。
凸集分离定理
超平面、半空间
在几何体中,超平面是一维小于其环境空间的子空间。 如果空间是3维的,那么它的超平面是二维平面,而如果空间是二维的,则其超平面是一维线。 该概念可以用于定义子空间维度概念的任何一般空间。
在不同的设置中,超平面的对象可能具有不同的属性。 例如,n维仿射空间的超平面是尺寸为n-1的平坦子集。由于其性质,它将空间分成两个半空间。 n维投影空间的超平面不具有此属性。
在几何形状中,n维空间V的超平面是尺寸为n-1的子空间,或等价于V中的代数1。空间V可以是欧几里德空间,或更一般地是仿射空间,或向量空间或投影空间和超平面的概念因为这些设置中子空间的定义不同而相应变化。然而,在所有情况下,任何超平面可以在坐标中作为单个的解(由于“1”约束)的等式1的代数方程给出。
如果V是向量空间,则区分“向量超平面”(它们是线性子空间,因此必须通过原点)和“仿射超平面”(不需要通过原点);它们可以通过向量的平移来获得超平面。欧几里德空间中的超平面将该空间分成两个半空间,并定义了一个映射,该映射固定了超平面,并将两个半空间交换。
梯度下降法
拟牛顿法、阻尼牛顿法
拟牛顿法(DFP、BFGS、L-BFGS)_songbinxu的博客-CSDN博客_rqs约束一代好还是2代好
牛顿法(Newton Methods)、阻尼牛顿法和拟牛顿法_coffee_cream的博客-CSDN博客_newton法
随机梯度下降算法
随机梯度下降(stochastic gradient descent,SGD) - 知乎