华宇考试网

什么是矩阵微分法则,矩阵 微分

时间:2022-10-15来源:华宇网校作者:初级会计百度云 初级会计免费资料下载
什么是矩阵微分法则

什么是矩阵微分法则?

矩阵微分(Matrix Differential)也称矩阵求导(Matrix Derivative),在机器学习、图像处理、优化等领域的公式推导途中常常用到。

1. 符号说明

d(y)/d(x) 是一个列向量,这当中的元素 (i) 为 d(yi)/d(x)

d(y)/d(x) 是一个列向量,这当中的元素 (i) 为 d(y)/d(xi)

d(yT)/d(x) 是一个矩阵,这当中的元素 (i,j) 为 d(yj)/d(xi)

d(Y)/d(x) 是一个矩阵,这当中的元素 (i,j) 为 d(Yi,j)/d(x)

d(y)/d(X) 是一个矩阵,这当中的元素 (i,j) 为 d(y)/d(Xi,j)

的微分计算中,假定A, B, C是常矩阵与X无关,Y, Z与X有关。

2. 一次函数的微分(Linear Products)

第一讲解一个重要的性质(类似于函数的求导): d(YZ)/d(x)=Y*d(Z)/d(x)+d(Y)/d(x)*Z,注意到分母中的x是标量(Scalar)。在微分中分母是向量的情况下,个人经验是:若d(行向量)/d(列向量)或者d(列向量)/d(行向量),则也合适这个公式,请看下方具体内容面的前两个公式。

d(xTA)/d(x) = A

推导过程:d(xTA)/d(x) = A*d(xT)/d(x)+xT*d(A)/d(x) = A*I+0 = A。若A为向量a也适用。

d(Ax)/d(xT) = A 推导过程:d(Ax)/d(xT) = [d(xTAT)/d(x)]T = (AT)T = A。

d(aTXb)/d(X) = abT第一得出aTXb = aTX:,1b1 + aTX:,2b2 + ... + aTX:,nbn,这是一个实数,故此,对应的Xi,j的系数构成的矩阵就为微分结果,易得abT。若a, b为矩阵A, B公式也适用。

d(aTXTb)/d(X) = baT计算过程同上,若a, b为矩阵A, B公式也适用。

注意,有部分书上有这些公式:d(xA)/d(x)=A; d(Ax)/d(x)=AT。考虑到x为列向量,则Ax也为列向量,列向量对列向量的求导根据《矩阵论》中的公式,结果会是一个列向量而不是公式中的AT。这些特殊的情况就让数学家去钻研吧,应用研究很少碰见。

3. 二次函数的微分(Quadratic Products)

下面的讨论主要针对分子为二次的情况,分母还是向量或者矩阵。分母为高阶的情况较少,典型的例子有Hessian矩阵,在文章后会讲解。

d(xTAx)/d(x) = (A+AT)x在SVM求对偶的途中有这一步求导。用展开的方法可以很快求得。若A为对称阵,则d(xTAx)/d(x) = 2Ax。

d[(Ax+b)TC(Dx+e)]/d(x) = ATC(Dx+e) + DTCT(Ax+b) 这是该形式为通用的公式。

d(aTXTXb)/d(X) = X(abT + baT)

情况特殊:d(aTXTXa)/d(X) = 2XaaT

d(aTXTCXb)/d(X) = CTXabT + CXbaT

d(aTXTCXa)/d(X) = (C + CT)XaaT

d(aTXTCXa)/d(X) = 2CXaaT,若C对称。

d[(Xa+b)TC(Xa+b)]/d(X) = (C+CT)(Xa+b)aT

4. 矩阵的迹的微分(Trace)

在矩阵的迹tr()中的矩阵一定要为方阵。设有N阶矩阵A,既然如此那,矩阵的迹tr(A)就等于A的特点值的总和,也为A矩阵的主对角线元素的总和,tr(AB)=tr(BA)。

d(tr(X))/d(X) = I

d(tr(Xk))/d(X) =k(Xk-1)T

d[tr(ATXBT)]/d(X) = d[tr(BXTA)]/d(X) = AB

d[tr(XAT)]/d(X) = d[tr(ATX)]/d(X) =d[tr(XTA)]/d(X) = d[tr(AXT)]/d(X) = A

d[tr(AXBXT)]/d(X) = ATXBT + AXB

d[tr(XAXT)]/d(X) = X(A+AT)

d[tr(XTAX)]/d(X) = XT(A+AT)

d[tr(AXTX)]/d(X) = (A+AT)X

d[tr(AXBX)]/d(X) = ATXTBT + BTXTAT

5. 雅可比矩阵(Jacobian)

雅可比矩阵也可看做是向量对向量的求导而得到的,假设y=f(x),则对应的雅可比矩阵J=d(y)/d(xT)。

6. 海森矩阵(Hessian matrix)

假设y=f(x),则d[d(f)/d(x)]/d(x)是海森矩阵。在优化中海森矩阵有很多用途,如求大值,小值,鞍点等。

d2(Ax+b)TC(Dx+e)/d(X2)= ATCD + DTCTA

    初级会计百度云热门资讯

  • 什么是矩阵微分法则,矩阵 微分

    什么是矩阵微分法则? 矩阵微分(Matrix Differential)也称矩阵求导(Matrix Derivative),在机器学习、图像处理、优化等领域的公式推导途中常常用到。 1. 符号说明 d(y)/d(x) 是一个列向量,这当中的元素 (i) 为 d(yi)/d(x) d(y)/d(x) 是一个列向...

    2022-10-15

  • 在校大学生没有高中毕业证可以领取初级会计,我想考会计证但

    在学校念书大学生,没有高中毕业证,可以领取初级会计证吗? 假设没有高中毕业证,拿大学在学校念书证明不可以去报名初级会计的。 报考初级会计职称一定要具备教育部门认可的高中毕业或者以上学历。 我想考会计证但是,...

    2022-10-15

  • 三角形和梯形的面积体积公式,圆柱体积怎么算立方

    三角形和梯形的面积体积公式? 图形有平面图形和立体图形之分,像三角形,长方形,正方形,梯形,圆形是平面图形,像长方体,正方体,圆柱,圆锥,球体等是立体图形。 平面图形有周长和面积,立体图形有表面积,总棱长...

    2022-10-15

  • 龙珠战力怎么计算,龙珠合体战斗力计算公式

    龙珠战力怎么计算? 战斗力,应该不只是根据衡量气的多少的来定义。 根据公式书中海龟的战斗力唯有0.000007左右,根据气的说法这数值也太低了,而且,海龟的防御力也不错。为了的出这么低的一个数字,战斗力衡量的只可能是...

    2022-10-15

  • 胎儿体重标准计算公式,胎儿体重计算标准的方式

    胎儿体重标准计算公式? 胎儿体重除了可以使用胎儿的月龄进行总体估算以外,还可在超声检查的详细指导下,通过双顶径、腹围、肱骨骨长、股骨长度进行计算,且计算胎儿体重的公式有点多,每种都可能会存在一定的误差,约...

    2022-10-15