array(2) { ["lab"]=> string(3) "616" ["news"]=> string(3) "244" } 矩阵微分实例 - Intelligent Computing and Data Mining Lab | LabXing

Intelligent Computing and Data Mining Lab

简介 Machine Learning; Evolutionary Computation; Deep Learning; Image Processing

分享到

矩阵微分实例

基础知识(标量函数对矩阵变量/向量求导)

  • 核心:使用矩阵微分与trace的关系

函数f微分=Jacobian矩阵*X的微分

df(X)

注意:最后求得导数需要去掉trace,因为是标量所以可以直接去掉,但结果需要装置

  • 常用基础公式

冖 冖 44 一 一 Ⅱ 冖 冖 冖 一 T 一 一 Ⅱ 冖 “ 4T , rTd4) 
• ( “ 4T Ⅱ ( ( 44 ) r 4 + “ 4 24 ) 
43C ) Ⅱ C44 )

 

计算机生成了可选文字:
(‘扭0厂二己B了A丁

 

trace的循环不变性,A,B,C为方阵,但更一般的如果ABC不是方阵但其循环后矩阵乘法存在,则下列公式依旧成立

计算机生成了可选文字:
介(城刀0=介(C理刀)二介(BC4)

但是一般以下是不成立的

计算机生成了可选文字:
护(注召C)笋介(‘哎CB)

  • 机器学习常用损失函数形式

计算机生成了可选文字:
mlnarg
e
}}f(二句一川
2
+xllell
2
2
2

也就是说损失函数一般写为矩阵/向量变量的标量函数,通过矩阵/向量范数即可去掉范数求解中的绝对值,一般考虑向量L2范数和矩阵F范数

ΙΙαΙΙ2 
ΣΙαιΙ 
ατα

Example 1:L2范数约束下带Tikhonov regularization的稀疏表示

ха yt+—llI-z 
2 
[аТхТХ“+уТу 2Нхтхй+Аатгтгај 
2 
И 2уТП+йатгтгај) 
хг ха + - 2yTX(dz) + + йаТГТГ(а'а)) 
2 
tr(d хг X(dz) + ат хг X(dz) - X(dz) + АНГТГ(Д + йаТГТГ(а'а)) 
2 
А2[атхтх-утх+йатгтгјаа) 
2 
(ат хГ х- + АЫГТГ)Т 
dz Гх 
хг ха хТу+ягТга 
о— хтха хТу+ягТга о 
Гх 
— (ХТХ+йГТГ)а-ХТу 
(хТХ+л-Тг)1хТу

​​​​​​​

Example 2: ELM 约束求解(ridge regression岭回归)

 

计算机生成了可选文字:
mInarg
声
IH刀一,}r+元}可:。扩“:床r':re护

注:上式参数均为矩阵,与稀疏表示区别,所以这里的范数通常为矩阵的F范数,如下

计算机生成了可选文字:
lINI厂一厕面一弄面面

 

将上式写为损失函数的形式并展开(这样做是为了使函数可导,与稀疏类似)

矩阵范数的展开与向量稍有不同,这里借助F范数的trace表达去掉绝对值

对L求导:

Ајн (IY+HIH 61<0-617+1хн йнјн 
Ајн йнјн РУ+НЈХ-НЈНЈЙ) 
(ЙР(ЈЙУ+НЈХ- Р 
(йр(јйУ+ НА - 
(ЙРНЈНЈЙ)ДЕ

 

 

创建: Aug 08, 2018 | 20:24