很多数学上的性质都记不牢,每次用到都需要重新推导。为了减少此类时间浪费,决定以后每次使用时彻底整理好,自用之余也可造福读者。
本文所有内容均已严格查证并推导,但限于水平,难免有误。恳请发现问题的各位予以指正,谢谢!
1. 迹的定义
在线性代数中,将nnn阶方阵(即n×nn\times nn×n矩阵)A{\bf A}A的主对角线上各个元素的和称为方阵A{\bf A}A的迹(trace),记为tr(A){\rm tr}(\bf A)tr(A)。
这里需要注意的是,迹是在方阵上定义的。如果不是方阵,那么就没有迹。MATLAB中可以对方阵A直接使用trace函数来得到其迹(代码:trace(A)),但如果对非方阵使用trace函数,将报错“矩阵必须为方阵”。
2. 迹运算的基本性质
(1) 转置不改变迹:tr(AT)=tr(A){\rm tr}({\bf A}^{\rm T}) = {\rm tr}(\bf A)tr(AT)=tr(A)
(2) 迹运算是线性运算:tr(aA+bB)=a⋅tr(A)+b⋅tr(B){\rm tr}(a{\bf A}+b{\bf B}) = a\cdot{\rm tr}({\bf A}) + b\cdot{\rm tr}({\bf B})tr(aA+bB)=a⋅tr(A)+b⋅tr(B)
(3) 交换矩阵乘法顺序不改变迹:
tr(AB)=tr(BA){\rm tr}({\bf AB})={\rm tr}({\bf BA})tr(AB)=tr(BA)
tr(ABC)=tr(CAB)=tr(BCA){\rm tr}({\bf ABC})={\rm tr}({\bf CAB})={\rm tr}({\bf BCA})tr(ABC)=tr(CAB)=tr(BCA)
3. 迹与偏导的常见混合运算
(1) ∂tr(AB)∂A=BT\frac{\partial{\rm tr}({\bf AB})}{\partial {\bf A}}=
{\bf B}^{\rm T}∂A∂tr(AB)=BT, ∂tr(AB)∂B=AT\frac{\partial{\rm tr}({\bf AB})}{\partial {\bf B}}=
{\bf A}^{\rm T}∂B∂tr(AB)=AT
(2) ∂tr(AAT)∂A=2A\frac{\partial {\rm tr}( {\bf A} {\bf A}^{\rm T} )}{\partial {\bf A}}=
2{\bf A}∂A∂tr(AAT)=2A
证明:∂tr(AAT)∂A\frac{\partial {\rm tr}( {\bf A} {\bf A}^{\rm T} )}{\partial {\bf A}}∂A∂tr(AAT)
=∂tr(A不变AT)∂A+∂tr(AA不变T)∂A=\frac{\partial {\rm tr}( {\bf A}_{不变} {\bf A}^{\rm T} )}{\partial {\bf A}}+\frac{\partial {\rm tr}( {\bf A} {\bf A}^{\rm T}_{不变} )}{\partial {\bf A}}=∂A∂tr(A不变AT)+∂A∂tr(AA不变T)
=2∂tr(AA不变T)∂A=2\frac{\partial {\rm tr}( {\bf A} {\bf A}^{\rm T}_{不变} )}{\partial {\bf A}}=2∂A∂tr(AA不变T)(利用2中性质(1),有∂tr(A不变AT)∂A=∂tr(AA不变T)∂A\frac{\partial {\rm tr}( {\bf A}_{不变} {\bf A}^{\rm T} )}{\partial {\bf A}}=\frac{\partial {\rm tr}( {\bf A} {\bf A}^{\rm T}_{不变} )}{\partial {\bf A}}∂A∂tr(A不变AT)=∂A∂tr(AA不变T))
=2A=2{\bf A}=2A
(3) ∂tr(ABATC)∂A=CAB+CTABT\frac{\partial {\rm tr}( {\bf AB} {\bf A}^{\rm T}{\bf C} )}{\partial {\bf A}}=
{\bf CAB} + {\bf C}^{\rm T} {\bf A}{\bf B}^{\rm T}∂A∂tr(ABATC)=CAB+CTABT
证明:∂tr(ABATC)∂A\frac{\partial {\rm tr}( {\bf AB} {\bf A}^{\rm T}{\bf C} )}{\partial {\bf A}}∂A∂tr(ABATC)
=∂tr(A不变BATC)∂A+∂tr(ABA不变TC)∂A=\frac{\partial {\rm tr}( {\bf A}_{不变} {\bf B} {\bf A}^{\rm T}{\bf C} )}{\partial {\bf A}}+\frac{\partial {\rm tr}( {\bf AB} {\bf A}^{\rm T}_{不变}{\bf C} )}{\partial {\bf A}}=∂A∂tr(A不变BATC)+∂A∂tr(ABA不变TC)
=∂tr(ATCA不变B)∂A+∂tr(ABA不变TC)∂A=\frac{\partial {\rm tr}({\bf A}^{\rm T} {\bf C} {\bf A}_{不变} {\bf B})}{\partial {\bf A}}+\frac{\partial {\rm tr}( {\bf AB} {\bf A}^{\rm T}_{不变}{\bf C} )}{\partial {\bf A}}=∂A∂tr(ATCA不变B)+∂A∂tr(ABA不变TC)(利用2中性质(1))
=∂tr(BTA不变TCTA)∂A+∂tr(ABA不变TC)∂A=\frac{\partial {\rm tr}({\bf B}^{\rm T} {\bf A}_{不变}^{\rm T} {\bf C}^{\rm T} {\bf A})}{\partial {\bf A}}+\frac{\partial {\rm tr}( {\bf AB} {\bf A}^{\rm T}_{不变}{\bf C} )}{\partial {\bf A}}=∂A∂tr(BTA不变TCTA)+∂A∂tr(ABA不变TC)(利用2中性质(3))
=(BTATCT)T+(BATC)T={({\bf B}^{\rm T} {\bf A}^{\rm T} {\bf C}^{\rm T})}^{\rm T}+{({\bf B} {\bf A}^{\rm T}{\bf C})}^{\rm T}=(BTATCT)T+(BATC)T(利用3中结果(1))
=CAB+CTABT={\bf CAB} + {\bf C}^{\rm T} {\bf A}{\bf B}^{\rm T}=CAB+CTABT