在推导深度学习模型反向传播时，矩阵求导（Matrix Calculus）是最常见的数学工具之一。

很多复杂的梯度推导，本质上都依赖一些非常基础的矩阵微分公式。本文总结几个深度学习中最常见的公式，并通过 Attention 的反向传播展示这些公式如何实际使用。

一、常用矩阵求导公式

1 Frobenius 内积

$A:B = \mathrm{tr}(A^T B)$

含义

矩阵的 Frobenius 内积定义为：

$A:B = \sum_{ij} A_{ij} B_{ij}$

等价写法：

$A:B = \mathrm{tr}(A^T B)$

为什么重要

在深度学习中：

梯度通常写成 Frobenius inner product 形式。

例如 loss 的微分可以写为

$dL = \frac{\partial L}{\partial X} : dX$

这样可以统一标量对矩阵的求导表达。

2 标量函数的矩阵微分

$dL = \frac{\partial L}{\partial X} : dX$

含义

如果

$L = f(X)$

其中

$L$ 是标量
$X$ 是矩阵

那么微分展开为

$dL = \sum_{ij} \frac{\partial L}{\partial X_{ij}} dX_{ij}$

用 Frobenius 内积表示就是

$dL = \frac{\partial L}{\partial X} : dX$

上式也可以自然推广到 多元变量的情况。如果损失函数依赖于多个矩阵变量，例如

$L = f(X_1, X_2, \dots, X_n)$

那么它的全微分可以写为

$dL = \sum_{i=1}^{n} \frac{\partial L}{\partial X_i} : dX_i$

也就是

$dL = \frac{\partial L}{\partial X_1}:dX_1 + \frac{\partial L}{\partial X_2}:dX_2 + \cdots + \frac{\partial L}{\partial X_n}:dX_n$

这实际上就是多元微积分中全微分公式

$dL = \sum_i \frac{\partial L}{\partial x_i} dx_i$

在矩阵情形下的推广，其中内积由普通乘法推广为 Frobenius 内积。在深度学习的反向传播推导中，我们通常通过观察 $dL$ 中与某个 $dX_i$ 对应的项，直接读出对应变量的梯度 $\frac{\partial L}{\partial X_i}$。

作用

这是 反向传播链式法则的核心表达方式。

3 Jacobian 线性近似

$dy = J dx$

含义

如果

$y = f(x)$

其中

$x \in \mathbb{R}^n, \quad y \in \mathbb{R}^m$

则 Jacobian 定义为

$J = \frac{\partial y}{\partial x}$

于是微分关系为

$dy = J dx$

在深度学习中的意义

在反向传播中：

$\frac{\partial L}{\partial x}= J^T \frac{\partial L}{\partial y}$

4 矩阵乘法求导

$d(AB) = dA B + A dB$

含义

这是矩阵版本的 乘法求导法则（Product Rule）

对应标量：

$d(xy) = xdy + ydx$

使用场景

神经网络中最常见形式：

$Y = WX$

则

$dY = dW X + W dX$

5 Trace 循环性质

$\mathrm{tr}(ABC) = \mathrm{tr}(BCA) = \mathrm{tr}(CAB)$

含义

Trace 具有 循环不变性（cyclic property）

例如

$\mathrm{tr}(AB) = \mathrm{tr}(BA)$

但需要注意：

只能循环
不能改变矩阵顺序

为什么重要

在梯度推导中，经常需要将

$A : (BX)$

变换为

$(B^T A) : X$

这实际上利用了 trace 的循环性质。

二 Attention 反向传播例子

下面通过 Transformer Attention 展示这些公式如何使用。

1 Attention 前向传播

标准 Attention 计算：

$S = QK^T$ $P = softmax(S)$ $O = PV$

其中

$Q \in \mathbb{R}^{n \times d}$ $K \in \mathbb{R}^{n \times d}$ $V \in \mathbb{R}^{n \times d_v}$

2 输出层梯度

假设

$L = L(O)$

已知

$\frac{\partial L}{\partial O}$

Step 1 对 V 求导

因为

$O = PV$

根据矩阵乘法求导

$dO = dP V + P dV$

只看 $dV$ 项：

$dO = P dV$

loss 微分：

$dL = \frac{\partial L}{\partial O} : dO$

代入

$dL = \frac{\partial L}{\partial O} : (P dV)$

利用 trace 循环性质

$A : (BC) = (B^T A) : C$

得到

$\frac{\partial L}{\partial V}= P^T \frac{\partial L}{\partial O}$

Step 2 对 P 求导

同样

$dO = dP V$

loss 微分

$dL = \frac{\partial L}{\partial O} : (dP V)$

使用 trace 循环

$dL = \left( \frac{\partial L}{\partial O} V^T \right) : dP$

所以

$\frac{\partial L}{\partial P}= \frac{\partial L}{\partial O} V^T$

Step 3 对 S 求导

因为

$P = softmax(S)$

使用 Jacobian：

$dP = J_{softmax} dS$

因此

$\frac{\partial L}{\partial S}= J_{softmax}^T \frac{\partial L}{\partial P}$

Step 4 对 Q 和 K 求导

因为

$S = QK^T$

根据矩阵乘法求导：

$dS = dQ K^T + Q dK^T$

对 Q 求导

$dS = dQ K^T$

代入

$dL = \frac{\partial L}{\partial S} : (dQ K^T)$

使用 trace 循环

$dL = \left( \frac{\partial L}{\partial S} K \right) : dQ$

因此

$\frac{\partial L}{\partial Q}= \frac{\partial L}{\partial S} K$

对 K 求导

因为

$dS = Q dK^T$

得到

$\frac{\partial L}{\partial K}= \left( \frac{\partial L}{\partial S} \right)^T Q$

三 Attention 反向传播总结

最终梯度结果：

$\frac{\partial L}{\partial V}= P^T \frac{\partial L}{\partial O}$ $\frac{\partial L}{\partial P}= \frac{\partial L}{\partial O} V^T$ $\frac{\partial L}{\partial Q}= \frac{\partial L}{\partial S} K$ $\frac{\partial L}{\partial K}= \left(\frac{\partial L}{\partial S}\right)^T Q$

四总结

深度学习中的复杂梯度推导，其实大量依赖几个简单规则：

核心四件套：

Frobenius 内积
trace 循环性质
矩阵乘法求导
Jacobian

只要熟练掌握这些公式，像

Attention
Transformer
LayerNorm
BatchNorm

等模块的梯度推导都会变得非常清晰。

Hexo

深度学习中常用的矩阵求导公式总结（含 Attention 反向传播例子）

一、常用矩阵求导公式

1 Frobenius 内积

含义

为什么重要

2 标量函数的矩阵微分

含义

作用

3 Jacobian 线性近似

含义

在深度学习中的意义

4 矩阵乘法求导

含义

使用场景

5 Trace 循环性质

含义

为什么重要

二 Attention 反向传播例子

1 Attention 前向传播

2 输出层梯度

Step 1 对 V 求导

Step 2 对 P 求导

Step 3 对 S 求导

Step 4 对 Q 和 K 求导

对 Q 求导

对 K 求导

三 Attention 反向传播总结

四总结

一、常用矩阵求导公式

1 Frobenius 内积

含义

为什么重要

2 标量函数的矩阵微分

含义

作用

3 Jacobian 线性近似

含义

在深度学习中的意义

4 矩阵乘法求导

含义

使用场景

5 Trace 循环性质

含义

为什么重要

二 Attention 反向传播例子

1 Attention 前向传播

2 输出层梯度

Step 1 对 V 求导

Step 2 对 P 求导

Step 3 对 S 求导

Step 4 对 Q 和 K 求导

对 Q 求导

对 K 求导

三 Attention 反向传播总结

四 总结

四总结