深度解剖(4)：DNN反向传播-bp算法，矩阵偏导传递

以下是链接我个人关于深度学习的所有见解，其后会对深度学习思想，正反向传播，损失函数，正则惩罚，梯度下降，矩阵求导，网络搭建，等等都进行详细的讲解！只有你想不到的，没有我讲不到的。让我用最通俗的语言，为你留下最深刻的印象，后来的年轻人以及我徒弟，好好加油！
深度解剖(0)：最通俗易懂，详细无死角的深度学习讲解(目录)
如果有说得不对的地方，欢迎大家指出，我会第一时间进行更正，有兴趣可以加微信a944284742一起讨论技术，如果觉得喜欢，一定要点赞，因为这是对我最大的鼓励。

损失函数

先来看看我们上小节辛苦推导出来的公式：
$a^{(i,L)} =\sigma (z^{L}) = \sigma(a^{(i,L-1)}·w^{(i,L)} + b^{(L)})$ 通过这个公式，我们可以进行前向传播，简单的说，给定一个输入，通过前向传播就能获得一个预测值，这里说到预测值，我们肯定会联想到 $l oss$ ,其代表的是损失，前面为了方便理解，我给大家说：
$l oss = 预测值 - 真实值$ ，通过链式法则反向传播更新参数 $w, b$ 之后，通过多次迭代，loss会减少。在实际中，我们的损失函数是这样定义的：
$单个样本：loss^{(L)}(x,w,b,y) = \frac{1}{2}||a^L-y||_2^2$

$多个样本：loss^{(n,L)}(x,w,b,y) = \frac{1}{n}∑ _{i=0}^n \frac{1}{2}||a^L-y||_2^2$
大家不要觉得这个 $\frac{1}{2}$ 很奇怪，其是为了后面反向求导的方便，为了容易理解，假设我们使用单个样本进行训练，即使用下面的推导 $loss^{(L)}(x,w,b,y) = \frac{1}{2}||a^L-y||_2^2$ 大家需要注意的是， $a^L-y||_2$ ,表示是L2范数，因为我们的输出 $a^L$ 虽然是一个样本训练的结果，但是这个结果可能是多列的，即不单单是一维的。但是计算得到 $l oss$ ，一般都是一个数值。并且也请大家注意到 $loss^{(L)}(x,w,b,y)$ ,其大小只与 $x, w, b, y$ 相关，同时，这里的 $w, b$ 是没有上标的，其代表的并不是某一层的 $w$ ,而是所有网络结构 $w$ 的综合，当然 $b$ 也是一样。

bp算法单层公式推导

上面我们通过前向传播，得到 $a^L$ ，然后计算得到损失 $l oss$ ,并且告诉大家其 $l oss$ 只和参数 $(x, w, b, y)$ 相关，为了直接的体现出来我在这里把公式代入展开：
$loss^{(L)}(x,w,b,y) = \frac{1}{2}||\sigma (z^L)-y||_2^2=\frac{1}{2}|| \sigma(a^{L-1}·w^{L} + b^{L}) -y||_2^2$ 这个样子展开之后，大家应该和能感受到， $l oss$ 是直接受到 $x, w, b, y$ 参数的影响的，但是我们要更新的只有 $w, b$ 。通过前面的小节我们知道 $\sigma$ 表示的是激活函数，但是激活函数有很多种类，如sigmod，rule，softmax，prule等等。在这里不做详细的讲解，后续有专门的章节，进行详细解说。

好了，现在正式进入反向传播，根据上面的公式，我们要对 $w$ 进行更新，那么我们就需要知道更新多大的值才比较合适。前面提到，我们训练网络就是为了让 $l oss$ 接近0，也就是现在我们要想办法改变 $w, b$ 让 $l oss$ 变得更加小。也就是说，我们需要对 $w, b$ 求偏导，

$\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial w^L} =[(a^L-y) ⊙\sigma'(z^L)](a^{L-1})^{T}$
注意上式中有一个符号⊙⊙,它代表Hadamard积，对于两个维度相同的向量 $A(a_1,a_2,...a_n)^{T}$ 和 $B(b_1,b_2,...bn)^{T}$ ,则 $A⊙B=(a_1b_1,a_2b_2,...a_nb_n)^T$ 。直白的说就是对应的相乘就可以了。因为上述公式中的 $a^L,y,\sigma'(z^L)$ 表示的不是一个数，而是一个多维的数组，但是 $\sigma'(z^L)$ 与 $a^L,y$ 维度都是相同的，单个样本的时候，一般为1*n维的数组。那么为什么乘以 $a^{L-1})^{T}$ 的时候，需要进行转置（符号T，表示行列互换，可以百度一下矩阵转置）呢？，首先注意， $a^{L-1}与a^{L}$ 的维度不一定相同的，[(a^L-y) ⊙\sigma’(z^L)]与(a{L-1})^{T}表示的也不是矩阵相乘。而是普通的数组相乘。如下面两个矩阵相乘：
$\left\{ \begin{matrix} [a_{11}^{L-1} & a_{12}^{L-1}& a_{13}^{L-1}]\\ \end{matrix} \right\}· \left\{ \begin{matrix} [w_{11}^L& w_{12}^L ]\\ \\ [w_{21}^L & w_{22}^L]\\ \\ [w_{31}^L & w_{32}^L]\\ \end{matrix} \right\} = \left\{ \begin{matrix} [a_{11}^{L} & a_{12}^{L}]\\ \end{matrix} \right\}$
那么计算的过程：
$a_{11}^{L} = a_{11}^{L-1}w_{11} + a_{12}^{L-1}w_{21} + a_{13}^{L-1}w_{31}$ $a_{12}^{L} = a_{11}^{L-1}w_{12} + a_{12}^{L-1}w_{22} + a_{13}^{L-1}w_{32}$
这是正向传播的过程，我们反向传播是为了求
$\left\{ \begin{matrix} [\frac{\partial a_{11}^L}{\partial w_{11}^L} & \frac{\partial a_{12}^L}{\partial w_{12}^L} \\ \\ [\frac{\partial a_{11}^L}{\partial w_{21}^L} & \frac{\partial a_{12}^L}{\partial w_{22}^L} \\ \\ [\frac{\partial a_{11}^L}{\partial w_{31}^L} & \frac{\partial a_{12}^L}{\partial w_{32}^L} \\ \end{matrix} \right\} = \left\{ \begin{matrix} [a_{11}^{L-1}& a_{12}^{L-1}]\\ \\ [a_{11}^{L-1} & a_{12}^{L-1}]\\ \\ [a_{11}^{L-1} & a_{12}^{L-1}]\\ \end{matrix} \right\}$ ,那么如何才能得到这个呢,那就是使用数组乘法， $[(a^L-y) ⊙\sigma'(z^L)]$ 与 $a^{L-1})^{T}$ 相乘，如下面是使用np一个简单的例子：

import numpy as np

A = [[1,2]]
A = np.array(A)

B = [[1,2,3]]
B = np.array(B)

print(np.multiply(A,B.T))

输出结果：

[[1 2]
 [2 4]
 [3 6]]

上面是对 $w$ 数组求偏导的过程，现在我们对 $b$ 求偏导：
$\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial b^L} =[(a^L-y) ⊙\sigma'(z^L)]$
这里的由来，就不再进行解释了，因为按照前面求 $w$ 的思路就可以了。

bp算法多层公式推导

经过上面我们得到两个公式：

$\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial w^L} =[(a^L-y) ⊙\sigma'(z^L)](a^{L-1})^{T}$ $\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial b^L} =[(a^L-y) ⊙\sigma'(z^L)]$
但是上面这个公式有个缺陷，其反向传播过程，只传递了一层，即从L层传到了L-1，假设我们的网络结构现在一共有L，我们就要把 $l oss$ 从第L层传递到第一层，即要传递给网络中所有的 $w$ 与 $b$ 。

其上公式我们可以注意到，在求解输出层的 $w, b$ ，有中间依赖部分 $\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial z^L}$ ,我们可以先把对 $z^L$ 的偏导求出来：
$\delta^L = \frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial z^L}=(a^L-y) ⊙\sigma'(z^L)$
在这里插入图片描述
首先这里要明确一个东西，求输出层L中 $w, b$ 的梯度，是为了更新L层的 $w, b$ ，上面求 $\delta^L$ 得梯度,是为了传递给前面得网络层，所以这三个都是有必要的，如下图标记：

三种颜色分别表示要求的3种梯度。现在我们终于把梯度 $\delta^L$ 求出来了，根据链式法则，有如下公式：

$\delta^l = \frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial z^l}= (\frac {\partial z^L}{\partial z^{L-1}} \frac {\partial z^{L-1}}{\partial z^{L-2}}····\frac {\partial z^{l+1}}{\partial z^{l}})^T\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial z^L}$ 看到上面的公式，大家要注意下大L和小 $l$ 的区分，大L表示的输出层，小 $l$ 表示的是中间层次。也就是说通过上面的公式，我们就能求出中间任意层次的梯度的（通过链式法则）。我们求出了中间任意层次的梯度，但是还是不够的，因为我们最终是为了作用于 $w, b$ ,也就是说，求出之前层数 $z^l$ （此时没有经过激活函数）的梯度，然后还要传递给对应层数的 $w, b$ ，其实传递的方式是很简单的，因为:
$z^l = wa^{l-1}+b^l$
所以根据链式法则:
$\frac {\partial [loss(x,w,b,y)]}{\partial w^l}= \delta^l(a^{l-1})^T$ $\frac {\partial [loss(x,w,b,y)]}{\partial b^l}= \delta^l$ 那么和明显的感觉到，我们要更新某一层的 $w, b$ ，就要求出该层的 $\delta^l$ ，现在我们对前面的公式：
$\delta^l = \frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial z^l}= (\frac {\partial z^L}{\partial z^{L-1}} \frac {\partial z^{L-1}}{\partial z^{L-2}}····\frac {\partial z^{l+1}}{\partial z^{l}})^T\frac {\partial [loss^{(L)}(x,w,b,y)]}{\partial z^L}$
进行简化得到:
$\delta^l = \frac {\partial [loss^{}(x,w,b,y)]}{\partial z^l}= (\frac {\partial z^{l+1}}{\partial z^l})^T\frac {\partial [loss(x,w,b,y)]}{\partial z^{l+1}}=(\frac {\partial z^{l+1}}{\partial z^l})^T\delta^{l+1}$
简介如下：
$\delta^l =(\frac {\partial z^{l+1}}{\partial z^l})^T\delta^{l+1}$
这样就变成了一个递推模型，即重点在于求解 $(\frac {\partial z^{l+1}}{\partial z^l})$ ,其求解又非常的简单

$z^{l+1} = w^{l+1}a^l+b^{l+1} = w^{l+1}\sigma(z^l) +b^{l+1}$ 所以:
$(\frac {\partial z^{l+1}}{\partial z^l}) = w^{l+1}diag(\sigma'( z^l))$
前面为大家简介了很多次矩阵的运算，这里的diag表示处对角线之外，其余都为0，至于为什么要这样，大家可以去推导一下，如果没有先明白，可以看文章开头，添加我的微信一起探讨。现在我们带入前面的式子
$\delta^l = \frac {\partial [loss^{}(x,w,b,y)]}{\partial z^l}= (\frac {\partial z^{l+1}}{\partial z^l})^T\frac {\partial [loss(x,w,b,y)]}{\partial z^{l+1}}=(w^{l+1}diag(\sigma'( z^l)))^T\delta^{l+1}= (w^{l+1})^T\delta^{l+1}⊙\sigma'(z^l)$
到这里，反向传播算是推导完成了，也就是说，我们只要知道了某一层的 $\delta^l$ ,我们就能得到其对应需要更新$ $\Delta$ w, $\Delta$ b$。