3.7后向传播算法

第二部分：更一般的神经网络-神经网络的矩阵方式

x = a^{(0)} \Rightarrow z^{(1)} = ω^{(1)} a^{(0)} + b^{(1)} \Rightarrow a^{(1)} = φ (z^{(1)})

\Rightarrow z^{(2)} = ω^{(2)} a^{(1)} + b^{(2)} \Rightarrow a^{(2)} = φ (z^{(2)})

\Rightarrow z^{(m)} = ω^{(m)} a^{(m - 1)} + b^{(m)} \Rightarrow a^{(m)} = φ (z^{(m)})

. . . \Rightarrow z^{(l)} = ω^{(l)} a^{(l - 1)} + b^{(l)} \Rightarrow a^{(l)} = φ (z^{(l)})

设对于一个输入向量x，其标签为y，就有：

M i n ： E = \frac{1}{2} {∥ y - Y ∥}^{2}

先推到E对“枢纽变量”的偏导数->推到对所有ω和b的偏导。

设置枢纽变量为：

δ_{i}^{(m)} = \frac{\partial E}{\partial z_{i}^{(m)}}

最后1层（l层）有：

δ_{i}^{(l)} = \frac{\partial E}{\partial z_{i}^{(l)}} = \frac{\partial E}{\partial y_{i}} \cdot \frac{\partial y_{i}}{\partial z_{i}^{(l)}} = (y_{i} - Y_{i}) φ^{'} (z_{i}^{(l)})

那么如何通过m+1层推导第m层呢？

δ_{i}^{(m)} = \frac{\partial E}{\partial z_{i}^{(m)}} = \sum_{j = 1}^{s_{m + 1}} \frac{\partial E}{\partial z_{j}^{(m + 1)}} \cdot \frac{\partial z_{j}^{(m + 1)}}{\partial z_{i}^{(m)}}

= \sum_{j = 1}^{s_{m + 1}} δ_{j}^{(m + 1)} \cdot \frac{\partial z_{j}^{(m + 1)}}{\partial z_{i}^{(m)}}

有

\frac{\partial z_{j}^{(m + 1)}}{\partial z_{i}^{(m)}} = \frac{\partial z_{j}^{(m + 1)}}{\partial a_{i}^{(m)}} \cdot \frac{\partial a_{i}^{(m)}}{\partial z_{i}^{(m)}} = ω_{j i}^{(m + 1)} \cdot φ^{'} (z_{i}^{(m)})

我们在前面知道：

δ_{i}^{(m)} = [\sum_{j = 1}^{S_{m + 1}} δ_{j}^{(m + 1)} ω_{j i}^{(m + 1)}] \cdot φ^{'} (z_{i}^{(m)})

容易求出：

\frac{\partial E}{\partial ω_{j i}^{(m)}} = δ_{j}^{(m)} \cdot a_{i}^{(m - 1)}

\frac{\partial E}{\partial b_{i}^{(m)}} = δ_{i}^{(m)}

（1）对神经网络每一层的各个神经元，随机选取相应的ω，b的值

（2）前向计算，对于输入的训练数据计算并保留每一层的输出值，直到计算出最后一层的输出y

（3）设置目标函数E，如

E = \frac{1}{2} {∥ y - Y ∥}^{2}

用后向传播算法对每一个ω和b计算

\frac{\partial E}{\partial ω} 和 \frac{\partial E}{\partial b}

（4）利用如下迭代公式，更新ω和b的值：

ω^{(n + 1)} = ω^{n} - α \frac{\partial E}{\partial ω} | ω^{(n)}, b^{(n)}

b^{(n + 1)} = b^{n} - α \frac{\partial E}{\partial b} | ω^{(n)}, b^{(n)}

（5）回到2.不断循环，直到所有

\frac{\partial E}{\partial ω} | ω^{(n)}, b^{(n)} 和 \frac{\partial E}{\partial b} | ω^{(n)}, b^{(n)}

很小为止，退出循环。

微信扫描下方的二维码阅读本文

1 2