深度学习-返向传播

这学期一直都在学习和了解机器学习其中，反向传播可以说是深度学习中最重要的一个概念。想通过几个例子来进行简短的说明

求导的链式法则

首先我们来看微积分中的链式法则

$\frac{\mathrm{d}z}{\mathrm{d}x}=\frac{\mathrm{d}z}{\mathrm{d}y}\frac{\mathrm{d}y}{\mathrm{d}x}$

然后我们假设 $x\in\mathbb{R}^m$ , $y\in\mathbb{R}^n$, g是从 $\mathbb{R}^m$到 $\mathbb{R}^n$的映射

$\frac{\partial z}{\partial x_i}=\sum_j\frac{\partial z}{\partial y_j}\frac{\partial y_j}{\partial x_i}$

然后我们使用向量标记法，可以等价的写成

$\nabla_xz=(\frac{\partial y}{\partial x})^T \nabla_yz$

这里的 $\frac{\partial y}{\partial x}$是g的 $m\times n$的Jacobian矩阵

实际的例子

相信看了这一坨公式你就和我一样蒙圈了，所以我们还是看一下一个反向传播实际的例子吧

简单例子

公式：

$f(x,y,z)=(x+y)z$

图结构：

我们可以记$q= x+y$ , $f= q\times z$

解释

$\frac{\mathrm{d}f}{\mathrm{d}f}=1$ $\frac{\mathrm{d}f}{\mathrm{d}z}=\frac{\mathrm{d}f}{\mathrm{d}f}\times \frac{\mathrm{d}f}{\mathrm{d}z}=1 \times \frac{\mathrm{d}f}{\mathrm{d}z} = 1\times q= 1 \times 3 = 3$ $\frac{\mathrm{d}f}{\mathrm{d}q}=\frac{\mathrm{d}f}{\mathrm{d}f}\times \frac{\mathrm{d}f}{\mathrm{d}q}=1 \times z = 1 \times -4 = -4$ $\frac{\mathrm{d}f}{\mathrm{d}x}=\frac{\mathrm{d}f}{\mathrm{d}q}\times \frac{\mathrm{d}q}{\mathrm{d}x}= -4 \times \frac{\mathrm{d}q}{\mathrm{d}x} = -4 \times 1 = -4$ $\frac{\mathrm{d}f}{\mathrm{d}y}=\frac{\mathrm{d}f}{\mathrm{d}q}\times \frac{\mathrm{d}q}{\mathrm{d}y}= -4 \times \frac{\mathrm{d}q}{\mathrm{d}y} = -4 \times 1 = -4$

Sigmoid例子

公式

$f(w,x)=\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$

图结构

解释

这个的解释基本和上面的简单例子就不分析了可以参考上面的图结构自己理解一下

涉及到max的例子

公式

$f(x,y,z,w)=(x\times y + max(z,w))\times 2$

图结构

解释

max方法就涉及到了一个不可求导的问题，这里的处理思路其实很简单就是把导数传递给了最大值的那一边，其他地方的导数都取0

参考

http://cs231n.github.io/optimization-2/