Files

Algorithms
Computer-Networks
Computer-Systems
Cookbook
Database
Golang
Java
LeetCode
Machine-Learning
- cmu-10601
  - Math Background
  - Notes
  - images
  - README.md
  - lecture1-overview.md
  - lecture10-multi.md
  - lecture11-reg.md
  - lecture12-nn.md
  - lecture13-backpropagation.md
  - lecture14-dl.md
  - lecture15-rnn-pac.md
  - lecture16-pac.md
  - lecture17-mle-map.md
  - lecture18-nb.md
  - lecture19-hmm.md
  - lecture2-dt.md
  - lecture20-hmm.md
  - lecture21-bayesnet.md
  - lecture22-mdp.md
  - lecture24-qlearn.md
  - lecture25-kmeans.md
  - lecture26-pca.md
  - lecture27-svm-ink.md
  - lecture28-ensemble-mf-ink.md
  - lecture3-dt.md
  - lecture5-knn-ms.md
  - lecture6-perc.md
  - lecture7-linreg.md
  - lecture8-opt.md
  - lecture9-logreg.md
- cmu-18661
- README.md
Programming
Reading
README.md

lecture13-backpropagation.md

[cmu-10601] Supplement for Lecture 13 Neural Network + Backpropagation

Apr 1, 2020

5b9c2d4 · Apr 1, 2020

Lecture 13 Neural Network + Backpropagation

Activation Functions

Sigmoid / Logistic Function
- $\frac{1}{1 + \exp (- α))}$
Tanh
- Like logistic function but shifted to range $[- 1, + 1]$
reLU often used in vision tasks
- rectified linear unit
- Linear with cutoff at zero
- $m a x (0, w x + b)$
- Soft version: $\log (\exp (x) + 1)$

Objective Function

Quadratic Loss
- the same objective as Linear Regression
- i.e. MSE
Cross Entropy
- the same objective as Logistic Regression
- i.e. negative log likelihood
- this requires probabilities, so we add an additional "softmax" layer at the end of our network
- steeper

	Forward	Backward
Quadratic	$J = 1 / 2 (y - y^{*})^{2}$	$\frac{d J}{d y} = y - y^{*}$
Cross Entropy	$J = y^\log{(y)} + (1-y^)\log{(1-y)}$	$\frac{dJ}{dy} = \frac{y^}{y} + \frac{(1-y^)}{y-1}$

Multi-class Output

Softmax: $y_{k} = \frac{\exp (b_{k})}{\sum_{l = 1}^{K} \exp (b_{l})}$
Loss: $J = \sum_{k = 1}^{K} y_{k}^{*} \log (y_{k})$

Chain Rule

Def #1 Chain Rule
- $y = f (u)$
- $u = g (x)$
- $\frac{d y}{d x} = \frac{d y}{d u} \cdot \frac{d u}{d x}$
Def #2 Chain Rule
- $y = f (u_{1}, u_{2})$
- $u_{2} = g_{2} (x)$
- $u_{1} = g_{1} (x)$
- $\frac{d y}{d x} = \frac{d y}{d u_{1}} \cdot \frac{d u_{1}}{d x} + \frac{d y}{d u_{2}} \cdot \frac{d u_{2}}{d x}$
Def #3 Chain Rule
- $y = f (u)$
- $u = g (x)$
- $\frac{d y}{d x} = \sum_{j = 1}^{J} \frac{d y_{i}}{d u_{j}} \cdot \frac{d u_{j}}{d x_{k}}, \forall i, k$
- Backpropagation is just repeated application of the chain rule
Computation Graphs
- not a Neural Network diagram

Backpropagation

Backprop Ex #1
- $y = f (x, z) = \exp (x z) + \frac{x z}{\log (x)} + \frac{\sin (\log (x))}{x z}$
- Forward Computation
  - Given $x = 2, z = 3$
  - $a = x z, b = l o g (x), c = s i n (b), d = e x p (a), e = a / b, f = c / a$
  - $y = d + e + f$
- Backgward Computation
  - $g y = d y / d y = 1$
  - $g f = d y / d f = 1, d e = d y / d c = 1, g d = d y / g d = 1$
  - $g c = d y / d c = d y / d f \cdot d f / d c = g f (1 / a)$
  - $g b = d y / d b = d y / d e \cdot d e / d b + d y / d c \cdot d c / d b = (g e) (- a / b^{2}) + (g c) (c o s (b))$
  - $g a = d y / d a = d y / d c \cdot d e / d a + d y / d d \cdot d d / d a + d y / d f \cdot d f / d a = (g e) (1 / b) + (g d) (e x p (a)) + (g f) (- c / a^{2})$
  - $g x = (g a) (z) + (g b) (1 / x)$
  - $g_{z} = (g a) (x)$
- Updates for Backprop
  - $g x = \frac{d y}{d x} = \sum_{k = 1}^{K} \frac{d y}{d u_{k}} \cdot \frac{d u_{k}}{x} = \sum_{k = 1}^{K} (g u_{k}) (\frac{d u_{k}}{d x})$
  - Reuse forward computation in backward computation
  - Reuse backward computation within itself

Neural Network Training

Consider a 2-hidden layer neural nets
parameters are $θ = [α^{(1)}, α^{(2)}, β]$
SGD training
- Iterate until convergence:
  - Sample $i \in 1, \dots, N$
  - Compute gradient by backprop
    - $g α^{(1)} = \nabla α^{(1)} J^{(i)} (θ)$
    - $g α^{(2)} = \nabla α^{(2)} J^{(i)} (θ)$
    - $g β = \nabla β J^{(i)} (θ)$
    - $J^{(i)} (θ) = ℓ (h_{θ} (x^{(i)}), y^{(i)})$
  - Step opposite the gradient
    - $α^{(1)} \leftarrow α^{(1)} - γ g α^{(1)}$
    - $α^{(2)} \leftarrow α^{(2)} - γ g α^{(2)}$
    - $β \leftarrow β - γ g β$
Backprop Ex #2: for neural network
- Given: decision function $\hat{y} = h θ (x) = σ ((α^{(3)})^{T}) \cdot σ ((α^{(2)})^{T} \cdot σ ((α^{(1)})^{T} \cdot x))$
- loss function $J = \ell(\hat{y},y^) = y^\log(\hat{y}) + (1-y^*)\log(1-\hat{y})$
- Forward
  - Given $x, α^{(1)}, α^{(2)}, α^{(3)}, y^{*}$
  - $z^{(0)} = x$
  - for $i = 1, 2, 3$
  - $u^{(i)} = (α^{(1)})^{T} \cdot z^{(i - 1)}$
  - $z^{(i)} = σ (u^{(i)})$
- $\hat{y} = z^{(3)}$
- $J = ℓ (\hat{y}, y^{*})$