5 Task05:观看 2021版视频 视频 P5-9:网络设计的技巧(2天)开源文档:https://datawhalechina.github.io/leeml-notes ;视频地址:https://www.bilibili.com/video/BV11K4y1S7AD?p=5

Task 05 网络设计的技巧

1. When gradient is small …

1.1 优化(Optimization)损失函数失败的原因

梯度下降 优化(Optimization) 失败的原因(梯度值接近于0,是一个临界点) (gradient is close to zero, critical point)

  • 局部最小值 (local minima)
  • 鞍点 (saddle point)

截屏2021-07-19 09.17.53.png

经常看似局部最小值的点(More “like” local minima),在高维空间其实并不是一个局部最小值点(never reach a real “local minima”)。

1.2 优化(Optimization)失败的时候,如何把梯度下降做的更好?(Tips for training: Batch and Momentum)

1.2.1 Batch

Shuffle:每个epoch之前进行重新分batch,每个epoch的batch内容都是不一样的。

截屏2021-07-19 10.42.10.png

1.2.2 Momentum

截屏2021-07-19 10.54.11.png

Concluding Remarks

  • Critical points have zero gradients.
  • Critical points can be either saddle points or local minima.

    • Can be determined by the Hessian matrix.
    • It is possible to escape saddle points along the direction of eigenvectors of the Hessian matrix.
    • Local minima may be rare.
  • Smaller batch size and momentum help escape critical points.

1.2.3 给每一个参数不同的学习率lr(Aptive Learning Rate)

零界点(critical point)不一定是你在训练network时遇到的最大的困难。

很多时候我们都没有确认loss不变的时候,梯度值是不是就是0。有时候loss不变的时候,梯度值可能并不是0,也不是local minima,也不是saddle points。

截屏2021-07-19 19.08.52.png

截屏2021-07-19 19.14.28.png

最常用的Optimization策略,Adam

Learning Rate Scheduling

截屏2021-07-19 19.08.57.png

1.3 Summary of Optimization

2. 分类

详细版教程:

2.1 分类与回归的关系和区别 (Classification vs Regression)

截屏2021-07-19 20.00.46.png

2.2 Softmax

截屏2021-07-19 20.00.49.png

3. Batch Normalization

Make different features have the same scaling

3.1 Feature Normalization

截屏2021-07-19 20.50.33.png

3.2 Batch Normalization

截屏2021-07-19 20.50.36.png

  • Batch 不可以太小!!!!!

截屏2021-07-19 20.50.39.png

  • 一般不使用Sigmoid,因为很难训练,一般使用ReLU。

Reference: