首页 » DW-DL » 正文

Task 05 网络设计的技巧

2021-07-18
DW-DL
暂无评论
1080 次阅读

5 Task05：观看 2021版视频视频 P5-9：网络设计的技巧（2天）开源文档：https://datawhalechina.github.io/leeml-notes ；视频地址：https://www.bilibili.com/video/BV11K4y1S7AD?p=5

Task 05 网络设计的技巧

1. When gradient is small …

1.1 优化(Optimization)损失函数失败的原因

梯度下降 优化(Optimization) 失败的原因(梯度值接近于0，是一个临界点) (gradient is close to zero, critical point)

局部最小值 (local minima)
鞍点 (saddle point)

截屏2021-07-19 09.17.53.png

经常看似局部最小值的点(More “like” local minima)，在高维空间其实并不是一个局部最小值点(never reach a real “local minima”)。

1.2 优化(Optimization)失败的时候，如何把梯度下降做的更好？（Tips for training: Batch and Momentum）

1.2.1 Batch

Shuffle：每个epoch之前进行重新分batch，每个epoch的batch内容都是不一样的。

截屏2021-07-19 10.42.10.png

1.2.2 Momentum

截屏2021-07-19 10.54.11.png

Concluding Remarks

Critical points have zero gradients.
Critical points can be either saddle points or local minima.
- Can be determined by the Hessian matrix.
- It is possible to escape saddle points along the direction of eigenvectors of the Hessian matrix.
- Local minima may be rare.
Smaller batch size and momentum help escape critical points.

1.2.3 给每一个参数不同的学习率lr(Aptive Learning Rate)

零界点(critical point)不一定是你在训练network时遇到的最大的困难。

很多时候我们都没有确认loss不变的时候，梯度值是不是就是0。有时候loss不变的时候，梯度值可能并不是0，也不是local minima，也不是saddle points。

截屏2021-07-19 19.08.52.png

截屏2021-07-19 19.14.28.png

最常用的Optimization策略，Adam

Learning Rate Scheduling

截屏2021-07-19 19.08.57.png

1.3 Summary of Optimization

2. 分类

详细版教程：

2.1 分类与回归的关系和区别 (Classification vs Regression)

截屏2021-07-19 20.00.46.png

2.2 Softmax

截屏2021-07-19 20.00.49.png

3. Batch Normalization

Make different features have the same scaling

3.1 Feature Normalization

截屏2021-07-19 20.50.33.png

3.2 Batch Normalization

截屏2021-07-19 20.50.36.png

Batch 不可以太小!!!!!

截屏2021-07-19 20.50.39.png

一般不使用Sigmoid，因为很难训练，一般使用ReLU。

Reference：

标签: none

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

评论已关闭

上一篇: 一些概念 Some concepts
下一篇: Task 06 卷积神经网络