层和块 层和块本质没有区别,都可以看作是一个黑盒子,有输入和输出,都可以当作单独的模块进行组合,组合之后的产物又是一个新的块。就像一本书一样,
学习时间 5月27日 到 6月2日 学习目标 学习第四章多层感知机内容 MLP 模型选择、过拟合 权重衰减 dropout 初始化 实战kaggle房价预测 论文精读-AlexNe
Alexnet经典之作,卷积神经网络效果突飞,端到端的先驱
暂退法(dropout)是缓解模型过拟合的一种方法 dropout方法 在标准暂退法正则化中,通过按保留(未丢弃)的节点的分数进行规范化来消除每
在训练参数化机器学习模型时, 权重衰减(weight decay)是最广泛使用的正则化的技术之一, 它通常也被称为$L_2$正则化。 正则化 正则化(
参数的初始化对模型的性能也有影响,对于不同的任务可能适合不同的初始化方法 梯度消失和梯度爆炸 梯度消失 正如上图,当sigmoid函数的输入很大或
训练误差和泛化误差 深度学习模型到底是在学习什么,这是一个很重要的问题。简单来说,它是从喂给它的数据当中学习到当中模式pattern,利用这个
数据导入 import torch from torch import nn from d2l import torch as d2l batch_size = 256 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size) # 每次随机取batch_size个样本 模型 net = nn.Sequential(nn.Flatten(), nn.Linear(784, 256), nn.ReLU(), nn.Linear(256, 10)) def init_weights(m): if type(m) == nn.Linear: nn.init.normal_(m.weight, std=0.01) net.apply(init_weights); apply类似于p
数据导入 import torch from torch import nn from d2l import torch as d2l batch_size = 256 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size) # 每次随机取batch_size个样本 初始化模型参数 num_inputs, num_outputs, num_hiddens = 784, 10, 256 W1 = nn.Parameter(torch.randn( num_inputs, num_hiddens, requires_grad=True) * 0.01) b1 = nn.Parameter(torch.zeros(num_hiddens, requires_grad=True)) W2 =
多层感知机 多层感知机故名思义,在之前的线性模型(linear、softmax)基础上,增加了网络的层数。这也是深度学习的基础。 线性模型的局限