三个训练神经网络的建议

(1)一般情况下，在训练集上的目标函数的平均值(cost)会随着训练的深入而不断减小，如果这个指标有增大情况，停下来。
有两种情况:

采用的模型不够复杂，以致于不能在训练集上完全拟合;
已经训练很好了。

(2)分出一些验证集Validation Set，训练本质目标是在验证集上获取最大识别率。因此训练一段时间后，必须在验证集上测试识别率，保存使验证集上识别率最大的模型参数作为最后的结果。

(3)注意调整学习率Learning Rate，如果刚训练几步损失函数就增加，一般来说是学习率太高；反之如果每次cost变化很小，说明学习率太低。

一点人生的经验：

（1）目标函数可以加入正则项

Minimize E(ω，b)=L(ω，b)+λ/2 ||ω||²

L(ω，b)为原来的目标函数，λ/2 ||ω||²为正则项。λ为权值衰减系数

参考前向传播nn_forward.m

if strcmp(nn.objective_function,'MSE')
            nn.cost(s) = 0.5 / m * sum(sum((nn.a{k} - batch_y).^2)) + 0.5 * nn.weight_decay * cost2;
        elseif strcmp(nn.objective_function,'Cross Entropy')
            nn.cost(s) = -0.5*sum(sum(batch_y.*log(nn.a{k})))/m + 0.5 * nn.weight_decay * cost2;

后向传播nn_backpropagation.m

nn.W_grad{nn.depth-1} = nn.theta{nn.depth}*nn.a{nn.depth-1}'/m + nn.weight_decay*nn.W{nn.depth-1};
nn.b_grad{nn.depth-1} = sum(nn.theta{nn.depth},2)/m;

（2）训练数据归一化

newX=[X-mean(X)]/ std(X)

（3）参数ω和b的初始化

一种比较简单有效的方法：

（ω，b）初始化从区间（-1/sqrt(d),1/sqrt(d)）均匀随机取值，其中d为（ω，b）所在层的神经元个数。

可以证明如果X服从均值0方差1的正态分布，且各个维度无关，而（ω，b）是区间（-1/sqrt(d),1/sqrt(d)）的均匀分布，则ω^TX+b是均值0，方差为1/3的正态分布

nn_create.m

3.10训练参数设置

一点人生的经验：

📝 算法步骤解释

🔑 总结

📊 结果逐行解释

Iter 100

Iter 200

Iter 300

Iter 400

Iter 500

🔑 总结

由李星海

4.3卷积神经网络ALEXNET

4.2卷积神经网络

4.1自编码器-引入

3.10训练参数设置

一点人生的经验：

📝 算法步骤解释

🔑 总结

📊 结果逐行解释

Iter 100

Iter 200

Iter 300

Iter 400

Iter 500

🔑 总结

由 李星海

相关文章

4.3卷积神经网络ALEXNET

4.2卷积神经网络

4.1自编码器-引入

由李星海