假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数小。以下哪些方法可以帮助找到值较小的参数值?()
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
假设你有一个非常大的训练集合,如下机器学习算法中,你觉着有哪些是能够使用map-reduce框架并能将训练集划分到多台机器上进行并行训练的()。
A.逻辑斯特回归(LR),以及随机梯度下降(SGD)
B.线性回归及批量梯度下降(BGD)
C.神经网络及批量梯度下降(BGD)
D.针对单条样本进行训练的在线学习
A.加入更多层,使神经网络的深度增加
B.有维度更高的数据
C.当这是一个图形识别的问题时
D.以上都不正确
A.如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
B.在高度非凸的深度网络优化过程,主要难点是鞍点
C.用无监督数据作分层预训练(Layer-wisePre-train)有助于解决梯度饱和问题
D.Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
A.减少了计算量
B.ResNet的梯度通过shortcut回到更早的层,缓解了网络因为深度增大导致的梯度消失
C.引入残差模块,简化了学习
D.改善了网络的特征获取能力
A.梯度方向是函数值下降最快方向
B.梯度下降算法是一种使得损失函数最小化的方法
C.梯度下降算法用来优化深度学习模型的参数
D.梯度反方向是函数值下降最快方向
A.这没关系。只要随机初始化权重,梯度下降不受权重大小的影响
B.这将导致tanh的输入也非常大,因此导致梯度也变大。因此,您必须将α设置得非常小以防止发散;这会减慢学习速度
C.这会导致tanh的输入也非常大,导致单位被“高度激活”,从而加快了学习速度,而权重必须从小数值开始
D.这将导致tanh的输入也很大,因此导致梯度接近于零,优化算法将因此变得缓慢
A.交叉熵也可以作为分类预测问题的损失函数
B.在使用梯度下降时,加上冲量项会减少训练的速度,但可能会增加陷入局部极小值的可能
C.与批量梯度下降法相比,使用小批量梯度下降法可以降低训练速度,但达到全局最优解可能需要更多的迭代次数
D.神经元的激活函数选择不影响神经网络的训练过程和最终性能
A.LSTM在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题
B.CNN相比于全连接的优势之一是模型复杂度低,缓解过拟合
C.只要参数设置合理,深度学习的效果至少应优于随机算法
D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题
A.梯度消失问题
B.过拟合问题
C.数据不平衡问题
D.梯度爆炸问题