A.如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
B.在高度非凸的深度网络优化过程,主要难点是鞍点
C.用无监督数据作分层预训练(Layer-wisePre-train)有助于解决梯度饱和问题
D.Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
采摘收获 (2)除草、灭虫,田间管理 (3)结合土壤性质、选择适宜良种 (4)增温保墒,待地温回升后进行播种 (5)翻耕整地
A.5—3—4—2—1
B.3—5—1—2—4
C.1—3—4—2—5
D.2—5—4—1—3
A.梯度方向是函数值下降最快方向
B.梯度下降算法是一种使得损失函数最小化的方法
C.梯度下降算法用来优化深度学习模型的参数
D.梯度反方向是函数值下降最快方向