網(wǎng)絡(luò)優(yōu)化的算法你知道嗎？

2021-02-10 14:10:07

次

隨機(jī)性梯度下降算法

SGD算法則是利用隨機(jī)梯度下降算法對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。在損失函數(shù)上對當(dāng)前點(diǎn)的對應(yīng)梯度(或近似梯度)反方向的指定步長距離點(diǎn)上進(jìn)行迭代搜索。大規(guī)模梯度下降法在對每個參數(shù)進(jìn)行更新時都需要所有的訓(xùn)練樣本，因此，隨著樣本數(shù)目的增加，訓(xùn)練過程變得非常緩慢。通過每次迭代更新一次隨機(jī)梯度下降，從而提高了優(yōu)化的效率。

網(wǎng)路優(yōu)化算法

通用損耗函數(shù)

·平均誤差值。

平均誤差是指實(shí)際值與預(yù)測值之差平方的期望值，它通常用在回歸問題中，即交叉熵?fù)p失函數(shù)。

交熵是指實(shí)際的類標(biāo)記分布和模型預(yù)測的類標(biāo)記分布之間的距離，在分類問題中經(jīng)常使用。

網(wǎng)路優(yōu)化算法

優(yōu)選過程-輸出層。

網(wǎng)路優(yōu)化算法

中間層是一個優(yōu)化過程。

反傳算法(backpropagation)和梯度下降算法(gradientdecent)對神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。該算法主要是用來對單個參數(shù)進(jìn)行優(yōu)化，而反向傳播算法則提供了一種對所有參數(shù)都有效的梯度下降算法，使得神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練數(shù)據(jù)上的損失函數(shù)盡可能小。反傳算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的核心算法，它能根據(jù)神經(jīng)網(wǎng)絡(luò)中定義好的損失函數(shù)對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化，從而使神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練數(shù)據(jù)集上的損失函數(shù)達(dá)到小。神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)化過程直接決定模型的質(zhì)量，因此神經(jīng)網(wǎng)絡(luò)的優(yōu)化是一個非常重要的步驟。

假定神經(jīng)網(wǎng)絡(luò)的參數(shù)用θ來表示，J(θ)表示在給定的參數(shù)值下訓(xùn)練數(shù)據(jù)集上損失函數(shù)的大小，則可以將整個優(yōu)化過程抽象為尋找一個θ，使J(θ)達(dá)到最。由于目前還沒有一種通用的方法直接求出任意損失函數(shù)的好的參數(shù)，因此實(shí)際應(yīng)用中常用的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法是梯度下降法。該算法通過迭代更新參數(shù)θ，不斷地沿梯度的反方向更新，使參數(shù)朝著總損失較小的方向變化。