18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DNN(深度神經(jīng)網(wǎng)絡(luò))在訓(xùn)練過程中遇到的一些問題

新機器視覺 ? 來源:新機器視覺 ? 2023-02-06 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學(xué)習已經(jīng)成為解決許多具有挑戰(zhàn)性的現(xiàn)實世界問題的方法。對目標檢測,語音識別和語言翻譯來說,這是迄今為止表現(xiàn)最好的方法。許多人將深度神經(jīng)網(wǎng)絡(luò)(DNNs)視為神奇的黑盒子,我們放進去一堆數(shù)據(jù),出來的就是我們的解決方案!事實上,事情沒那么簡單。

在設(shè)計和應(yīng)用DNN到一個特定的問題上可能會遇到很多挑戰(zhàn)。為了達到現(xiàn)實世界應(yīng)用所需的性能標準,對數(shù)據(jù)準備,網(wǎng)絡(luò)設(shè)計,訓(xùn)練和推斷等各個階段的正確設(shè)計和執(zhí)行至關(guān)重要。

今天給大家講講DNN(深度神經(jīng)網(wǎng)絡(luò))在訓(xùn)練過程中遇到的一些問題,然后我們應(yīng)該怎么去注意它,并學(xué)會怎么去訓(xùn)練它。

1、數(shù)據(jù)集的準備:

必須要保證大量、高質(zhì)量且?guī)в袦蚀_標簽的數(shù)據(jù),沒有該條件的數(shù)據(jù),訓(xùn)練學(xué)習很困難的(但是最近我看了以為作者寫的一篇文章,說明不一定需要大量數(shù)據(jù)集,也可以訓(xùn)練的很好,有空和大家來分享其思想---很厲害的想法);

2、數(shù)據(jù)預(yù)處理:

這個不多說,就是0均值和1方差化,其實還有很多方法;

3、Minibatch:

這個有時候還要根據(jù)你的硬件設(shè)備而定,一般建議用128,8這組,但是128,1也很好,只是效率會非常慢,注意的是:千萬不要用過大的數(shù)值,否則很容易過擬合;

4、梯度歸一化:

其實就是計算出來梯度之后,要除以Minibatch的數(shù)量,這個可以通過閱讀源碼得知(我之前有寫過SGD);

5、學(xué)習率:

① 一般都會有默認的學(xué)習率,但是剛開始還是用一般的去學(xué)習,然后逐漸的減小它;

② 一個建議值是0.1,適用于很多NN的問題,一般傾向于小一點;但是如果對于的大數(shù)據(jù),何凱明老師也說過,要把學(xué)習率調(diào)到很小,他說0.00001都不為過(如果記得不錯,應(yīng)該是這么說的);

③ 一個對于調(diào)度學(xué)習率的建議:如果在驗證集上性能不再增加就讓學(xué)習率除以2或者5,然后繼續(xù),學(xué)習率會一直變得很小,到最后就可以停止訓(xùn)練了;

④ 很多人用的一個設(shè)計學(xué)習率的原則就是監(jiān)測一個比率(每次更新梯度的norm除以當前weight的norm),如果這個比率在10e-3附近,且小于這個值,學(xué)習會很慢,如果大于這個值,那么學(xué)習很不穩(wěn)定,由此會帶來學(xué)習失敗。

6、驗證集的使用:

使用驗證集,可以知道什么時候開始降低學(xué)習率和什么時候停止訓(xùn)練;

7、weight初始化:

① 如果你不想繁瑣的話,直接用0.02*randn(num_params)來初始化,當然別的值也可以去嘗試;

② 如果上面那個建議不太好使,那么就依次初始化每一個weight矩陣用init_scale / sqrt(layer_width) * randn,init_scale可以被設(shè)置為0.1或者1;

③ 初始化參數(shù)對結(jié)果的影響至關(guān)重要,要引起重視;

④ 在深度網(wǎng)絡(luò)中,隨機初始化權(quán)重,使用SGD的話一般處理的都不好,這是因為初始化的權(quán)重太小了。這種情況下對于淺層網(wǎng)絡(luò)有效,但是當足夠深的時候就不行,因為weight更新的時候,是靠很多weight相乘的,越乘越小,類似梯度消失的意思。

8、RNN&&LSTM(這方面沒有深入了解,借用別人的意思):

如果訓(xùn)練RNN或者LSTM,務(wù)必保證gradient的norm被約束在15或者5(前提還是要先歸一化gradient),這一點在RNN和LSTM中很重要;

9、梯度檢查:

檢查下梯度,如果是你自己計算的梯度;如果使用LSTM來解決長時依賴的問題,記得初始化bias的時候要大一點;

10、數(shù)據(jù)增廣:

盡可能想辦法多的擴增訓(xùn)練數(shù)據(jù),如果使用的是圖像數(shù)據(jù),不妨對圖像做一點扭轉(zhuǎn),剪切,分割等操作來擴充數(shù)據(jù)訓(xùn)練集合;

11、dropout:(先空著,下次我要單獨詳細講解Dropout)

12、評價結(jié)果:

評價最終結(jié)果的時候,多做幾次,然后平均一下他們的結(jié)果。

補充:

1、選擇優(yōu)化算法

傳統(tǒng)的隨機梯度下降算法雖然適用很廣,但并不高效,最近出現(xiàn)很多更靈活的優(yōu)化算法,例如Adagrad、RMSProp等,可在迭代優(yōu)化的過程中自適應(yīng)的調(diào)節(jié)學(xué)習速率等超參數(shù),效果更佳;

2、參數(shù)設(shè)置技巧

無論是多核CPU還是GPU加速,內(nèi)存管理仍然以字節(jié)為基本單元做硬件優(yōu)化,因此將參數(shù)設(shè)定為2的指數(shù)倍,如64,128,512,1024等,將有效提高矩陣分片、張量計算等操作的硬件處理效率;

3、正則優(yōu)化

除了在神經(jīng)網(wǎng)絡(luò)單元上添加傳統(tǒng)的L1/L2正則項外,Dropout更經(jīng)常在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用來避免模型的過擬合。初始默認的0.5的丟棄率是保守的選擇,如果模型不是很復(fù)雜,設(shè)置為0.2就可以;

4、其他方法

除了上述訓(xùn)練調(diào)優(yōu)的方法外,還有其他一些常用方法,包括:使用mini-batch learning方法、遷移訓(xùn)練學(xué)習、打亂訓(xùn)練集順序、對比訓(xùn)練誤差和測試誤差調(diào)節(jié)迭代次數(shù)、日志可視化觀察等等。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1795

    瀏覽量

    115229
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25960
  • 深度學(xué)習
    +關(guān)注

    關(guān)注

    73

    文章

    5587

    瀏覽量

    123747

原文標題:基礎(chǔ)入門:“煉丹師”——深度學(xué)習訓(xùn)練技巧

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享Ubuntu20.04系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorF
    發(fā)表于 10-22 07:03

    如何優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習率

    優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的學(xué)習率是提高模型訓(xùn)練效率和性能的關(guān)鍵步驟。以下是一些優(yōu)化BP神經(jīng)網(wǎng)絡(luò)學(xué)習率的方法: 、理解學(xué)習率的重要性 學(xué)習率決定了模
    的頭像 發(fā)表于 02-12 15:51 ?1317次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的實現(xiàn)步驟詳解

    的層數(shù)、每層神經(jīng)元的數(shù)量以及激活函數(shù)。 初始化權(quán)重和偏置 : 隨機初始化輸入層與隱藏層、隱藏層與隱藏層、隱藏層與輸出層之間的連接權(quán)重,以及各層的偏置項。這些權(quán)重和偏置訓(xùn)練過程中會逐漸調(diào)整。 設(shè)置學(xué)習率 : 學(xué)習率決定了
    的頭像 發(fā)表于 02-12 15:50 ?976次閱讀

    BP神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點分析

    BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)作為種常用的機器學(xué)習模型,具有顯著的優(yōu)點,同時也存在一些不容忽視的缺點。以下是對BP神經(jīng)網(wǎng)絡(luò)優(yōu)缺點的分析
    的頭像 發(fā)表于 02-12 15:36 ?1315次閱讀

    BP神經(jīng)網(wǎng)絡(luò)深度學(xué)習的關(guān)系

    ),是種多層前饋神經(jīng)網(wǎng)絡(luò),它通過反向傳播算法進行訓(xùn)練。BP神經(jīng)網(wǎng)絡(luò)由輸入層、個或多個隱藏層和輸出層組成,通過逐層遞減的方式調(diào)整
    的頭像 發(fā)表于 02-12 15:15 ?1211次閱讀

    BP神經(jīng)網(wǎng)絡(luò)圖像識別的應(yīng)用

    傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network),是種多層前饋神經(jīng)網(wǎng)絡(luò),主要通過反向傳播算法進行學(xué)習。它通常包括輸入層、個或多個隱藏層和輸出層。BP
    的頭像 發(fā)表于 02-12 15:12 ?1009次閱讀

    如何訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型

    BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)種經(jīng)典的人工神經(jīng)網(wǎng)絡(luò)模型,其訓(xùn)練過程主要分為兩個階段:前向傳播和反向傳播。以下是訓(xùn)練BP
    的頭像 發(fā)表于 02-12 15:10 ?1252次閱讀

    深度學(xué)習入門:簡單神經(jīng)網(wǎng)絡(luò)的構(gòu)建與實現(xiàn)

    深度學(xué)習神經(jīng)網(wǎng)絡(luò)是核心模型。今天我們用 Python 和 NumPy 構(gòu)建個簡單的神經(jīng)網(wǎng)絡(luò)神經(jīng)
    的頭像 發(fā)表于 01-23 13:52 ?721次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的比較

    深度學(xué)習領(lǐng)域,神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于各種任務(wù),如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)是兩種常
    的頭像 發(fā)表于 11-15 14:53 ?2283次閱讀

    深度學(xué)習的卷積神經(jīng)網(wǎng)絡(luò)模型

    深度學(xué)習近年來多個領(lǐng)域取得了顯著的進展,尤其是圖像識別、語音識別和自然語言處理等方面。卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習的
    的頭像 發(fā)表于 11-15 14:52 ?1101次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的常見調(diào)參技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)是種用于處理序列數(shù)據(jù)的深度學(xué)習模型,它能夠捕捉時間序列的動態(tài)特征。然而,RNN的
    的頭像 發(fā)表于 11-15 10:13 ?1032次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)化技巧

    循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,簡稱RNN)是種用于處理序列數(shù)據(jù)的深度學(xué)習模型,它能夠捕捉時間序列的動態(tài)特征。然而,RNN
    的頭像 發(fā)表于 11-15 09:51 ?1032次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)準備方法

    LSTM(Long Short-Term Memory,長短期記憶)神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)準備方法是個關(guān)鍵步驟,它直接影響到模型的性能和效果。以下是一些關(guān)于LSTM
    的頭像 發(fā)表于 11-13 10:08 ?2672次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)語音識別的應(yīng)用實例

    神經(jīng)網(wǎng)絡(luò)簡介 LSTM是種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它能夠?qū)W習長期依賴關(guān)系。傳統(tǒng)的RNN,信息會隨著時間的流逝而逐漸消失,導(dǎo)致
    的頭像 發(fā)表于 11-13 10:03 ?2280次閱讀

    LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 如何實現(xiàn)LSTM神經(jīng)網(wǎng)絡(luò)

    廣泛應(yīng)用。 LSTM神經(jīng)網(wǎng)絡(luò)的基本原理 1. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的局限性 傳統(tǒng)的RNN處理長序列數(shù)據(jù)時會遇到梯度消失或梯度爆炸的問題,導(dǎo)致網(wǎng)絡(luò)
    的頭像 發(fā)表于 11-13 09:53 ?2310次閱讀