【導(dǎo)讀】如今 ICML(International Conference on Machine Learning,國際機器學(xué)習(xí)大會)已經(jīng)成為有巨大影響力的會議,每年都會為我們帶來很多關(guān)于機器學(xué)習(xí)趨勢與發(fā)展方向等有意義的分享。今年的 ICML 有三個討論會都重點討論了遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。
本文的作者(Isaac Godfried)也是對這兩個領(lǐng)域的研究內(nèi)容非常感興趣,接下來 AI科技大本營將把Isaac Godfried在這次大會上的一些見聞介紹給大家。
對于深度學(xué)習(xí)來說,若缺少大量帶標(biāo)簽的高質(zhì)量數(shù)據(jù),會帶來較大的困難。許多任務(wù)都全面缺乏數(shù)據(jù)點(如:預(yù)測選舉結(jié)果、診斷罕見的疾病、翻譯稀有語種等等)。還有一些情況,數(shù)據(jù)量是足夠的,但數(shù)據(jù)噪聲很大,或標(biāo)簽的質(zhì)量很低(如:通過關(guān)鍵詞搜索從 Google 抓取的圖片、通過 NLP 技術(shù)制定標(biāo)簽的醫(yī)療案例、只有部分注釋的文本語料庫)。但不管怎樣,找到合適的方法去學(xué)習(xí)這些低質(zhì)量或有噪聲的數(shù)據(jù)都具有切實的意義。
可行的三種方法有遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)(從技術(shù)角度來講,這個方法是一種類似領(lǐng)域自適應(yīng)的遷移學(xué)習(xí),但在本文中我會將它們看作不同的方法來討論)以及半監(jiān)督學(xué)習(xí)。還有一些其他的解決方法(主動學(xué)習(xí)、元學(xué)習(xí)、無監(jiān)督學(xué)習(xí)),但本文會以 ICML 參會文章提到的三種方法為重點。由于這些方法處于領(lǐng)域間的邊界,我們會也會涉及一些其它的方法,在這里先做一個簡單的概述。
遷移學(xué)習(xí)
微調(diào):假設(shè)我們同時有源分布和目標(biāo)分布 S(y|x) 和 T(y2|x2),此處 x ≠ x2,y1 ≠ y2。若要進(jìn)行微調(diào),你必須具備目標(biāo)域的標(biāo)簽數(shù)據(jù)。通過遷移學(xué)習(xí),我們固定網(wǎng)絡(luò)的淺層和中間層,只對深層特別是新類別進(jìn)行微調(diào)。
多任務(wù)學(xué)習(xí):假設(shè)我們有任務(wù) T1、T2、T3 ... Tn;這些任務(wù)同時進(jìn)行訓(xùn)練,例如:訓(xùn)練一個同時做情緒分類和命名實體識別的多任務(wù)網(wǎng)絡(luò)。這是遷移學(xué)習(xí)的形式之一,因為從本質(zhì)上來看,訓(xùn)練過程中你是在進(jìn)行知識的遷移。
域自適應(yīng):與微調(diào)很相似,唯一不同是這里是域的改變而非標(biāo)簽集。所以若給定兩種分布 S(y|x) 和 T(y|x2) x ≠ x2,但 y 是相同的。域自適應(yīng)會著重于目標(biāo)域中無標(biāo)簽數(shù)據(jù)的無監(jiān)督學(xué)習(xí)。例如:適應(yīng)從模擬器(源域)的有標(biāo)簽汽車圖片到街道上(目標(biāo)域)的無標(biāo)簽汽車圖片的模型。
元學(xué)習(xí)(終身學(xué)習(xí)):元學(xué)習(xí)的目標(biāo)是學(xué)習(xí)可以高度適應(yīng)新任務(wù)的“通用”屬性(超參數(shù)或權(quán)重),它的學(xué)習(xí)過程基于大量不同任務(wù)的訓(xùn)練。某種程度上,元學(xué)習(xí)可以被看作一種“歷史性的”多任務(wù)學(xué)習(xí),因為它基于多種不同的任務(wù)去尋找最合適的一組屬性。由于多任務(wù)學(xué)習(xí)始終高度依賴于模型本身,所以近期元學(xué)習(xí)的趨勢更加偏向于找到一種“與模型無關(guān)”的解決方法。
無論在什么產(chǎn)業(yè)或領(lǐng)域,遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)都是非常重要的工具。無論你從事醫(yī)學(xué)、金融、旅游或是創(chuàng)作,也無論你與圖像、文本、音頻還是時間序列數(shù)據(jù)打交道,這些都是機會,你可以利用已經(jīng)訓(xùn)練好的通用模型,然后將其引入你的特定領(lǐng)域進(jìn)行微調(diào)?;谀愕臄?shù)據(jù),你可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)去同時解決多個相關(guān)任務(wù),從而提高整體性能。
在那些專注于醫(yī)學(xué)領(lǐng)域的深度學(xué)習(xí)論文中,有一篇題目為 “Not to Cry Wolf: Distantly Supervised Multitask Learning Critical Care”的論文。在重癥監(jiān)護(hù)室中,常常有錯誤警報問題,所以很多醫(yī)生和護(hù)士可能對此變得不再敏感。這篇文章重點介紹如何利用多任務(wù)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)來監(jiān)測有生命危險的事件,而避免錯誤的警報。該論文的作者將輔助任務(wù)引入到多任務(wù)學(xué)習(xí)中,無需花時間去打標(biāo)簽就可以提高模型的性能。特別要提的是,為了真正減少訓(xùn)練所需的標(biāo)簽數(shù)目,他們的模型引入了大量不相關(guān)的有監(jiān)督輔助任務(wù)。另外,他們開發(fā)了一種針對不相關(guān)的多任務(wù)有監(jiān)督學(xué)習(xí)的新方法,無論是面對多變量的時間序列,還是對有標(biāo)簽和無標(biāo)簽數(shù)據(jù)結(jié)合起來學(xué)習(xí),該方法都能自動識別大量相關(guān)的輔助任務(wù)。
論文鏈接:
https://arxiv.org/abs/1802.05027
談?wù)摃曨l(待放)
如果我們想使用多任務(wù)學(xué)習(xí),但只有一個任務(wù),該怎么辦呢?一篇名為 “Pseudo-task Augmentation: From Deep Multitask Learning to Intratask Sharing?—?and Back”的論文對這一問題給出了答案。作者提出利用偽任務(wù)來幫助提升主任務(wù)的表現(xiàn)。這一方案是可行的,因為從本質(zhì)上來看,多任務(wù)學(xué)習(xí)的工作原理基于中間層和淺層的特征共享以及特定任務(wù)的解碼器。因此,使用多種解碼器來訓(xùn)練模型可以有相同的效果,即使解碼器都在為同一個任務(wù)工作,這是因為每個解碼器是通過不同方式學(xué)習(xí)該任務(wù)的;這些附加的解碼器被稱為“偽任務(wù)”。該論文的作者在 CelebrityA 數(shù)據(jù)集上得出了當(dāng)前最好的結(jié)果。我很期待能看到他們能用 IMDB 的評價數(shù)據(jù)集測試一下該方法。他們基于一個基礎(chǔ)模型,通過自主開發(fā)的技術(shù)進(jìn)行訓(xùn)練,從而得到了巨大的提升。這體現(xiàn)了該項技術(shù)有應(yīng)用于不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的潛能。
論文鏈接:
https://arxiv.org/abs/1803.04062
而“GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks”這篇論文闡述了一種新的多任務(wù)神經(jīng)系統(tǒng)正規(guī)化技術(shù),可以幫助神經(jīng)系統(tǒng)更快地收斂,提升整體性能。該技術(shù)也減少了調(diào)參所需的超參數(shù)數(shù)目,僅需要一個。該論文團(tuán)隊使用梯度量化自動均衡算法(GradNorm)在 NYU2 數(shù)據(jù)集上得出了當(dāng)前最好的結(jié)果。總體來說,該論文真正減小了訓(xùn)練 MLT 算法模型的復(fù)雜度與難度。最后,該作者提出了一個有趣的想法,“GradNorm 或許也可以應(yīng)用于多任務(wù)學(xué)習(xí)以外的領(lǐng)域。我們希望將 GradNorm 算法拓展到類別平衡與 seq2seq 模型上,以及所有由梯度沖突而引發(fā)模型性能不佳的問題?!?/p>
論文鏈接:
https://arxiv.org/abs/1711.02257
到目前為止,大多數(shù)有關(guān)遷移學(xué)習(xí)的論文都只研究了從源域到目標(biāo)域的知識遷移,通過預(yù)先初始化權(quán)重并保留部分層或降低學(xué)習(xí)率的方法來實現(xiàn)??梢哉f論文“Transfer Learning via Learning to Transfer”完美地闡釋了什么是“元-遷移學(xué)習(xí)”(meta-transfer learning) 或者說"學(xué)習(xí)如何遷移學(xué)習(xí)" (即 L2T, learn to teach)。
論文中用以描述 L2T 工作流程的圖片
作者是這樣解釋的:
不像 L2T,所有現(xiàn)有的遷移學(xué)習(xí)算法研究的都是從零開始遷移,例如:只考慮一對興趣領(lǐng)域,而忽略了之前的遷移學(xué)習(xí)經(jīng)驗。但不如這樣,L2T 框架能夠?qū)⑺兴惴ǖ闹腔奂谝簧?,上面提到的任何一種算法都可以應(yīng)用到遷移學(xué)習(xí)經(jīng)驗之中。
論文鏈接:
http://proceedings.mlr.press/v80/wei18a/wei18a.pdf
那么現(xiàn)在問題來了,這一方法與“元學(xué)習(xí)”有何不同呢?實際上,L2T 可以被看作一種特殊的元學(xué)習(xí):和元學(xué)習(xí)相同的是,它利用過去的歷史經(jīng)驗來提升學(xué)習(xí)能力。然而,這里的歷史指的是從源域到目標(biāo)域的遷移學(xué)習(xí)。
論文中引用的不同學(xué)習(xí)方法對比圖
該論文作者基于 Caltech-256 數(shù)據(jù)集對 L2T 框架進(jìn)行了評估,模型在此前最好結(jié)果的基礎(chǔ)上有所提升。
我(本文作者)個人很高興看到 “Explicit Inductive Bias for Transfer Learning with Convolutional Networks”被選入 ICML,此前該論文被 ICLR(International Conference on Learning Representations)拒掉了。這篇論文描述了一種將正規(guī)化應(yīng)用于遷移學(xué)習(xí)從而代替修改學(xué)習(xí)率的方法。研究者提出了幾種新的正規(guī)化方法,可以基于預(yù)先訓(xùn)練好的模型的權(quán)重使用不同的懲罰項。他們得到了很好的實驗結(jié)果,目前我也正在嘗試把這一方法應(yīng)用到我自己的幾個醫(yī)學(xué)影像模型中。
論文鏈接:
https://arxiv.org/abs/1802.01483
“Curriculum Learning by Transfer Learning: Theory and Experiments with Deep Networks”是一篇以理論為主的論文,對“課程學(xué)習(xí)” (curriculum learning) 進(jìn)行了深入研究,這一說法來源于教育和心理學(xué)領(lǐng)域,其目的是在有一定發(fā)展前提的規(guī)則下,學(xué)習(xí)更多不同的概念。該論文還特別關(guān)注了遷移學(xué)習(xí)和課程學(xué)習(xí)之間的關(guān)系,以及課程學(xué)習(xí)和訓(xùn)練所用到例子的順序之間的關(guān)系。這里要注意的一點是,這種類型的遷移與之前討論的類型有所不同。在這篇論文中,遷移學(xué)習(xí)指的是研究“知識從一個分類器到另一個分類器的遷移,如從老師分類器到學(xué)生分類器”。作者得出的結(jié)論是,課程學(xué)習(xí)使學(xué)習(xí)速率加快了,特別在處理困難的任務(wù)時,最終結(jié)果的提升尤為明顯。
論文鏈接:
https://arxiv.org/pdf/1802.03796.pdf
(無監(jiān)督)域自適應(yīng)的問題之一是目標(biāo)域與源域的分布的一致性問題。無監(jiān)督域自適應(yīng)是遷移學(xué)習(xí)的類型之一。由此作者通過保證有標(biāo)簽樣本和偽標(biāo)簽樣本的一致性,開發(fā)了一種可以學(xué)習(xí)無標(biāo)簽?zāi)繕?biāo)樣本語義表達(dá)的語義遷移網(wǎng)絡(luò)。(論文“Learning Semantic Representations for Unsupervised Domain Adaptation”)他們的方法通過基于語義損失函數(shù)來減小源域和目標(biāo)域的差異的方法,使源分布和目標(biāo)的分布一致。該方法在 ImageCLEF-DA 和 Office31 數(shù)據(jù)集上都取得了當(dāng)前世界上最好的表現(xiàn)。
論文中的用圖
論文鏈接:
http://proceedings.mlr.press/v80/xie18c/xie18c.pdf
github 地址:
https://github.com/Mid-Push/Moving-Semantic-Transfer-Network
論文“Detecting and Correcting for Label Shift with Blackbox Predictors”是關(guān)于域自適應(yīng)的另一篇有趣的論文。該論文的重點在于檢測訓(xùn)練和測試中 y 分布的變化,這一方法在醫(yī)學(xué)上尤為有用,流行病或爆發(fā)疾病會對分布產(chǎn)生明顯的影響。
面對訓(xùn)練集和測試集分布之間的變化,我們希望可以檢測和量化其間的變化,在沒有測試集標(biāo)簽的情況下就可以對我們的分類器進(jìn)行修正。
該論文的主題主要是協(xié)變量的變化。作者設(shè)計了幾個有趣的標(biāo)簽轉(zhuǎn)換模擬器,然后應(yīng)用于 CIFAR-10 數(shù)據(jù)集與 MINST 了。相比于未修正模型,他們的方法大大提升了準(zhǔn)確性。
論文鏈接:
http://proceedings.mlr.press/v80/lipton18a/lipton18a.pdf
我發(fā)現(xiàn)論文“Rectify Heterogeneous Models with Semantic Mapping”有趣的點在于為了對齊分布,它引入了最優(yōu)傳輸?shù)姆椒ā?/p>
論文中描述特征空間模型的圖片
總之,該論文提出了最初的想法,并在模擬數(shù)據(jù)集和真實數(shù)據(jù)集上都取得了較好的結(jié)果,數(shù)據(jù)集包括 Amazon 用戶點擊數(shù)據(jù)集和學(xué)術(shù)論文分類數(shù)據(jù)集。
-
算法
+關(guān)注
關(guān)注
23文章
4743瀏覽量
96828 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8530瀏覽量
135960 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5822
原文標(biāo)題:ICML2018見聞 | 遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)領(lǐng)域的進(jìn)展
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測中的應(yīng)用
keil下的FreeRtos多任務(wù)程序學(xué)習(xí)
遷移學(xué)習(xí)
一種由數(shù)據(jù)驅(qū)動的多任務(wù)學(xué)習(xí)煉鋼終點預(yù)測方法

NLP多任務(wù)學(xué)習(xí)案例分享:一種層次增長的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
AI實現(xiàn)多任務(wù)學(xué)習(xí),究竟能做什么
機器學(xué)習(xí)方法遷移學(xué)習(xí)的發(fā)展和研究資料說明

機器學(xué)習(xí)中的Multi-Task多任務(wù)學(xué)習(xí)
關(guān)于多任務(wù)學(xué)習(xí)如何提升模型性能與原則
遷移學(xué)習(xí)Finetune的四種類型招式
一個大規(guī)模多任務(wù)學(xué)習(xí)框架μ2Net
一文詳解遷移學(xué)習(xí)

NeurIPS 2023 | 擴散模型解決多任務(wù)強化學(xué)習(xí)問題

評論