自知識蒸餾方法在2014年被首次提出以來,其開始廣泛被應(yīng)用于模型壓縮領(lǐng)域。在更強大教師模型輔助監(jiān)督信息的幫助下,學生模型往往能夠?qū)崿F(xiàn)比直接訓練更高的精度。然而,現(xiàn)有的知識蒸餾相關(guān)研究只考慮了同架構(gòu)模型的蒸餾方法,而忽略了教師模型與學生模型異構(gòu)的情形。例如,最先進的MLP模型在ImageNet上僅能達到83%的精度,無法獲取精度更高的同架構(gòu)教師模型以使用知識蒸餾方法進一步提高MLP模型的精度。因此,對異構(gòu)模型知識蒸餾的研究具有實際應(yīng)用意義。
本文的研究者們分析了針對異構(gòu)模型(CNN,ViT,MLP)特征的差異性,指出特征中模型架構(gòu)相關(guān)的信息會阻礙知識蒸餾的過程?;诖擞^察,研究者們提出了名為OFAKD異構(gòu)模型知識蒸餾方法:該方法將特征映射到架構(gòu)無關(guān)的統(tǒng)一空間進行異構(gòu)模型蒸餾,并使用一種能夠自適應(yīng)增強目標類別信息的損失函數(shù)。在CIFAR-100和ImageNet數(shù)據(jù)集上,該方法實現(xiàn)了對現(xiàn)有同架構(gòu)知識蒸餾方法的超越。
異構(gòu)模型間的特征差異
圖1 異構(gòu)模型學習到的特征對比
相比于僅使用logits的蒸餾方法,同步使用模型中間層特征進行蒸餾的方法通常能取得更好的性能。然而在異構(gòu)模型的情況下,由于不同架構(gòu)模型對特征的不同學習偏好,它們的中間層特征往往具有較大的差異,直接將針對同架構(gòu)模型涉及的蒸餾方法遷移到異構(gòu)模型會導致性能下降。
通用的異構(gòu)模型蒸餾方法
圖2 異構(gòu)模型的知識蒸餾方法
為了在異構(gòu)模型蒸餾過程中利用中間層特征,需要排除特征中模型架構(gòu)相關(guān)信息的干擾,僅保留任務(wù)相關(guān)信息?;诖?,研究者們提出通過將學生模型的中間層特征映射到logits空間,實現(xiàn)對模型架構(gòu)相關(guān)信息的過濾。此外通過在原始基于KL散度的蒸餾損失函數(shù)中引入一項額外的調(diào)節(jié)系數(shù),修正后的損失函數(shù)能夠?qū)崿F(xiàn)對目標類別信息的自適應(yīng)增強,進一步減緩異構(gòu)模型蒸餾時無關(guān)信息的干擾。
圖3 原始蒸餾損失與改進后蒸餾損失的對比
實驗結(jié)果
圖4 在ImageNet上的異構(gòu)模型蒸餾結(jié)果
上表展示了在ImageNet上的異構(gòu)蒸餾結(jié)果。在所有架構(gòu)的六種可能異構(gòu)組合中,本文OFAKD方法都得到了超越現(xiàn)有方法結(jié)果。
圖5 不同值對結(jié)果的影響
上表在ImageNet上比較了不同的值設(shè)置對結(jié)果的影響??梢钥闯?,通過選取合適的值設(shè)置,改進后的蒸餾損失函數(shù)能得到超越原始蒸餾損失函數(shù)的結(jié)果。
圖6 在ImageNet上的同構(gòu)模型蒸餾結(jié)果
本文在ImageNet上與傳統(tǒng)同構(gòu)模型蒸餾方法進行了對比。在常見的ResNet34和ResNet18同構(gòu)教師學生模型組合上,OFAKD也具有與現(xiàn)有SOTA方法相當?shù)谋憩F(xiàn)。
圖7 MLP學生模型的蒸餾結(jié)果
最后,本文比較了文首提到的MLP作為學生模型時的蒸餾結(jié)果。通過選用ViT架構(gòu)的BEiT v2-base作為教師模型,僅中等尺寸的CycleMLP-B3就刷新了MLP模型在ImageNet上的最佳結(jié)果。
結(jié)論
本文研究了異構(gòu)模型之間的知識蒸餾方法,通過將學生模型中間層特征映射到logits空間來擬合教師模型最終輸出,并使用在原始知識蒸餾損失函數(shù)基礎(chǔ)上改進而來的自適應(yīng)目標信息增強損失,提出的OFAKD方法在多種數(shù)據(jù)集和教師學生模型組合上實現(xiàn)了對現(xiàn)有方法的超越,擴展了知識蒸餾的應(yīng)用范圍。
-
模型
+關(guān)注
關(guān)注
1文章
3616瀏覽量
51499 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
532瀏覽量
26426
原文標題:NeurIPS 2023 | 任意模型都能蒸餾!華為諾亞提出異構(gòu)模型的知識蒸餾方法
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
異構(gòu)模型的配電網(wǎng)信息交互

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路
針對遙感圖像場景分類的多粒度特征蒸餾方法

基于知識蒸餾的惡意代碼家族檢測方法研究綜述

若干蒸餾方法之間的細節(jié)以及差異
關(guān)于快速知識蒸餾的視覺框架
用于NAT的選擇性知識蒸餾框架
南開/南理工/曠視提出CTKD:動態(tài)溫度超參蒸餾新方法
如何度量知識蒸餾中不同數(shù)據(jù)增強方法的好壞?
蒸餾也能Step-by-Step:新方法讓小模型也能媲美2000倍體量大模型

如何將ChatGPT的能力蒸餾到另一個大模型

TPAMI 2023 | 用于視覺識別的相互對比學習在線知識蒸餾

評論