18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

優(yōu)化用于深度學習工作負載的張量程序

DPVg_AI_era ? 來源:未知 ? 作者:胡薇 ? 2018-05-23 15:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

華盛頓大學計算機系博士生陳天奇、以及上海交通大學和復旦大學的研究團隊提出一個基于學習的框架,以優(yōu)化用于深度學習工作負載的張量程序。該研究使用基于機器學習的方法來自動優(yōu)化張量運算核心并編譯AI工作負載,從而可以將最優(yōu)的性能部署到所有硬件。實驗結(jié)果表明,該框架能夠為低功耗CPU,移動GPU和服務器級GPU提供與最先進手工調(diào)優(yōu)庫相媲美的性能。

深度學習在我們的日常生活中已經(jīng)無處不在。深度學習模型現(xiàn)在可以識別圖像,理解自然語言,玩游戲,以及自動化系統(tǒng)決策(例如設備放置和索引)。張量算符(tensor operators),如矩陣乘法和高維卷積,是深度學習模型的基本組成部分。

可擴展的學習系統(tǒng)依賴于手動優(yōu)化的高性能張量操作庫,如cuDNN。這些庫針對較窄范圍的硬件進行了優(yōu)化。為了優(yōu)化張量算符,程序員需要從邏輯上等價的許多實現(xiàn)中進行選擇,但由于線程,內(nèi)存重用, pipelining和其他硬件因素的不同,性能上的差別很大。

支持多種硬件后端需要巨大的工程努力。即使在當前支持的硬件上,深度學習框架和模型的開發(fā)也從根本上受到庫中優(yōu)化操作符設置的限制,阻止了諸如操作符熔合(operator fusion)之類的優(yōu)化,從而產(chǎn)生不受支持的操作符。

針對這個問題,華盛頓大學計算機系博士生陳天奇、以及上海交通大學和復旦大學的研究團隊提出一個基于學習的框架,以優(yōu)化用于深度學習工作負載的張量程序( tensor programs)。

摘要

我們提出一個基于學習的框架,以優(yōu)化用于深度學習工作負載的張量程序( tensor programs)。矩陣乘法和高維卷積等張量算符( tensor operators)的高效實現(xiàn)是有效的深度學習系統(tǒng)的關(guān)鍵。然而,現(xiàn)有的系統(tǒng)依賴于手工優(yōu)化的庫,如cuDNN,這些庫只有很少的服務器級GPU能很好地支持。對硬件有要求的操作庫的依賴限制了高級圖形優(yōu)化的適用性,并且在部署到新的硬件目標時會產(chǎn)生巨大的工程成本。我們利用學習來消除這種工程負擔。我們學習了領域特定的統(tǒng)計成本模型,以指導在數(shù)十億可能的程序變體上搜索張量算符的實現(xiàn)。我們通過跨工作負載的有效模型遷移來進一步加快搜索速度。

實驗結(jié)果表明,我們的框架能夠為低功耗CPU,移動GPU和服務器級GPU提供與最先進手工調(diào)優(yōu)庫相媲美的性能。

學習優(yōu)化張量程序問題的形式化方法

我們提出以下問題:我們是否可以通過學習來減輕這種工程負擔,并自動優(yōu)化給定硬件平臺的張量算符程序?本論文為這個問題提供了肯定的答案。我們建立了統(tǒng)計成本模型來預測給定的低級程序的程序運行時間。這些成本模型指導了對可能程序空間的探索。我們的成本模型使用可遷移的表示形式,可以在不同的工作負載之間進行泛化,以加速搜索。這一工作的貢獻如下:

我們提供了學習優(yōu)化張量程序問題的一種形式化方法,并總結(jié)了其關(guān)鍵特征。

我們提出了一個基于機器學習的框架來解決這個新問題。

我們使用遷移學習將優(yōu)化速度進一步提高2倍至10倍。

我們在這個框架中提供了詳細的組件設計選擇和實證分析。

在實際的深度學習工作負載的實驗結(jié)果表明,我們的框架提供的端到端性能改進比現(xiàn)有框架好1.2倍至3.8倍。

圖1:該問題的一個例子。 對于給定的張量算符規(guī)范 ,有多種可能的低級別程序?qū)崿F(xiàn),每種實現(xiàn)都有不同的loop順序, tiling 大小以及其他選項。每個選項都創(chuàng)建一個具有不同性能的邏輯等效程序。我們的問題是探索程序空間并找到一個優(yōu)化的程序。

圖2:學習優(yōu)化張量程序框架的概覽

學習優(yōu)化張量程序算法

圖3:編碼低級別循環(huán)AST的可能方法的示例

表1:單batch的ResNet-18推理中所有conv2d操作符的配置。H,W表示高度和寬度,IC表示輸入通道,OC表示輸出通道,K表示 kernel大小,以及S表示stride大小。

討論和結(jié)論

我們提出了一種基于機器學習的框架來自動優(yōu)化深度學習系統(tǒng)中張量算符的實現(xiàn)。我們的統(tǒng)計成本模型允許在工作負載之間進行有效的模型共享,并通過模型遷移加速優(yōu)化過程。這個新方法的優(yōu)秀實驗結(jié)果顯示了對深度學習部署的好處。

在我們的解決方案框架之外,這個新問題的具體特征使它成為相關(guān)領域創(chuàng)新的一個理想測試平臺,如神經(jīng)程序建模、貝葉斯優(yōu)化、遷移學習和強化學習。

在系統(tǒng)方面,學習優(yōu)化張量程序可以使更多的融合操作符、數(shù)據(jù)布局和數(shù)據(jù)類型跨不同的硬件后端。這些改進對于改進深度學習系統(tǒng)至關(guān)重要。我們將開放我們的實驗框架,以鼓勵在這些方向進行更多的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5587

    瀏覽量

    123748

原文標題:陳天奇團隊新研究:自動優(yōu)化深度學習工作負載

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應用設計的硬件加速器。它的開發(fā)源于對人工智能(AI)和機器學習應用的需求,尤其是
    的頭像 發(fā)表于 04-22 09:41 ?2630次閱讀
    TPU處理器的特性和<b class='flag-5'>工作</b>原理

    在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發(fā)表于 03-06 07:54

    使用Python API在OpenVINO?中創(chuàng)建了用于異步推理的自定義代碼,輸出張量的打印結(jié)果會重復,為什么?

    使用 Python* API 在 OpenVINO? 中創(chuàng)建了用于異步推理的自定義代碼。 遇到輸出張量的打印結(jié)果會重復的問題,即使輸入圖像不同。
    發(fā)表于 03-06 07:53

    如何排除深度學習工作臺上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學習工作臺上量化OpenVINO?特定層
    發(fā)表于 03-06 07:31

    為什么無法通過OpenVINO?深度學習 (DL) 工作優(yōu)化 MYRIAD 導入的模型?

    -ASSETS_DIR /hdd-raid0/openvino_workbench 命令以啟動 DL 工作臺。 收到以下消息: 由于選定的項目具有只讀狀態(tài),因此無法使用優(yōu)化按鈕 拔下并插入神經(jīng)電腦棒 (NCS2) 并重新啟動工作
    發(fā)表于 03-05 06:20

    軍事應用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術(shù)的最新進展,加速了不同應用領域的創(chuàng)新與發(fā)展。深度學習技術(shù)的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?735次閱讀

    HPC工作負載管理的關(guān)鍵要素

    HPC工作負載管理是一個復雜而精細的過程,涉及資源分配、作業(yè)調(diào)度、性能監(jiān)控與優(yōu)化以及故障處理與恢復等多個關(guān)鍵要素。下面,AI部落小編帶您了解HPC工作
    的頭像 發(fā)表于 02-08 09:53 ?488次閱讀

    深度學習工作負載中GPU與LPU的主要差異

    ,一個新的競爭力量——LPU(Language Processing Unit,語言處理單元)已悄然登場,LPU專注于解決自然語言處理(NLP)任務中的順序性問題,是構(gòu)建AI應用不可或缺的一環(huán)。 本文旨在探討深度學習工作
    的頭像 發(fā)表于 12-09 11:01 ?3739次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>工作</b><b class='flag-5'>負載</b>中GPU與LPU的主要差異

    燃料電池測試負載工作原理是什么?

    的性能參數(shù)。通過對這些數(shù)據(jù)的分析,可以評估燃料電池在不同負載條件下的性能表現(xiàn),如效率、穩(wěn)定性等。此外,還可以根據(jù)測試結(jié)果對燃料電池的設計和優(yōu)化提出建議。 調(diào)整測試條件:根據(jù)測試結(jié)果,可以對燃料電池的工作
    發(fā)表于 12-06 16:31

    RK3568國產(chǎn)處理器 + TensorFlow框架的張量創(chuàng)建實驗案例分享

    一、實驗目的 本節(jié)視頻的目的是了解張量定義、了解張量的表示形式、并學習基于TensorFlow框架的張量創(chuàng)建方法。 二、實驗原理. 張量定義
    發(fā)表于 12-03 14:43

    NPU在深度學習中的應用

    設計的硬件加速器,它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和G
    的頭像 發(fā)表于 11-14 15:17 ?2604次閱讀

    pcie在深度學習中的應用

    深度學習模型通常需要大量的數(shù)據(jù)和強大的計算能力來訓練。傳統(tǒng)的CPU計算資源有限,難以滿足深度學習的需求。因此,GPU(圖形處理單元)和TPU(張量
    的頭像 發(fā)表于 11-13 10:39 ?1689次閱讀

    深度學習模型的魯棒性優(yōu)化

    深度學習模型的魯棒性優(yōu)化是一個復雜但至關(guān)重要的任務,它涉及多個方面的技術(shù)和策略。以下是一些關(guān)鍵的優(yōu)化方法: 一、數(shù)據(jù)預處理與增強 數(shù)據(jù)清洗 :去除數(shù)據(jù)中的噪聲和異常值,這是提高模型魯棒
    的頭像 發(fā)表于 11-11 10:25 ?1864次閱讀

    華納云:什么是負載均衡?優(yōu)化資源利用率的策略

    負載均衡是現(xiàn)代計算機網(wǎng)絡架構(gòu)中不可或缺的一部分,它通過智能分配請求和任務,確保系統(tǒng)資源的高效利用。本文將探討負載均衡的概念、工作原理、優(yōu)化資源利用率的策略及其在實際應用中的重要性。 1
    的頭像 發(fā)表于 10-28 16:07 ?768次閱讀

    GPU深度學習應用案例

    能力,可以顯著提高圖像識別模型的訓練速度和準確性。例如,在人臉識別、自動駕駛等領域,GPU被廣泛應用于加速深度學習模型的訓練和推理過程。 二、自然語言處理 自然語言處理(NLP)是深度
    的頭像 發(fā)表于 10-27 11:13 ?1967次閱讀