18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Vulkan的端側(cè)AI運(yùn)算

OpenAtom OpenHarmony ? 來源:OpenAtom OpenHarmony ? 2025-09-10 17:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【拆·應(yīng)用】是為開源鴻蒙應(yīng)用開發(fā)者打造的技術(shù)分享平臺,是匯聚開發(fā)者的技術(shù)洞見與實(shí)踐經(jīng)驗(yàn)、提供開發(fā)心得與創(chuàng)新成果的展示窗口。誠邀您踴躍發(fā)聲,期待您的真知灼見與技術(shù)火花!

引言

本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用圖形接口Vulkan的計算著色器能力,在端側(cè)部署大模型的的整體思路和實(shí)踐分享。

開源鴻蒙是由開放原子開源基金會孵化及運(yùn)營的開源項(xiàng)目,目標(biāo)是面向全場景、全連接、全智能時代,搭建一個智能終端設(shè)備操作系統(tǒng)的框架和平臺,促進(jìn)萬物互聯(lián)產(chǎn)業(yè)的繁榮發(fā)展。在人工智能時代下,與其它成熟的操作系統(tǒng)相比,開源鴻蒙部署AI LLM模型的能力欠缺。為了補(bǔ)齊開源鴻蒙在端側(cè)部署大模型的能力,筆者將分享如何在端側(cè)打通大模型部署的整體思路和實(shí)踐。

軟硬件選型

在硬件上選取國產(chǎn)CPU飛騰D2000,顯卡選用AMD GPU。目前能夠在OpenHarmony5.0.0 Release上點(diǎn)亮AMD GPU,包括RX 550、RX 580和RX 7900 XTX。

其次是推理框架的選擇,筆者選取了llama.cpp這個開源的推理框架,倉庫地址為:github.com/ggml-org/llama.cpp。目前很火的ollama,其也是選用了llama.cpp作為推理后端。llama.cpp是一個專注于在邊緣設(shè)備、個人PC上進(jìn)行l(wèi)lm部署的高性能推理框架。其相比于vllm等主流llm推理框架來說,有以下明顯的優(yōu)點(diǎn):

C++/C 實(shí)現(xiàn),在Windows、mac、Linux等多種系統(tǒng)下編譯都非常簡單。

豐富的后端支持:如圖所示,支持x86、arm、Nidia_GPU、AMD_GPU、Vulkan甚至華為昇騰NPU_CANN。

支持CPU AVX指令集進(jìn)行矢量計算加速、CPU多核并行計算、CPU+GPU混合計算

支持低精度量化:1.5bit、2 bit、3 bit、4 bit、5 bit、6 bit和 8 bit整數(shù)量化,可加快推理速度并減少內(nèi)存使用。

9908031a-8e25-11f0-8c8f-92fbcf53809c.png

llama.cpp支持的后端及其硬件

在上圖中,llama.cpp支持Vulkan后端。筆者通過查閱相關(guān)資料和閱讀llama.cpp關(guān)于Vulkan的相關(guān)代碼,發(fā)現(xiàn)其是利用圖形接口Vulkan的計算著色器(Compute Shader)的能力來運(yùn)行大模型的。計算著色器(Compute Shader) 是GPU上用于通用計算(GPGPU) 的特殊程序,與傳統(tǒng)圖形渲染管線解耦,可直接操作GPU并行處理非圖形任務(wù)(如AI推理、物理模擬、數(shù)據(jù)處理)等。下表是計算著色器的特點(diǎn):

9964e800-8e25-11f0-8c8f-92fbcf53809c.jpg

綜合多因素的考量,在軟硬件上最終選用飛騰D2000 + AMD GPU + OpenHarmony 5.0.0 Release的組合,利用圖形接口Vulkan的計算著色器能力,在終端設(shè)備上高效運(yùn)行大模型。

在開源鴻蒙部署大模型的難點(diǎn)

在第一部分提到將利用圖形接口Vulkan的計算著色器的能力,在端側(cè)高效運(yùn)行大模型。在開源鴻蒙社區(qū)有個Vulkan的demo樣例,倉庫地址為:https://gitee.com/openharmony/applications_app_samples/tree/master/code/BasicFeature/Native/NdkVulkan,通過筆者的實(shí)踐,目前在HarmonyOS能跑通該樣例,但是在開源鴻蒙上尚不能跑通該樣例。通過閱讀該例子的文檔說明,如下圖,發(fā)現(xiàn)核心原因是缺少AMD GPU的Vulkan用戶態(tài)驅(qū)動庫libvulkan_radeon.so以及Vulkan的sdk。因此核心難點(diǎn)是要能將Vulkan的計算著色器在開源鴻蒙上正常跑起來。

99bdfe86-8e25-11f0-8c8f-92fbcf53809c.jpg

NdkVulkan例子

整體思路

為了能夠利用圖形接口Vulkan的計算著色器的能力跑大模型。筆者總結(jié)了以下四個的關(guān)鍵步驟:

在開源鴻蒙上正常點(diǎn)亮AMD GPU。

交叉編譯出AMD的Vulkan用戶態(tài)驅(qū)動。

交叉編譯出Vulkan sdk。

移植llama.cpp到OpenHarmony上。

實(shí)踐要點(diǎn)

點(diǎn)亮AMDGPU

1.確保AMD GPU 內(nèi)核態(tài)是正常的選用的內(nèi)核版本為linux 6.6.22,需要將內(nèi)核的以下選項(xiàng)打開。

9a160d06-8e25-11f0-8c8f-92fbcf53809c.jpg

系統(tǒng)正常啟動后,采用modetest工具進(jìn)行測試,在測試前需要關(guān)閉render_service、composer_host和allocator_host這三個進(jìn)程,具體的命令如下:

9a717808-8e25-11f0-8c8f-92fbcf53809c.jpg

在hdc shell中運(yùn)行以下命令:

9acb9bf8-8e25-11f0-8c8f-92fbcf53809c.jpg

如果能夠在顯示屏上看到彩色的條紋,如下圖,說明AMD GPU的內(nèi)核態(tài)是正常的。

modetest測試結(jié)果

2.確保AMD GPU的用戶態(tài)是正常的

首先通過mesa3d交叉編譯出AMD GPU的用戶態(tài)驅(qū)動,主要為libEGL.so.1.0.0、libgallium_dri.so、libgbm.so.1.0.0、libglapi.so.0.0.0、libGLESv1_CM.so.1.1.0和libGLESv2.so.2.0.0這個5個動態(tài)庫。

9b877fa8-8e25-11f0-8c8f-92fbcf53809c.png

大家可以參考laval社區(qū)的《開源鴻蒙開源GPU庫Mesa3D適配說明》這篇文章,了解GPU的適配過程,鏈接地址為:https://laval.csdn.net/64804567ade290484cb2ed06.html

這篇文章主要講的是mali gpu的mesa3d點(diǎn)亮過程。由于跑Vulkan的計算著色器可以不用到顯示的功能,因此在這里具體的適配過程就不展開,感興趣的讀者可在AI Model SIG的ohos_vulkan倉庫獲取相關(guān)的AMD GPU 的mesa用戶態(tài)驅(qū)動的庫,倉庫地址為:https://gitcode.com/ai_model_sig/ohos_vulkan 成功適配后,可以在顯示屏正常看到開源鴻蒙的桌面。

Vulkan用戶態(tài)驅(qū)動

這一步的核心是能夠獲得libvulkan_radeon.so這個動態(tài)庫。在mesa3d中有Vulkan用戶態(tài)驅(qū)動的實(shí)現(xiàn),因此通過編譯mesa3d這個開源項(xiàng)目編譯出libvulkan_radeon.so這個Vulkan用戶態(tài)驅(qū)動庫。

在build_ohos.py文件中需要指定 -Dgallium-drivers=amd 和 -Dvulkan-drivers=amd這兩個參數(shù),如下圖:

9be9db1c-8e25-11f0-8c8f-92fbcf53809c.jpg

通過以下指令:

9c425b16-8e25-11f0-8c8f-92fbcf53809c.png

便可以編譯出libvulkan_radeon.so這個動態(tài)庫,如下圖所示

9ca14ce8-8e25-11f0-8c8f-92fbcf53809c.jpg

Vulkan sdk

Vulkan sdk的構(gòu)成主要包含以下11個項(xiàng)目:

https://github.com/KhronosGroup/glslang.git

https://github.com/KhronosGroup/SPIRV-Headers.git

https://github.com/KhronosGroup/SPIRV-Tools.git

https://github.com/zeux/volk.git

https://github.com/KhronosGroup/Vulkan-ExtensionLayer.git

https://github.com/KhronosGroup/Vulkan-Headers.git

https://github.com/KhronosGroup/Vulkan-Loader.git

https://github.com/KhronosGroup/Vulkan-Tools.git

https://github.com/KhronosGroup/Vulkan-Utility-Libraries.git

https://github.com/KhronosGroup/Vulkan-ValidationLayers.git

在這里需要通過交叉編譯的方式獲得aarch64版本的產(chǎn)物,如下圖所示。

9cf958ca-8e25-11f0-8c8f-92fbcf53809c.png

Vulkan sdk的編譯比較復(fù)雜,這里不進(jìn)行展開,讀者可以通過這個鏈接下載:

https://gitcode.com/ai_model_sig/ohos_vulkan/pull/1

下面介紹一下如何將Vulkan sdk部署在開源鴻蒙上:

9d5594aa-8e25-11f0-8c8f-92fbcf53809c.jpg

通過運(yùn)行vulkaninfo可以獲取vulkan的相關(guān)信息,也能獲取我們所用GPU的型號。

9db1ba1e-8e25-11f0-8c8f-92fbcf53809c.jpg

9e0c07bc-8e25-11f0-8c8f-92fbcf53809c.png

目前我們能將Vulkan在開源鴻蒙上正式跑起來了,接下來需要寫一個簡單的例子來驗(yàn)證Vulkan的計算著色器是否正常。筆者提供了一個簡單的利用計算著色器來進(jìn)行矩陣并行計算,大家可以通過laval社區(qū)的這篇文章詳細(xì)了解一下,文章鏈接:

https://laval.csdn.net/685bdb3d965a29319f2773cb.html

該例子的核心就是矩陣A和矩陣B相乘的到矩陣C,矩陣C的每個元素需要做256次乘法和255次加法。

9e673de4-8e25-11f0-8c8f-92fbcf53809c.png

下面是例子的具體內(nèi)容:

整體流程:初始化Vulkan → 創(chuàng)建矩陣緩沖區(qū) → 構(gòu)建計算管線 → 提交計算任務(wù) → 同步獲取結(jié)果 → 驗(yàn)證輸出 → 資源釋放;

編寫計算著色器,如下圖;

并行策略:每個線程計算輸出矩陣的一個元素;

工作組配置:每個工作組包含16x16=256個并行線程;

執(zhí)行粒度:與主程序中的vkCmdDispatch(MATRIX_SIZE/16, MATRIX_SIZE/16, 1)配合,共調(diào)度 (256/16)^2 = 256個工作組覆蓋整個矩陣;

線程總數(shù):256 * 256 = 65536 個并行線程。

9ec2a2ec-8e25-11f0-8c8f-92fbcf53809c.jpg

計算著色器

假設(shè)矩陣A的元素全為1,矩陣B的元素全為2,那么矩陣C的計算結(jié)果應(yīng)該全為512。如下圖可見矩陣C的計算結(jié)果正確,總耗時大概在5毫秒左右。通過對比矩陣C的結(jié)果和耗時,初步可以確認(rèn)Vulkan的計算著色器能在開源鴻蒙上正常運(yùn)行。

9f1d19f2-8e25-11f0-8c8f-92fbcf53809c.jpg

矩陣C的計算結(jié)果

推理框架 llama.cpp

利用前一步得到的Vulkan sdk,接下來需要交叉編譯出llama.cpp。下面是交叉編譯的命令。

9f77f49e-8e25-11f0-8c8f-92fbcf53809c.jpg

最終我們將編譯的產(chǎn)物拷貝至開源鴻蒙設(shè)備上,然后運(yùn)行??梢钥吹絣lama.cpp能夠正確識別我們的AMD GPU并將模型的權(quán)重加載至顯卡上。

9fd6d6b2-8e25-11f0-8c8f-92fbcf53809c.jpg

a02fa544-8e25-11f0-8c8f-92fbcf53809c.jpg

總結(jié)

本文主要分享了如何在端側(cè)打通大模型部署的整體思路和實(shí)踐,從而補(bǔ)齊開源鴻蒙在端側(cè)部署大模型的能力。目前能夠利用圖形接口Vulkan的計算著色器的能力,能夠在端側(cè)的AMD的消費(fèi)級顯卡AMD 7900XTX上部署類似DeepSeek 32B這類的大模型,從而打造了AI能力的算力底座,為AI應(yīng)用提供支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11192

    瀏覽量

    221679
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37126

    瀏覽量

    291179
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3885

    瀏覽量

    45301
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3359

    瀏覽量

    4780

原文標(biāo)題:拆·應(yīng)用丨第6期:基于Vulkan的端側(cè)AI運(yùn)算

文章出處:【微信號:gh_e4f28cfa3159,微信公眾號:OpenAtom OpenHarmony】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    側(cè)AI,風(fēng)起移動智能計算

    新一代驍龍旗艦芯片,側(cè)AI的繁榮肇始
    的頭像 發(fā)表于 11-22 09:55 ?3392次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>,風(fēng)起移動智能計算

    側(cè)AI浪潮已來!炬芯科技發(fā)布新一代側(cè)AI音頻芯片,能效比和AI算力大幅度提升

    電子發(fā)燒友原創(chuàng) 章鷹 ? 11月5日,在深圳會展中心7號館內(nèi),炬芯科技董事長兼CEO周正宇博士帶來了《側(cè)AI芯片的未來》演講,他對側(cè)
    的頭像 發(fā)表于 11-06 09:11 ?4669次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>浪潮已來!炬芯科技發(fā)布新一代<b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>音頻芯片,能效比和<b class='flag-5'>AI</b>算力大幅度提升

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓側(cè)AI模型接入得心應(yīng)手

    、內(nèi)存帶寬占用量大幅度降低50%,讓側(cè)AI推理更聰明、響應(yīng)更迅速。 天璣AI開發(fā)套件2.0還首次引入基于NPU的
    發(fā)表于 04-13 19:52

    億智電子攜手合作伙伴推動側(cè)AI產(chǎn)業(yè)的快速發(fā)展

    全球化IoT開發(fā)平臺服務(wù)商「涂鴉智能」、智能駕駛和側(cè)AI算法企業(yè)「中天安馳」與側(cè)AI芯片先鋒
    的頭像 發(fā)表于 01-13 19:03 ?2461次閱讀

    榮耀引領(lǐng)側(cè)AI新時代

    在今年的MWC盛會上,榮耀宣布與高通、Meta攜手,將70億參數(shù)大模型引入側(cè),這一創(chuàng)新舉措預(yù)示著側(cè)AI新時代的到來。榮耀終端CEO趙明在
    的頭像 發(fā)表于 03-01 10:28 ?1085次閱讀

    廣和通側(cè)AI解決方案驅(qū)動性能密集型場景商用型場景商用

    2024世界機(jī)器人大會期間,廣和通宣布:基于高通QCS8550平臺的廣和通側(cè)AI解決方案高效使能性能密集型場景。該側(cè)
    的頭像 發(fā)表于 08-23 16:05 ?1141次閱讀
    廣和通<b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>解決方案驅(qū)動性能密集型場景商用型場景商用

    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動側(cè)AI規(guī)?;卣?/a>

    當(dāng)前,AI大模型走向側(cè)已經(jīng)是大勢所趨,側(cè)AI的發(fā)展將推動人工智能成為影響世界的第四次工業(yè)革命
    的頭像 發(fā)表于 11-25 16:45 ?989次閱讀
    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動<b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>規(guī)?;卣? />    </a>
</div>                              <div   id=

    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動側(cè)AI規(guī)?;卣?/a>

    當(dāng)前,AI大模型走向側(cè)已經(jīng)是大勢所趨,側(cè)AI的發(fā)展將推動人工智能成為影響世界的第四次工業(yè)革命
    的頭像 發(fā)表于 11-26 01:00 ?706次閱讀
    把握關(guān)鍵節(jié)點(diǎn),美格智能持續(xù)推動<b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>規(guī)?;卣? />    </a>
</div>                              <div   id=

    廣和通開啟側(cè)AI新時代

    AI發(fā)展正酣,隨著終端芯片算力越來越高、側(cè)模型能力越來越強(qiáng)、實(shí)時響應(yīng)及隱私保護(hù)的側(cè)應(yīng)用需求增加,
    的頭像 發(fā)表于 12-12 10:35 ?1123次閱讀

    中信建投建議關(guān)注側(cè)AI模組機(jī)會

    中信建投近日發(fā)布的研報指出,隨著OpenAI的ChatGPT功能全面接入蘋果設(shè)備,包括iPhone、iPad和Mac,側(cè)AI產(chǎn)業(yè)的發(fā)展正在加速。這一趨勢為AI模組市場帶來了新的機(jī)遇。
    的頭像 發(fā)表于 12-17 14:05 ?828次閱讀

    廣和通Fibocom AI Stack:加速側(cè)AI部署新紀(jì)元

    近日,廣和通正式推出了Fibocom AI Stack,這一創(chuàng)新解決方案旨在賦能千行百業(yè)的側(cè)應(yīng)用,推動AI技術(shù)的廣泛商用。 Fibocom AI
    的頭像 發(fā)表于 01-13 11:32 ?1337次閱讀

    AI大模型側(cè)部署正當(dāng)時:移遠(yuǎn)端側(cè)AI大模型解決方案,激活場景智能新范式

    AI技術(shù)飛速發(fā)展的當(dāng)下,AI大模型的應(yīng)用正從云端向側(cè)加速滲透。作為全球領(lǐng)先的物聯(lián)網(wǎng)整體解決方案供應(yīng)商,移遠(yuǎn)通信憑借深厚的技術(shù)積累與前瞻性的戰(zhàn)略布局,在
    的頭像 發(fā)表于 03-26 19:05 ?769次閱讀
    <b class='flag-5'>AI</b>大模型<b class='flag-5'>端</b>側(cè)部署正當(dāng)時:移遠(yuǎn)端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>大模型解決方案,激活場景智能新范式

    AI大模型側(cè)部署正當(dāng)時:移遠(yuǎn)端側(cè)AI大模型解決方案,激活場景智能新范式

    AI技術(shù)飛速發(fā)展的當(dāng)下,AI大模型的應(yīng)用正從云端向側(cè)加速滲透。 作為全球領(lǐng)先的物聯(lián)網(wǎng)整體解決方案供應(yīng)商,移遠(yuǎn)通信憑借深厚的技術(shù)積累與前瞻性的戰(zhàn)略布局,在
    發(fā)表于 03-27 11:26 ?359次閱讀
    <b class='flag-5'>AI</b>大模型<b class='flag-5'>端</b>側(cè)部署正當(dāng)時:移遠(yuǎn)端<b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>大模型解決方案,激活場景智能新范式

    炬芯科技探索側(cè)AI技術(shù)與應(yīng)用

    隨著人工智能技術(shù)的迅猛發(fā)展,AI應(yīng)用正從云端向終端迅速擴(kuò)張。側(cè)AI的核心在于讓智能設(shè)備在本地完成數(shù)據(jù)處理和推理決策,并且可以在較低能耗情況下的持續(xù)工作,從而減少對云端的依賴,提升交互
    的頭像 發(fā)表于 03-27 14:58 ?796次閱讀

    側(cè)AI推理賦能效率革命,美格智能多領(lǐng)域落地打造行業(yè)范本

    產(chǎn)業(yè)進(jìn)階:側(cè)AI推理助手成為應(yīng)用剛需作為人工智能技術(shù)最普遍的產(chǎn)品形式之一,“AI助手”已成為各類軟件、終端的重要組成部分,成為AIAgent的主要外在呈現(xiàn)和功能入口。隨著
    的頭像 發(fā)表于 08-25 17:06 ?3148次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>側(cè)</b><b class='flag-5'>AI</b>推理賦能效率革命,美格智能多領(lǐng)域落地打造行業(yè)范本