18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

擁抱DeepSeek開源生態(tài)| 算能TPU接入TileLang,集結(jié)北大復(fù)旦山大頂尖團(tuán)隊(duì)!

算能開發(fā)者社區(qū) ? 2025-10-03 19:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,DeepSeek V3.2-Exp 上線,官宣支持國產(chǎn)AI算子編程語言TileLang 并發(fā)布了針對 V3.2 的算子示例,這意味著支持“同一語義、跨多后端”的TileLang得到了權(quán)威認(rèn)可,基于算能TPU的TileLang-TPU項(xiàng)目也于近日完成工程驗(yàn)證。

TileLang 發(fā)布之初,算能聯(lián)合北京大學(xué)、復(fù)旦大學(xué)、山東大學(xué)等高校的科研團(tuán)隊(duì),共同開展TileLang接入算能TPU的工作,目前已在BM1684X 、SC11等智算平臺上完成了主流大模型算子的工程驗(yàn)證。

算能SC11 FP300單卡集成256GB LPDDR5X高帶寬內(nèi)存,內(nèi)置原生FP8算力單元,板載高達(dá)1.1TB/s的內(nèi)存帶寬,配合PCIe Gen5主機(jī)接口及256GB/s的卡間高速互聯(lián),有效應(yīng)對大模型參數(shù)存儲與計算需求,DeepSeek V3滿血版在4卡SC11上吞吐超過600tokens/s。


Tile Language (TileLang) 是一種簡潔的領(lǐng)域?qū)S谜Z言,也是一款開源的 AI 算子編程語言,TileLang 對接算能TPU擴(kuò)展的工作由北大碩士生解文浩、博士生任天行作為主要負(fù)責(zé)人牽頭開發(fā),山大、復(fù)旦的研發(fā)團(tuán)隊(duì)也參與了算子開發(fā)、大模型接入TPU的工作,一并表示感謝。4e96f3dc-a049-11f0-8ce9-92fbcf53809c.png

全棧貫通|從可行性到工程閉環(huán)

TileLang能夠?qū)⒏呒墑e的數(shù)據(jù)流描述,自動轉(zhuǎn)換并優(yōu)化為高效的底層代碼(如CUDA或TPU kernel)。通過獨(dú)特的Tile級抽象和自動調(diào)度能力,開發(fā)者可以用更簡潔的代碼表達(dá)復(fù)雜計算,快速為自己的算法開發(fā)一個接近峰值性能的算子,顯著提升算子開發(fā)效率。

TileLang-TPU適配路徑以“少驚擾、強(qiáng)約束”為原則:前端僅描述 tile 級計算邏輯與數(shù)據(jù)流,不引入設(shè)備細(xì)節(jié);中間以穩(wěn)定的 Tile-IR 承接形狀推斷、布局決定與算子融合;后端生成面向算能 TPU 的 device 側(cè) C 代碼與指令序列,并與 PPL 的內(nèi)核注冊、調(diào)度與運(yùn)行時貫通。

4ea1d662-a049-11f0-8ce9-92fbcf53809c.png

該路徑已在典型大模型算子上跑通,涵蓋常見的 GEMM、歸一化與位置相關(guān)變換等,完成從算子表達(dá)、代碼生成、到 hostdevice 數(shù)據(jù)搬運(yùn)和執(zhí)行的全鏈路打通。由此,TileLang 的一次建模、多后端復(fù)用能力在國產(chǎn) TPU 場景獲得驗(yàn)證,為后續(xù)開源與規(guī)?;桓兜於嘶A(chǔ)。

極致簡潔|三步實(shí)現(xiàn) TPU后端支持

TileLang-TPU的核心工作聚焦三點(diǎn):前端原語擴(kuò)展。于 TileLang/language/customize.py 增補(bǔ)自定義 tile op 接口,使 GEMM、RMSNorm、RoPE、SwiGLU 等算子可以以更貼近數(shù)學(xué)定義的方式表達(dá),并在 Tile-IR 層明確迭代空間、數(shù)據(jù)復(fù)用與流水線切分,減少手寫索引與 bank 沖突的偶然性。

4eb2f988-a049-11f0-8ce9-92fbcf53809c.png

代碼生成映射。于 src/target/codegen_ppl.cc 完成原語到算能 TPU 專用執(zhí)行單元的映射,將GEMM 一類算子對齊到 BDC 的矩陣乘路徑(如 tpu_bdc_fp_mm.v 等),同時根據(jù)設(shè)備層級內(nèi)存模型生成指令序列與局部緩存策略,確保計算與搬運(yùn)(GDMA)管線化協(xié)同。以matmul在BM1684x上的計算為例,使用TileLang撰寫的算子跟PPL手寫算子性能持平,代碼更加簡潔。

4ebe3be0-a049-11f0-8ce9-92fbcf53809c.png

運(yùn)行棧整合。生成的 device 側(cè) C 代碼與元信息并入 PPL 體系,完成 kernel 注冊、調(diào)度入口與形參綁定,保證 host 側(cè)裝載、形狀檢查、dtype/stride 處理與 device 側(cè)執(zhí)行一致;必要時補(bǔ)充 tiling 規(guī)則與長短軸對齊策略,以兼顧大shape與批處理場景。當(dāng)前已實(shí)現(xiàn)TileLang 前端 → PPL/TPU 設(shè)備端 C → PPL 運(yùn)行期可執(zhí)行的完整鏈路,關(guān)鍵算子具備可對齊的性能基線與可定位的優(yōu)化,便于后續(xù)按模型族進(jìn)行系統(tǒng)化補(bǔ)全與壓測。

持續(xù)開源 | 一次改寫多處復(fù)用

TileLang開源的價值不止于“又多了一個后端”,更在于“少了成倍的重復(fù)移植”。在國產(chǎn)芯片生態(tài)日益多樣化的現(xiàn)實(shí)下,統(tǒng)一的 tile 級前端抽象能把算子資產(chǎn)沉淀在可組合、可驗(yàn)證的語義層;遷移到新后端時,僅需圍繞 CodeGen 與 runtime 這條窄口補(bǔ)齊映射與 ABI,可繼承既有的表達(dá)、調(diào)度與測試體系。

這種“前端統(tǒng)一、后端定制”的方式,有機(jī)會在工程維度緩解國產(chǎn)芯片的碎片化,讓差異化架構(gòu)以最小成本共享同一套高質(zhì)量算子實(shí)現(xiàn)與基準(zhǔn)。后續(xù)開發(fā)團(tuán)隊(duì)將優(yōu)先確保DeepSeek等主流模型鏈路的端到端可用,再面向長尾算子逐步補(bǔ)全,并在流水線深度、訪存回填、緩存復(fù)用等細(xì)節(jié)上持續(xù)優(yōu)化最佳實(shí)踐。

TileLang-TPU 正在做開源前的代碼清理與文檔化的工作,它的意義并不在于“多了一個后端”,而在于“少了很多重復(fù)”,當(dāng)同一套算子前端可以映射到更多芯片時,碎片化就不再是阻力,而會成為競爭力,讓不同架構(gòu)以各自所長服務(wù)更大的模型與更廣的場景,而不是把資源消耗在移植與改寫上。

再次感謝來自北大、復(fù)旦、山大等高校的研發(fā)團(tuán)隊(duì)在TileLang-TPU上所做的前瞻性工作,后續(xù)的開源倉庫將附帶清晰的示例與文檔,支持以標(biāo)準(zhǔn)化方式擴(kuò)展原語、以嚴(yán)謹(jǐn)?shù)墓こ虡?biāo)準(zhǔn)實(shí)現(xiàn)“一次改寫、多平臺復(fù)用”的目標(biāo)。TileLang-TPU的成功驗(yàn)證,將進(jìn)一步加深算能與高校、開源社區(qū)的合作深度,為完善國產(chǎn)芯片軟件棧打造一個經(jīng)典范式。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    37117

    瀏覽量

    291158
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    160

    瀏覽量

    21463
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    821

    瀏覽量

    2643
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    DeepSeek V3.1發(fā)布!擁抱國產(chǎn)力芯片

    架構(gòu)到Agent能力突破,從API價格調(diào)整到國產(chǎn)芯片生態(tài)共建,DeepSeek V3.1的發(fā)布標(biāo)志著中國AI產(chǎn)業(yè)進(jìn)入技術(shù)突破與產(chǎn)業(yè)落地協(xié)同發(fā)展的新階段。 ? 圖:DeepSeek正式發(fā)布
    的頭像 發(fā)表于 08-23 07:55 ?1.6w次閱讀
    <b class='flag-5'>DeepSeek</b> V3.1發(fā)布!<b class='flag-5'>擁抱</b>國產(chǎn)<b class='flag-5'>算</b>力芯片

    探秘安全生產(chǎn)預(yù)警預(yù)測系統(tǒng)的五大頂尖平臺

    探秘安全生產(chǎn)預(yù)警預(yù)測系統(tǒng)的五大頂尖平臺
    的頭像 發(fā)表于 10-16 09:56 ?644次閱讀
    探秘安全生產(chǎn)預(yù)警預(yù)測系統(tǒng)的五<b class='flag-5'>大頂尖</b>平臺

    沐曦曦云C系列產(chǎn)品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國產(chǎn)高性能GPU的代表,沐曦曦云C系列產(chǎn)品已率先在這一新興開源社區(qū)獲得支持。
    的頭像 發(fā)表于 10-14 09:25 ?225次閱讀
    沐曦曦云C系列產(chǎn)品已支持<b class='flag-5'>TileLang</b>

    TPU編程競賽|第二十屆研電賽杯賽啟動 -- 智,創(chuàng)見未來!

    第二十屆中國研究生電子設(shè)計競賽(以下簡稱“研電賽”)正式啟動,作為命題企業(yè)聚焦人工智能與邊緣計算前沿技術(shù),圍繞TPU硬件平臺與輕量化AIoT系統(tǒng)發(fā)布兩大創(chuàng)新賽題,涵蓋大模型邊緣部署、智能交互系統(tǒng)
    的頭像 發(fā)表于 04-01 17:33 ?1588次閱讀
    <b class='flag-5'>TPU</b>編程競賽|第二十屆研電賽<b class='flag-5'>算</b><b class='flag-5'>能</b>杯賽啟動 -- 智<b class='flag-5'>算</b>賦<b class='flag-5'>能</b>,創(chuàng)見未來!

    北京大學(xué)兩部 DeepSeek 秘籍新出爐!(附全集下載)

    北大的肖睿團(tuán)隊(duì)出品了兩份 DeepSeek “內(nèi)部秘籍”, 趕緊拿來給大家分享。 可能有的家友對什么是 DeepSeek?它有什么用?仍感到一頭霧水。 就讓我們回歸基礎(chǔ),從大語言模型的
    發(fā)表于 02-27 17:57

    誠邁科技HongZOS接入DeepSeek

    近日,誠邁科技基于開源鴻蒙研發(fā)的物聯(lián)網(wǎng)操作系統(tǒng)「鴻誠志遠(yuǎn)HongZOS」成功接入DeepSeek,并在鴻志工業(yè)三防平板上實(shí)現(xiàn)在線部署和本地化部署。這標(biāo)志著誠邁科技正式開啟「HongZOS+AI大模型」的深度融合,將為行業(yè)客戶帶來
    的頭像 發(fā)表于 02-25 17:30 ?1038次閱讀

    Spring AI接入DeepSeek:快速打造微應(yīng)用

    加入到開源生態(tài)中。例如,國內(nèi)大廠X度于2月14日宣布將在未來幾個月推出文新大模型4.5系列,并計劃從閉源轉(zhuǎn)向開源。這些動態(tài)無疑加速了大模型技術(shù)的發(fā)展,也為開發(fā)者提供了更多創(chuàng)新的可能性。 作為一名技術(shù)人,我深知緊跟時代潮流的重要性
    的頭像 發(fā)表于 02-23 17:22 ?1558次閱讀
    Spring AI<b class='flag-5'>接入</b><b class='flag-5'>DeepSeek</b>:快速打造微應(yīng)用

    開源大模型DeepSeek的開放內(nèi)容詳析

    當(dāng)大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關(guān)鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源
    的頭像 發(fā)表于 02-19 09:48 ?2258次閱讀
    <b class='flag-5'>開源</b>大模型<b class='flag-5'>DeepSeek</b>的開放內(nèi)容詳析

    DeepSeek訪問量飆升,應(yīng)用生態(tài)迅速擴(kuò)展

    擴(kuò)展。 目前,三家基礎(chǔ)電信企業(yè)已全面接入國產(chǎn)開源大模型DeepSeek,為其提供了廣泛的網(wǎng)絡(luò)覆蓋和通信支持。同時,手機(jī)、PC等終端廠商也在積極擁抱D
    的頭像 發(fā)表于 02-14 10:00 ?696次閱讀

    榮耀手機(jī)正式接入DeepSeek

    榮耀正式宣布接入DeepSeek,并致力于將榮耀手機(jī)打造成為DeepSeek的第一手機(jī)。對于系統(tǒng)版本為MagicOS8.0及以上的榮耀手機(jī)用戶,只需將YOYO助理升級到80.0.1.503版本及以上,即可與
    的頭像 發(fā)表于 02-10 16:33 ?1354次閱讀

    軟通動力天元智接入DeepSeek系列模型

    近日,軟通動力天元智大模型網(wǎng)關(guān)迎來重磅升級,正式接入DeepSeek系列模型,為企業(yè)生產(chǎn)力提升帶來全新助力。
    的頭像 發(fā)表于 02-10 09:44 ?782次閱讀

    “兆瀚”力產(chǎn)品強(qiáng)力支持DeepSeek,共筑國產(chǎn)AI新生態(tài)!

    全球人工智能競賽進(jìn)入白熱化之際,中國AI領(lǐng)域迎來里程碑式突破——誕生于本土的開源大模型DeepSeek,憑借媲美全球頂尖水平的算法精度和極致開放的生態(tài)策略,迅速獲得全球矚目。作為昇騰戰(zhàn)
    的頭像 發(fā)表于 02-07 19:37 ?1156次閱讀
    “兆瀚”<b class='flag-5'>算</b>力產(chǎn)品強(qiáng)力支持<b class='flag-5'>DeepSeek</b>,共筑國產(chǎn)AI新<b class='flag-5'>生態(tài)</b>!

    TPU編程競賽系列|第九屆集創(chuàng)賽“杯”火熱報名中!

    第九屆全國大學(xué)生集成電路創(chuàng)新創(chuàng)業(yè)大賽(以下簡稱“集創(chuàng)賽”)正式開始報名。能在處理器應(yīng)用方向特別設(shè)立了“TPU的邊緣計算架構(gòu)優(yōu)化與創(chuàng)新應(yīng)用設(shè)計”賽題,誠邀各校參賽隊(duì)伍充分發(fā)揮TPU
    的頭像 發(fā)表于 02-06 13:41 ?1487次閱讀
    <b class='flag-5'>TPU</b>編程競賽系列|第九屆集創(chuàng)賽“<b class='flag-5'>算</b><b class='flag-5'>能</b>杯”火熱報名中!

    深度解析deepseek開源是什么意思

    Deepseek開源是指Deepseek項(xiàng)目的源代碼被公開,允許任何人免費(fèi)查看、使用、修改和分發(fā)。
    的頭像 發(fā)表于 02-06 09:29 ?4019次閱讀

    TPU編程競賽|2024 CCF BDCI大賽圓滿結(jié)束!賽道“常務(wù)副SOTA”團(tuán)隊(duì)榮獲最佳算法能力獎

    團(tuán)隊(duì)脫穎而出,榮獲大賽最佳算法能力獎。本屆CCFBDCI大賽中,賽道推出了“基于TPU平臺的OCR模型性能優(yōu)化”的賽題,旨在探索如何通過高效的
    的頭像 發(fā)表于 01-08 08:33 ?868次閱讀
    <b class='flag-5'>TPU</b>編程競賽|2024 CCF BDCI大賽圓滿結(jié)束!<b class='flag-5'>算</b><b class='flag-5'>能</b>賽道“常務(wù)副SOTA”<b class='flag-5'>團(tuán)隊(duì)</b>榮獲最佳算法能力獎