18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦?cái)y手ABACUS推動(dòng)國(guó)產(chǎn)科學(xué)計(jì)算新發(fā)展

沐曦MetaX ? 來源:沐曦MetaX ? 2025-10-14 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

長(zhǎng)期以來,在科學(xué)計(jì)算這一關(guān)鍵領(lǐng)域,核心軟件與硬件大多依賴國(guó)外生態(tài)體系。這一現(xiàn)狀,不僅在性能優(yōu)化上存在掣肘,也讓國(guó)產(chǎn)科研面臨“算力不可控”的現(xiàn)實(shí)挑戰(zhàn)。如何讓國(guó)產(chǎn)軟件在國(guó)產(chǎn)硬件上高效運(yùn)行,構(gòu)建真正自主可控的科學(xué)計(jì)算生態(tài),成為科研界與產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)課題。

最近,國(guó)產(chǎn)開源密度泛函理論軟件——原子算籌(ABACUS)發(fā)布了最新迭代版v3.9.0.14和v3.9.0.15。值得關(guān)注的是,在這些更新中,沐曦科學(xué)計(jì)算團(tuán)隊(duì)首次以開發(fā)者身份正式加入 ABACUS 社區(qū)。

這不僅是一項(xiàng)功能優(yōu)化的升級(jí),更是國(guó)產(chǎn) GPGPU 與國(guó)產(chǎn)科學(xué)計(jì)算軟件深度融合的重要體現(xiàn),標(biāo)志著國(guó)產(chǎn)算力生態(tài)正在走向新的發(fā)展階段。

1沐曦 —— 賦能科學(xué)計(jì)算的國(guó)產(chǎn) GPGPU

75d0c230-9e0e-11f0-8c8f-92fbcf53809c.png

圖 1 MXMACA軟件棧

(高度兼容國(guó)際主流GPU軟件生態(tài))

沐曦專注于高性能通用 GPU(GPGPU)的研發(fā),致力于打造完整、自主可控的國(guó)產(chǎn)科學(xué)計(jì)算生態(tài)[1]。在軟件生態(tài)層面,沐曦推出了兼容國(guó)際主流GPU軟件生態(tài)的MXMACA 軟件棧:

兼容國(guó)際主流GPU軟件生態(tài)

使原代碼應(yīng)用能夠輕松在沐曦GPGPU 上運(yùn)行,為國(guó)產(chǎn)科學(xué)計(jì)算軟件的遷移和適配提供便利。

自研高性能數(shù)學(xué)庫

包括mcBLAS、mcFFT等,為科學(xué)計(jì)算提供核心算力保障。

AI4Science支撐[2]

依托MXMACA,在AI4Materials[3]領(lǐng)域,沐曦已覆蓋從第一性原理計(jì)算、分子動(dòng)力學(xué)到 AI 融合的材料科學(xué)應(yīng)用場(chǎng)景,為 AI4Materials 提供全面支持。更多AI4Science場(chǎng)景請(qǐng)點(diǎn)擊下方【閱讀原文】。

憑借出色的軟件生態(tài)兼容性與深厚的團(tuán)隊(duì)開發(fā)和優(yōu)化能力,沐曦正在加速推動(dòng)科學(xué)計(jì)算領(lǐng)域的國(guó)產(chǎn)化進(jìn)程。

2ABACUS —— 開源開放的國(guó)產(chǎn)電子結(jié)構(gòu)軟件

762f3d9c-9e0e-11f0-8c8f-92fbcf53809c.png

圖 2 ABACUS軟件的框架

來源:ABACUS: An Electronic Structure Analysis Package for the AI Era

ABACUS(中文名:原子算籌)[4,5]作為一款基于第一性原理方法的開源材料計(jì)算平臺(tái),由中國(guó)科學(xué)技術(shù)大學(xué)、中科院物理研究所、北京大學(xué)、北京科學(xué)智能研究院、合肥綜合性科學(xué)中心人工智能研究院等多家單位共同開發(fā)維護(hù),擁有完全自主的知識(shí)產(chǎn)權(quán),主要面向凝聚態(tài)材料及高溫高壓物質(zhì)模擬計(jì)算功能支持:

平面波基組與數(shù)值原子軌道基組;

電子結(jié)構(gòu)優(yōu)化、原子結(jié)構(gòu)弛豫、分子動(dòng)力學(xué)模擬等功能;

從小體系到上千原子的材料模擬計(jì)算。

ABACUS 還具備良好的擴(kuò)展性:

可與DeePMD-kit、DeePKS-kit、DP-GEN、DeepTB、DeepH、HammGNN、Hefei-NAMD、PYATB、APEX、LibRI、LibCOMM、Multiwfn、Candela、ASE、Phonopy、Wannier90、TB2J、ShengBTE、Atomkit、PEXSI、等軟件聯(lián)動(dòng)[6];

提供友好的開發(fā)者文檔、自動(dòng)化測(cè)試與調(diào)試工具,方便科研人員快速上手[7]。

ABACUS不僅是一款科學(xué)計(jì)算軟件,更是國(guó)產(chǎn)開源科學(xué)計(jì)算生態(tài)的重要基石。

3沐曦 × ABACUS —— 共筑國(guó)產(chǎn)科學(xué)計(jì)算新生態(tài)

在 ABACUS 最新版本(v3.9.0.14和v3.9.0.15)的開發(fā)中,沐曦科學(xué)計(jì)算團(tuán)隊(duì)首次以開發(fā)者身份正式加入社區(qū)[8-10],并取得了顯著成果:

快速適配

得益于MXMACA 出色的軟件生態(tài)兼容性,ABACUS在沐曦GPU上無需改動(dòng)一行源碼即可順利運(yùn)行,平面波的CG或Davidson方法求解特征值、LCAO基組求解Kohn-Sham方程等主流算法均已支持。

深度優(yōu)化

通過沐曦自研求解器實(shí)現(xiàn) DAV 特征值求解,大幅提升求解效率;在沐曦 C 系列硬件的高帶寬架構(gòu)支持下,性能進(jìn)一步釋放。

社區(qū)貢獻(xiàn)

沐曦科學(xué)計(jì)算團(tuán)隊(duì)積極提交 PR,不僅帶來性能優(yōu)化,也完成了部分 Bug 修復(fù),為 ABACUS 的穩(wěn)定發(fā)展貢獻(xiàn)力量。

3.164 GB顯存:?jiǎn)慰ǔ休d更大材料體系

在處理超大原子體系時(shí),部分軟件可能因使用 32 位整型(int)作為數(shù)組索引或計(jì)數(shù)器,在體系規(guī)模超過一定閾值后觸發(fā)整數(shù)溢出,進(jìn)而導(dǎo)致計(jì)算崩潰。這一問題通常在顯存容量較大的 GPU 上才會(huì)暴露——因?yàn)橹挥挟?dāng)單卡能容納足夠大的體系時(shí),相關(guān)數(shù)據(jù)結(jié)構(gòu)的尺寸才會(huì)增長(zhǎng)到使 int 索引越界;而在顯存較小的 GPU 上,由于體系規(guī)模受限,往往無法觸發(fā)該邊界條件,因此問題長(zhǎng)期隱藏。

沐曦科學(xué)計(jì)算團(tuán)隊(duì)不僅協(xié)助 ABACUS 團(tuán)隊(duì)定位并修復(fù)了這一關(guān)鍵 Bug,從根本上消除了大體系計(jì)算中的穩(wěn)定性隱患,更充分發(fā)揮沐曦 GPGPU 大顯存(64 GB)容量?jī)?yōu)勢(shì)——單卡即可承載更大規(guī)模的體系,無需過早切分到多卡。這不僅顯著降低了對(duì)分布式內(nèi)存和通信的依賴,也讓用戶能在更穩(wěn)定、更經(jīng)濟(jì)的單機(jī)多卡配置下高效完成超大體系的第一性原理模擬。

3.2性能再提速:算子融合 + Batch FFT 優(yōu)化

在第一性原理計(jì)算中,傅里葉變換(FFT)是連接實(shí)空間與倒空間的核心操作,貫穿于電子密度構(gòu)建、勢(shì)能計(jì)算、波函數(shù)更新等多個(gè)關(guān)鍵步驟。尤其在平面波或數(shù)值原子軌道基組框架下,F(xiàn)FT 的調(diào)用頻次高、數(shù)據(jù)規(guī)模大,成為影響整體性能的重要瓶頸。為此,沐曦科學(xué)計(jì)算團(tuán)隊(duì)對(duì) ABACUS 中的 FFT 相關(guān)流程進(jìn)行了深度優(yōu)化:

引入 Batch FFT 與算子融合技術(shù):將 real_to_recip(實(shí)空間到倒空間)和 recip_to_real(倒空間到實(shí)空間)等關(guān)鍵路徑中的 FFT 運(yùn)算重構(gòu)為Batch FFT模式,將原本逐個(gè)執(zhí)行的多個(gè)小規(guī)模 FFT 合并為一次批量調(diào)用,顯著提升了 FFT 部分的計(jì)算吞吐與 GPU 利用率。同時(shí),針對(duì)這些流程中緊鄰 FFT 的其他計(jì)算操作(如數(shù)據(jù)重排,縮放等),沐曦科學(xué)計(jì)算團(tuán)隊(duì)實(shí)施了算子融合優(yōu)化,將多個(gè)小 kernel 合并為更高效的執(zhí)行單元。兩項(xiàng)優(yōu)化協(xié)同作用,共同推動(dòng) ABACUS 在 沐曦GPGPU 上的整體性能提升。

與此同時(shí),本征態(tài)求解是第一性原理計(jì)算的另一核心挑戰(zhàn),其算法選擇直接影響收斂速度與計(jì)算穩(wěn)定性。相較于傳統(tǒng)的共軛梯度(CG)方法,Davidson(DAV)算法往往展現(xiàn)出更優(yōu)的收斂行為。盡管 DAV 算法在實(shí)現(xiàn)上會(huì)占用更多顯存,但其在 GPU 上的并行潛力巨大。針對(duì)這一特點(diǎn),我們對(duì) DAV 模塊進(jìn)行了優(yōu)化:

Davidson 對(duì)角化算法全面 GPU 化:將原本運(yùn)行在 CPU 上的計(jì)算邏輯完整遷移至 GPU 端,結(jié)合內(nèi)存訪問優(yōu)化與自定義融合 kernel,高效實(shí)現(xiàn)了梯度計(jì)算、向量歸一化等操作。

減少 Host-Device 數(shù)據(jù)拷貝:關(guān)鍵數(shù)據(jù)全程常駐顯存,避免因 CPU 側(cè)輔助計(jì)算引發(fā)的冗余數(shù)據(jù)搬運(yùn),確保 GPU 計(jì)算單元持續(xù)滿載。

沐曦科學(xué)計(jì)算團(tuán)隊(duì)協(xié)同 ABACUS 社區(qū)修復(fù)多項(xiàng)關(guān)鍵問題,確保生產(chǎn)環(huán)境穩(wěn)定可靠:

修復(fù) USE_ELPA=OFF 且 BUILD_TESTING=ON 時(shí)的編譯錯(cuò)誤;

解決 Debug 模式下多 GPU 并行因設(shè)備上下文管理不當(dāng)導(dǎo)致的崩潰問題

——現(xiàn)在,調(diào)試與生產(chǎn)環(huán)境同樣穩(wěn)??!

4高效協(xié)作,源于優(yōu)秀的開源工程實(shí)踐

沐曦科學(xué)計(jì)算團(tuán)隊(duì)能夠高效、快速地向 ABACUS 貢獻(xiàn)上述優(yōu)化與修復(fù),離不開 ABACUS 項(xiàng)目本身卓越的軟件工程實(shí)踐。其代碼結(jié)構(gòu)清晰、模塊解耦良好,GPU 后端采用高度規(guī)范化的模板化設(shè)計(jì),接口定義明確,文檔完善,使得新功能集成與性能調(diào)優(yōu)工作得以順暢推進(jìn)。這種對(duì)開發(fā)者友好的架構(gòu),不僅大幅降低了硬件廠商參與適配的門檻,也為國(guó)產(chǎn)科學(xué)計(jì)算軟件的可持續(xù)演進(jìn)樹立了標(biāo)桿。正因如此,沐曦科學(xué)計(jì)算團(tuán)隊(duì)才能在短時(shí)間內(nèi)完成從性能分析、算法優(yōu)化到代碼提交的完整閉環(huán),并順利合入主干,真正實(shí)現(xiàn)“軟硬協(xié)同,快速迭代”。這不僅是一次適配與優(yōu)化,更是國(guó)產(chǎn) GPGPU 與國(guó)產(chǎn)軟件深度融合的縮影。

未來,沐曦將繼續(xù)攜手 ABACUS,共同推動(dòng) “國(guó)產(chǎn)軟件 + 國(guó)產(chǎn)硬件” 的科學(xué)計(jì)算新生態(tài),為 AI4Science 時(shí)代的突破性研究提供堅(jiān)實(shí)算力支撐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 科學(xué)計(jì)算
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    1205
  • GPGPU
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    5276
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    49

    瀏覽量

    1600

原文標(biāo)題:國(guó)產(chǎn)GPGPU × 國(guó)產(chǎn)軟件|沐曦?cái)y手 ABACUS,共筑國(guó)產(chǎn)科學(xué)計(jì)算新生態(tài)

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    首款全國(guó)產(chǎn)通用GPU芯片發(fā)布 集成推出云C600

    ,并支持MetaXLink超節(jié)點(diǎn)擴(kuò)展技術(shù),在硬件性能和軟件兼容上完全滿足下一代生成式AI的訓(xùn)練和推理需求。 而且,股份與中國(guó)科學(xué)院合作的國(guó)產(chǎn)千卡集群,已完成多個(gè)大模型全參數(shù)訓(xùn)練,證
    的頭像 發(fā)表于 10-19 20:04 ?5739次閱讀

    GPU與龍蜥操作系統(tǒng)完成適配

    集成電路(上海)股份有限公司(以下簡(jiǎn)稱"")于 2020 年 9 月成立于上海,其擁有技術(shù)完備、設(shè)計(jì)和產(chǎn)業(yè)化經(jīng)驗(yàn)豐富的團(tuán)隊(duì),曾主導(dǎo)過十多款世界主流高性能 GPU 產(chǎn)品研發(fā)
    的頭像 發(fā)表于 10-17 15:06 ?448次閱讀

    云C系列產(chǎn)品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國(guó)產(chǎn)GPU語言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國(guó)產(chǎn)高性能GPU的代表,云C系列產(chǎn)品已
    的頭像 發(fā)表于 10-14 09:25 ?227次閱讀
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云C系列產(chǎn)品已支持TileLang

    書生大模型實(shí)戰(zhàn)營(yíng)魔樂專場(chǎng)MeetUP精彩回顧

    近日,由書生大模型社區(qū)、、魔樂社區(qū)、算豐和 DaoCloud 道客等聯(lián)合打造的「書生大模型實(shí)戰(zhàn)營(yíng)魔樂專場(chǎng) MeetUP 暨頒獎(jiǎng)儀式」在上海漕河涇國(guó)際孵化中心圓滿落幕。
    的頭像 發(fā)表于 08-20 11:33 ?693次閱讀

    亮相2025世界人工智能大會(huì)

    近日,2025世界人工智能大會(huì)(WAIC)核心分論壇在上海世博中心盛大啟幕。集成電路(上海)股份有限公司(以下簡(jiǎn)稱“”)以“芯聚算力開芯局,源引AI共未來”為主題,聯(lián)合中國(guó)電
    的頭像 發(fā)表于 07-28 18:08 ?4249次閱讀

    硅基流動(dòng)攜手首發(fā)基于云的Kimi K2推理服務(wù)

    天網(wǎng)絡(luò)”)運(yùn)營(yíng)的云C550 三千卡通用 GPU 國(guó)產(chǎn)集群。此次合作標(biāo)志著硅基流動(dòng)正式將該國(guó)產(chǎn)集群納入算力網(wǎng)絡(luò),進(jìn)一步為大模型產(chǎn)業(yè)落地提
    的頭像 發(fā)表于 07-23 17:33 ?1397次閱讀

    飛騰國(guó)產(chǎn)主板 驅(qū)動(dòng)工業(yè)創(chuàng)新發(fā)展的強(qiáng)勁引擎

    在當(dāng)今工業(yè)領(lǐng)域快速邁向智能化、自動(dòng)化的進(jìn)程中,核心硬件的性能與可靠性起著決定性作用。國(guó)產(chǎn)主板GM- P251F由高能計(jì)算機(jī)匠心打造,猶如一顆璀璨的新星,憑借其卓越的性能、出色的穩(wěn)定性以及豐富的擴(kuò)展性,成為驅(qū)動(dòng)工業(yè)創(chuàng)新發(fā)展的強(qiáng)大引
    的頭像 發(fā)表于 05-28 08:59 ?252次閱讀

    PaddleScience完成與AI芯片適配

    當(dāng)前,PaddleScience已與展開深度合作,涵蓋智能仿真、高性能計(jì)算、科學(xué)建模等多個(gè)方向。這一趨勢(shì)正加速形成面向"Al for Science"的
    的頭像 發(fā)表于 05-06 14:49 ?1132次閱讀

    云C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測(cè)試

    近日,云C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測(cè)試。測(cè)試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是
    的頭像 發(fā)表于 03-31 14:22 ?1261次閱讀

    國(guó)產(chǎn)飛騰主板,是科技創(chuàng)新發(fā)展的堅(jiān)實(shí)后盾力量

    科技創(chuàng)新發(fā)展到現(xiàn)在已經(jīng)形成了完整的工業(yè)體系,各種各樣的產(chǎn)業(yè)隨之發(fā)起起來,加速了科技生活的發(fā)展。而一個(gè)完整的工業(yè)體系同樣離不開國(guó)產(chǎn)主板的支持,而國(guó)產(chǎn)飛騰主板以其各種各樣的功能特性以及對(duì)惡
    的頭像 發(fā)表于 02-20 11:18 ?567次閱讀

    Gitee AI 聯(lián)合首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個(gè)較小尺寸的 DeepSeek 模型。值得關(guān)注的是, 本次上線的四個(gè)模型均部署在國(guó)產(chǎn)
    的頭像 發(fā)表于 02-10 09:56 ?999次閱讀
    Gitee AI 聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    澎峰科技與完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對(duì)PerfXLM推理引擎、PerfXCloud大模型服務(wù)平臺(tái)與云系列通用
    的頭像 發(fā)表于 01-21 15:20 ?882次閱讀

    澎峰科技計(jì)算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對(duì)PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺(tái))與云系列通用
    的頭像 發(fā)表于 01-21 09:51 ?1006次閱讀

    飛騰國(guó)產(chǎn)4U上架式工控機(jī),成為工業(yè)化創(chuàng)新發(fā)展的新力量

    在當(dāng)今工業(yè)領(lǐng)域快速發(fā)展、不斷追求創(chuàng)新變革的大背景下,國(guó)產(chǎn) 4U 上架式工控機(jī) ,已然成為推動(dòng)新型工業(yè)化創(chuàng)新發(fā)展的重要硬件之一。
    的頭像 發(fā)表于 12-25 17:10 ?734次閱讀

    CLAN(科蘭)出席首屆科學(xué)實(shí)驗(yàn)室電氣技術(shù)創(chuàng)新發(fā)展論壇

    2024年11月15日,首屆科學(xué)實(shí)驗(yàn)室電氣技術(shù)創(chuàng)新發(fā)展論壇在北京成功舉辦。此次論壇由北京工程勘察設(shè)計(jì)協(xié)會(huì)電氣與智能化分會(huì)攜手多家單位共同策劃和組織,旨在探討科學(xué)實(shí)驗(yàn)室電氣技術(shù)的創(chuàng)新路徑
    的頭像 發(fā)表于 11-20 09:36 ?580次閱讀