近日,在OpenAI發(fā)布GPT-5模型14天后,深度求索的新模型版本DeepSeek-V3.1正式發(fā)布。
深度求索正式發(fā)布DeepSeek-V3.1后,稱其為“邁向Agent時代的第一步”。 DeepSeek-V3.1具有更智能的工具調(diào)用能力,可以支持多種Code Agent框架,開發(fā)者可以自己搭建智能體。
2025年開啟了AI Agent新紀(jì)元。各大模型公司紛紛在AI Agent戰(zhàn)場發(fā)力: 今年7月,月之暗面發(fā)布的Kimi K2邁出了智能體化的一步,可幫助用戶直接制定旅行計劃并預(yù)訂機(jī)票和酒店;智譜AI在7月28日發(fā)布的GLM-4.5系列,也定位為 "Agent原生基礎(chǔ)模型",并于8月20日發(fā)布了全球首個手機(jī)Agent AutoGLM2.0,可幫助用戶Agent代理操作,具備推理、代碼與多模態(tài)的全能能力,例如可一鍵訂票、訂咖啡等。
從行業(yè)應(yīng)用角度,AI Agent在電商、醫(yī)療和安全等多個領(lǐng)域已經(jīng)有深度落地案例;在企業(yè)內(nèi)部,AI Agent能夠促進(jìn)研發(fā)、營銷、銷售和客戶服務(wù)等多部門和工種的效率提升。根據(jù)Grand View Reasearch數(shù)據(jù),全球AI Agent市場于2023年規(guī)模已達(dá)38.6億美元,預(yù)計從2024~2030年將以CAGR 45.1%快速增長,2030年市場規(guī)模有望突破503億美元。
根據(jù)Open AI和Deepseek等廠商的大模型版本推出節(jié)奏,未來國產(chǎn)大模型的競爭或?qū)@AI Agent等場景落地而展開。
AI Agent:基于大模型的人工智能代理
在AI演進(jìn)的道路上,目前正處于向Agents進(jìn)化的階段。
2024年OpenAI開發(fā)者日(Dev Day)上, Sam Altman提出了一個關(guān)于通用人工智能(AGI)的五層框架理論,將AGI的發(fā)展分為五個階段,逐一代表更高級的能力水平,分別為:
L1聊天機(jī)器人(Chatbots),具有對話能力的AI;
L2推理者(Reasoners),能夠在人類層面解決問題的AI;
L3智能體(Agents),能思考并可以采取行動的AI系統(tǒng);
L4創(chuàng)新者 (Innovators),能夠協(xié)助發(fā)明創(chuàng)造的AI;
L5組織者(Organizations),可以完成組織工作的AI。
目前,AI正從L2(推理者)向L3(智能體) 發(fā)展,根據(jù)Open AI前研究員預(yù)測,五級AGI最快將在27年實(shí)現(xiàn)。
(圖源:Kore.ai, COBUS GREYLING)
AI Agent在當(dāng)下有著非常廣闊的市場空間,并在全球范圍內(nèi)高速增長,重塑了各行業(yè)的運(yùn)營模式和客戶交互體驗(yàn)。
與遵循基本“請求和響應(yīng)”框架的傳統(tǒng)生成式AI不同,AI Agent是智能體,能感知環(huán)境、決策并行動,而非單純響應(yīng)刺激。大模型依賴用戶prompt的清晰度,而AI Agent能獨(dú)立思考、調(diào)用工具完成任務(wù),還能編排資源,與其他Agents協(xié)作,并使用各種工具,如LLM、RAG、向量數(shù)據(jù)庫、API以及Python等高級編程語言。
從傳統(tǒng)AI,進(jìn)一步到AI Agent,再到系統(tǒng)化的Agentic AI,這是一場范式轉(zhuǎn)移,核心是自主性(Autonomy) 和通用性(Generality) 的階梯式提升,也佐證了我們在通往AGI的路上始終在不斷深挖探索。但這樣的演進(jìn)路線絕非單一技術(shù)的線性發(fā)展,而需要架構(gòu)、算法、硬件和應(yīng)用場景的協(xié)同進(jìn)化。
AI Agent的技術(shù)特性
驅(qū)動Scale Up需求升級
隨著AI的飛速發(fā)展,DeepSeek等開源模型不斷涌現(xiàn),大大降低了技術(shù)應(yīng)用門檻,也推動了“AI平權(quán)”進(jìn)程。但與之同時,大模型參數(shù)量已突破萬億級別,這一規(guī)模的急劇擴(kuò)張帶來了前所未有的算力挑戰(zhàn)。
大模型向更大規(guī)模和更長上下文演進(jìn)的發(fā)展趨勢,導(dǎo)致推理時KV Cache需求急劇增長,已遠(yuǎn)超當(dāng)前單顆AI芯片乃至主流多卡服務(wù)器的承載極限。
同時,Agentic AI具備自主決策、連續(xù)任務(wù)執(zhí)行、多模態(tài)交互等核心能力,多Agent系統(tǒng)的推理過程需要生成比傳統(tǒng)模型多100倍的Token。此外,AI Agent中的大模型輸出往往是下一步的輸入,要求推理速度越快越好,當(dāng)前主流大模型API普遍擁有50-100 Tokens/s的推理速度,這對顯存帶寬提出了更高的要求。
面對單點(diǎn)算力、顯存的天花板,構(gòu)建大規(guī)模Scale Up系統(tǒng),通過并行計算技術(shù)(如專家并行EP、張量并行TP)將模型權(quán)重與KV Cache拆分到多個AI芯片上協(xié)同工作,已成為支持萬億參數(shù)模型推理挑戰(zhàn)的關(guān)鍵路徑。
此外,AI Agent的自主決策、多輪交互、環(huán)境感知等核心能力發(fā)展,也隨之對目前的算力架構(gòu)提出新挑戰(zhàn):
1實(shí)時決策鏈?zhǔn)揭蕾?/p>
Agent的“感知-規(guī)劃-執(zhí)行”閉環(huán)需毫秒級響應(yīng),但長任務(wù)序列導(dǎo)致KV Cache指數(shù)級增長(如100輪對話的Cache達(dá)GB級),遠(yuǎn)超單卡顯存容量。Scale Up通過超節(jié)點(diǎn)構(gòu)建統(tǒng)一顯存池承載大規(guī)模狀態(tài)數(shù)據(jù)。
2記憶與狀態(tài)同步需求
Agent的長期記憶(LTM)需跨會話持久化,而工作記憶(WM)需在邊-云間同步。Scale Up架構(gòu)的內(nèi)存語義互聯(lián)(如華為UB總線延遲200ns)比傳統(tǒng)TCP/IP(ms級)更適合高頻狀態(tài)更新。
3多智能體協(xié)作瓶頸
多Agent協(xié)作(如游戲NPC集群)需實(shí)時交換策略參數(shù)。NVLink 5.0的超節(jié)點(diǎn)內(nèi)1.8TB/s帶寬支持千級Agent參數(shù)同步,而傳統(tǒng)Scale Out易因網(wǎng)絡(luò)抖動導(dǎo)致策略失準(zhǔn)。
可以說,AI Agent,尤其是多智能體系統(tǒng)Agentic AI的持續(xù)運(yùn)行和復(fù)雜推理,對底層算力基礎(chǔ)設(shè)施(如集群的性能、網(wǎng)絡(luò)互聯(lián)、大容量低延遲存儲)提出了極高要求。算力成本和能源消耗依然是規(guī)?;渴鹦杩紤]的因素,推動著芯片架構(gòu)、模型壓縮和推理優(yōu)化等技術(shù)的創(chuàng)新。
AI Agent正在扛起云端協(xié)同大旗
云邊端協(xié)同重構(gòu)互聯(lián)范式
AI Agent不僅將在云端基礎(chǔ)大模型中扮演重要角色,也是AI端側(cè)落地的重要一環(huán)。
2024年12月,智譜的GLM-4V模型和騰訊的混元大模型均與高通展開深度合作,基于芯片優(yōu)化的角度將端側(cè)多模態(tài)交互能力和終端側(cè)部署能力進(jìn)行提升。不難發(fā)現(xiàn),一些硬件廠商紛紛集體加入大模型賽道,探索AI Agent能賦予用戶的更多可能。
預(yù)計端側(cè)應(yīng)用在未來很長一段時間都將是端側(cè)+云端搭配使用,考慮到AI Agent需要規(guī)劃+多次調(diào)用大模型,端側(cè)AI還會帶來大量的云端推理算力增量從而推動云端推理集群的建設(shè)。
這一趨勢對數(shù)據(jù)通路提出了前所未有的苛刻要求:極高的吞吐以應(yīng)對海量交互數(shù)據(jù),極低的延時以確保Agent決策鏈路的實(shí)時性與流暢性。因此,現(xiàn)有高性能、低延時組網(wǎng)方案的選型與優(yōu)化,不再僅是基礎(chǔ)設(shè)施的配套,而已成為決定AI Agent體驗(yàn)成敗與規(guī)?;尚行缘暮诵钠款i。
對于AI發(fā)展和目前AI Agent應(yīng)用的熱潮,國內(nèi)外各家廠商也針對性地端出了不同的高性能低時延組網(wǎng)方案。
在超節(jié)點(diǎn)組網(wǎng)技術(shù)的演進(jìn)中,無論是致力于單節(jié)點(diǎn)內(nèi)超高密度集成的架構(gòu)方案,還是依托光互連技術(shù)以實(shí)現(xiàn)能效優(yōu)化與延遲收斂的組網(wǎng)策略;無論是采用專用硬件與私有協(xié)議構(gòu)建閉環(huán)生態(tài),還是積極融入開放標(biāo)準(zhǔn)并引入光互連等新興技術(shù)——盡管在具體實(shí)現(xiàn)路徑上存在差異,但其演進(jìn)脈絡(luò)均清晰指向同一方向:超節(jié)點(diǎn)組網(wǎng)技術(shù)正朝著高性能、低延遲、可擴(kuò)展的目標(biāo)加速迭代與發(fā)展。
英偉達(dá):DGX SuperPOD - GB200
NVL72(NVLink+ RDMA)
作為Nvidia DGX SuperPOD的代表案例,GB200 NVL72 SuperNode將36個 Grace CPU和72個Blackwell GPU集成到一個液冷機(jī)柜中,采用“GPU-GPU NVLink ScaleUp + Node-Node RDMA ScaleOut”的互聯(lián)方式。
其中Scale Up網(wǎng)絡(luò)方面,NVL72內(nèi)部采用NVLink 5和NVSwitch構(gòu)建,提供極高的帶寬(每個Compute Tray含2個GB200,通過NVLink/NVSwitch具備7.2TB/s的Scale Up連接帶寬,整機(jī)柜Compute Tray提供帶寬高達(dá)129.6TB/s)和超低時延(銅電纜連接節(jié)省了光模塊引入的時延)。NVL72整機(jī)柜具有超大內(nèi)存空間,支持高達(dá)13.5TB的HBM和17TB的LPDDR5X內(nèi)存容量。NVL72利用NVLink和NVLink C2C,所有GPU都可以訪問整個超節(jié)點(diǎn)其他GPU的HBM和Grace CPU的DDR,實(shí)現(xiàn)基于內(nèi)存語義的統(tǒng)一內(nèi)存空間。
未來,英偉達(dá)的Rubin架構(gòu)將升級到NVLink 6.0和7.0,進(jìn)一步提升帶寬密度、降低延遲,并優(yōu)化互連拓?fù)涞撵`活性。
Google:基于私有ICI協(xié)議 3D Torus拓?fù)?/span>
Google的Scale UP組網(wǎng)采用私有ICI協(xié)議,機(jī)柜內(nèi)部采用DAC,機(jī)柜之間運(yùn)用OCS光交換技術(shù)。ICI協(xié)議被設(shè)計為可編程的,以便軟件能夠應(yīng)對具有可重構(gòu)性和彈性的運(yùn)行復(fù)雜性。
以Google TPU v4 pod為例,一個TPU v4 pod就是一個ICI域,在該域中,任意一對TPU都能相互進(jìn)行RDMA。TPU v4的拓?fù)浣Y(jié)構(gòu)為一個3D Torus環(huán)面,由4×4×4的TPU v4芯片互連而成,形成類似立方體的結(jié)構(gòu)。一個機(jī)架中容納64顆TPU v4芯片及16臺CPU主機(jī),機(jī)柜內(nèi)的兩個TPU v4托盤通過DAC連接。隨后,用OCS光交換機(jī)將64個這樣的立方體結(jié)構(gòu)連接起來,組成一個包含4096個TPU的V4超級計算機(jī)。
(圖源:Google)
谷歌已將超100,000個TPU v6 Trillium連接到一個網(wǎng)絡(luò)結(jié)構(gòu)中,構(gòu)建了世界上最強(qiáng)大的AI超級計算機(jī)之一。該系統(tǒng)將超過100,000個TPU v6 Trillium與每秒13 PB帶寬的Jupiter網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,使單個分布式訓(xùn)練作業(yè)能夠擴(kuò)展到數(shù)十萬個加速器上。這種大規(guī)模芯片集群可以提供強(qiáng)大的計算能力,實(shí)現(xiàn)高效的并行計算,從而加速大模型的訓(xùn)練過程,提高AI系統(tǒng)的性能和效率。目前Google最新的第七代TPU Ironwood已于今年4月正式推出,這是為支持新一代人工智能模型的需求,Google專門為推理(inference)任務(wù)設(shè)計的TPU。(更多閱讀:Kiwi Talks | 軟硬協(xié)同,全棧制勝——谷歌如何成為AI領(lǐng)先綜合玩家)
阿里云:HPN7.0 新型智算網(wǎng)絡(luò)
阿里云HPN7.0面向AI大模型訓(xùn)練場景設(shè)計,通過創(chuàng)新的拓?fù)湓O(shè)計、多路徑冗余和自研通信技術(shù),解決萬卡級GPU集群的高性能、高穩(wěn)定性及可擴(kuò)展性挑戰(zhàn)。
架構(gòu)方面,HPN7.0采用“雙上聯(lián)+多軌+雙平面”設(shè)計,以確保網(wǎng)絡(luò)在超高負(fù)載下仍保持高效、穩(wěn)定運(yùn)行,滿足AI大模型對計算資源的高需求。技術(shù)方面,HPN7.0采用基于RDMA的Solar-RDMA協(xié)議,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速傳輸和高效處理,提供高精度擁塞控制算法,結(jié)合網(wǎng)絡(luò)負(fù)載的動態(tài)感知,能夠?qū)崿F(xiàn)對數(shù)據(jù)流級別的精細(xì)控制;使用專門面向AI計算場景設(shè)計的ACCL通信庫,能顯著提升計算的效率和穩(wěn)定性,為大模型提供穩(wěn)定可靠的網(wǎng)絡(luò)通信支持。
(圖源:阿里云)
阿里云HPN7.0高性能網(wǎng)絡(luò)集群于2023年9月大規(guī)模部署,通義千問2.5版本基于該集群訓(xùn)練而成。目前阿里云已推出了采用全自研軟硬件系統(tǒng)的下一代訓(xùn)推一體網(wǎng)絡(luò)融合架構(gòu)HPN8.0。
華為:Cloud Matrix 384系統(tǒng)
華為Cloud Matrix 384系統(tǒng)創(chuàng)新性地提出了對等計算架構(gòu),將總線從服務(wù)器內(nèi)部擴(kuò)展到整機(jī)柜甚至跨機(jī)柜。該系統(tǒng)將總計384顆昇騰910C芯片分布在16個機(jī)架上,其中12個計算機(jī)架各部署32顆昇騰910C,通過全連接拓?fù)浣Y(jié)構(gòu)互聯(lián),另外4個機(jī)架用于安裝Scale up交換機(jī)。Cloud Matrix 384通過超高速低延遲的統(tǒng)一總線(UB)網(wǎng)絡(luò)實(shí)現(xiàn)互連,能夠?qū)τ嬎?、?nèi)存和網(wǎng)絡(luò)資源進(jìn)行動態(tài)池化與統(tǒng)一訪問。
為了構(gòu)建超大規(guī)模算力集群,華為采用跨多機(jī)架的Scale Up方案,因而選擇光互連方式來實(shí)現(xiàn)橫向擴(kuò)展。每個Cloud Matrix 384 Pod共配置6912個400G光模塊/收發(fā)器,其中5,376個用于Scale Up網(wǎng)絡(luò),1,536個用于Scale Out網(wǎng)絡(luò)。Cloud Matrix 384的Scale Up帶寬高達(dá)269TB/s,因物理距離限制,采用400G低功耗光模塊(LPO),省略了傳統(tǒng)DSP芯片以降低功耗和時延。
(圖源:華為)
從以上國內(nèi)外廠家不同的組網(wǎng)方式可以看到,AI Agent是“大腦”,決定了任務(wù)的復(fù)雜度;端云算力是“肌肉”,負(fù)責(zé)執(zhí)行任務(wù);而高性能網(wǎng)絡(luò)則是“神經(jīng)系統(tǒng)”,負(fù)責(zé)在“大腦”和“肌肉”之間進(jìn)行高速、精準(zhǔn)的信號傳導(dǎo)。不同廠家針對自身的產(chǎn)品組合以及技術(shù)優(yōu)勢,對自身的Scale Up超節(jié)點(diǎn)系統(tǒng)做出了高性能定制化的設(shè)計。
奇異摩爾構(gòu)筑了基于高性能RDMA、網(wǎng)絡(luò)控制和芯粒的全棧互聯(lián)產(chǎn)品解決方案。Scale Out側(cè)的高性能AI原生超級網(wǎng)卡Kiwi SNIC,實(shí)現(xiàn)超高RDMA性能、復(fù)雜網(wǎng)絡(luò)控制;Scale Up側(cè)的Kiwi G2G IOD互聯(lián)芯粒方案,是國內(nèi)少有的開源&通用化超節(jié)點(diǎn)互聯(lián)方案,支持內(nèi)存語義/消息語義,實(shí)現(xiàn)G2G芯粒和xPU間互聯(lián)互通。
展望未來,AI Agent的演進(jìn)正在倒逼網(wǎng)絡(luò)技術(shù)朝“確定性地高性能”方向演進(jìn),基于高速通信、超大帶寬、RDMA無損網(wǎng)絡(luò)等強(qiáng)勁性能指標(biāo)不再是針對超大規(guī)模企業(yè)的可選奢侈方案,而是蛻變?yōu)橥ㄓ肁I的基座級剛需。
云側(cè)模型憑借其高算力密度持續(xù)保持領(lǐng)先,而端側(cè)AI則憑借獨(dú)立性與即時性形成了差異化的競爭優(yōu)勢。展望下一階段,云端協(xié)同模型將通過高質(zhì)量數(shù)據(jù)訓(xùn)練飛輪與隱私計算框架的深度融合,推動用戶體驗(yàn)邁向新的高峰。然而在當(dāng)下,AI Agent的落地應(yīng)用仍高度依賴于國內(nèi)外AI網(wǎng)絡(luò)產(chǎn)業(yè)全?!ㄔ茝S商、運(yùn)營商、AI芯片、交換機(jī)及服務(wù)器等企業(yè)——在Scale Up方向上持續(xù)突破極限、不斷加壓發(fā)力。
關(guān)于我們
AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯(lián)的嚴(yán)苛需求。我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale-out網(wǎng)絡(luò)的AI原生超級網(wǎng)卡、面向南向Scale-up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計算提供了堅實(shí)的支撐。
-
AI
+關(guān)注
關(guān)注
88文章
37117瀏覽量
291158 -
Agent
+關(guān)注
關(guān)注
0文章
154瀏覽量
28414 -
大模型
+關(guān)注
關(guān)注
2文章
3356瀏覽量
4774 -
DeepSeek
+關(guān)注
關(guān)注
2文章
821瀏覽量
2643
原文標(biāo)題:KiwiTalks | AI Agent驅(qū)動云邊端協(xié)同重構(gòu)互聯(lián)范式
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論