最近具身智能這個(gè)概念很火。那么,究竟什么是具身智能?它包括哪些類別和關(guān)鍵技術(shù)?
通過這篇文章,我們來深入了解一下。
什么是具身智能
“智能”,大家都懂,也就是AI。那么,什么是“具身”?
“具身”是一個(gè)很小眾的名詞,通常都出現(xiàn)在哲學(xué)、認(rèn)知科學(xué)領(lǐng)域。它的英文叫Embodied,是embody的過去式和過去分詞。
em-表示“進(jìn)入,使……”,-body表示“身體”。組合起來,就是“使……進(jìn)入身體”。
Embodied Intelligence(具身智能),顧名思義,就是“使智能進(jìn)入身體”、“給智能一個(gè)身體”的意思。
那么,具身智能,是不是就是“AI+身體”呢?
這樣說并不準(zhǔn)確。
根據(jù)業(yè)界的普遍共識(shí)——具身智能,除了物理身體之外,更關(guān)鍵的是在于能夠“與環(huán)境進(jìn)行交互,在交互中不斷調(diào)整優(yōu)化”。
也就是說,具身智能是一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng)。它通過實(shí)體智能體與環(huán)境的交互,獲取信息、理解問題、做出決策,并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。
本體、智能、環(huán)境,被稱為具身智能的三要素。AI領(lǐng)域著名大佬李飛飛也曾明確指出:“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?!?/p>
舉個(gè)例子來解釋一下:
我們通過手機(jī)和電腦使用的大模型(例如ChatGPT和DeepSeek)或虛擬智能體(AI Agent),擅長處理文字、圖片、視頻等數(shù)據(jù),能與我們進(jìn)行交流并輸出信息,功能非常強(qiáng)大。然而,手機(jī)和電腦的感知能力很弱,行動(dòng)能力幾乎為零。所以,無法與環(huán)境進(jìn)行交互。
這種智能,就不是具身智能,而是離身智能(Disembodied Intelligence,智能和身體分離、解耦)。
我們打造一個(gè)實(shí)體機(jī)器身體,在上面部署了AI大腦。如果,只有感知能力(有攝像頭、傳感器等),沒有行動(dòng)能力(沒有手、腳、輪子等),或者,只有行動(dòng)能力,沒有感知能力。那么,它也不屬于具身智能。
只有同時(shí)具備了AI大腦,以及有感知能力、行動(dòng)能力的身體,能夠和外部環(huán)境進(jìn)行實(shí)時(shí)互動(dòng),才是真正的具身智能。
具身智能的發(fā)展歷程
具身智能并不是一個(gè)新概念。它的起源,可以追溯到1950年。
那一年,著名科學(xué)家艾倫?圖靈發(fā)表了經(jīng)典的《計(jì)算機(jī)器與智能》一文,標(biāo)志著人工智能理論的奠基。在這篇論文的最后兩個(gè)段落里,圖靈展望了人工智能未來可能的兩種發(fā)展途徑。一種是比較抽象的、像下棋所需的智能,一種則是擁有最好的感官、能學(xué)習(xí)甚至能說英語的智能。
沒錯(cuò),這兩種智能,分別就是離身智能和具身智能。
在那之后,人工智能經(jīng)歷了非常波折的發(fā)展階段。受限于當(dāng)時(shí)的科技發(fā)展水平,人工智能的主要研究方向,還是以離身智能為主。
至于身體(機(jī)器人),當(dāng)時(shí)完全是一條獨(dú)立的技術(shù)路線,沒有什么智能可言,行動(dòng)能力很弱,感知能力更弱。
1986年,美國計(jì)算機(jī)科學(xué)家羅德尼?布魯克斯提出了一種全新的智能理念。他認(rèn)為,智能不一定要依賴于復(fù)雜的符號(hào)表征和推理,智能體可以通過與環(huán)境進(jìn)行直接的物理交互,以一種更加簡單、有效的方式產(chǎn)生智能行為。
羅德尼?布魯克斯的理論,給具身智能的發(fā)展提供了重要的理論支撐。后來,他也開發(fā)了一系列機(jī)器人,能夠在復(fù)雜的環(huán)境中自主導(dǎo)航和行動(dòng),展示了具身智能的可行性和潛力。
羅德尼?布魯克斯因此被譽(yù)為“具身智能之父”。
具身智能真正爆發(fā),是進(jìn)入21世紀(jì)之后。
隨著信息技術(shù)、電子技術(shù)、傳感器技術(shù)以及機(jī)械技術(shù)的高速發(fā)展,發(fā)展具身智能所需的基礎(chǔ)條件逐漸成熟。
一方面,AI浪潮爆發(fā),出現(xiàn)了功能強(qiáng)大的大模型和智能體,能夠?qū)Υ罅康母兄獢?shù)據(jù)進(jìn)行高效學(xué)習(xí)和處理。
大家都知道AI現(xiàn)在越來越強(qiáng),但想要將AI能力真正用起來,就必須讓它在物理世界落地。這肯定需要一個(gè)物理載體。
另一方面,傳統(tǒng)的自動(dòng)化機(jī)械,只能完成死板的程序指令,大大限制了它的應(yīng)用場景。
引入強(qiáng)大的AGI(通用人工智能)大腦,能夠提升泛化能力,讓機(jī)器變得真正聰明,擴(kuò)大應(yīng)用場景和范圍。
所以說,具身智能是AI發(fā)展到一定階段的產(chǎn)物,是一種新的AI范式。
2023年,英偉達(dá)創(chuàng)始人兼CEO黃仁勛表示,人工智能發(fā)展的下一個(gè)浪潮是具身智能,是能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。這一觀點(diǎn)迅速引起了全世界對(duì)于具身智能的關(guān)注。
2024年,工信部印發(fā)《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》,提出要推動(dòng)人形機(jī)器人產(chǎn)業(yè)高質(zhì)量發(fā)展。2025年,具身智能更是被寫進(jìn)了政府工作報(bào)告,提出要“培育具身智能產(chǎn)業(yè)”和“大力發(fā)展智能機(jī)器人”。
在政策與資本的雙重驅(qū)動(dòng)下,具身智能就開始全面爆發(fā)了。
今年以來,從年初的春晚機(jī)器人扭秧歌,到4月份的機(jī)器人馬拉松,再到前不久的WAIC(世界人工智能大會(huì))、WRC(世界機(jī)器人大會(huì))和世界機(jī)器人運(yùn)動(dòng)會(huì)。我們看到各種各樣的機(jī)器人刷屏網(wǎng)絡(luò)和社交媒體,掀起了一股前所未有的“具身智能”熱。
業(yè)界普遍認(rèn)為,具身智能有望成為繼PC、智能手機(jī)、新能源汽車之后的下一個(gè)典型智能終端,帶來顛覆性的產(chǎn)業(yè)升級(jí)機(jī)會(huì)。
█具身智能包括哪些類別?
具身智能的類別非常多。從功能上,可以分為工業(yè)機(jī)器人、服務(wù)機(jī)器人、特種機(jī)器人等。從形態(tài)上,又可以分為人形機(jī)器人、輪式機(jī)器人、多足機(jī)器人等。
我們來看看這幾種常見的形態(tài)類別:
●人形機(jī)器人
人形機(jī)器人是目前最常見,也最引人矚目的類別。
之所以很多具身智能廠商都喜歡研發(fā)人形機(jī)器人,并不是單純因?yàn)樗犰?,而是因?yàn)樗耐ㄓ眯院軓?qiáng)。
人形機(jī)器人因?yàn)橛蓄愃迫祟惖纳眢w結(jié)構(gòu),可以更方便地使用門把手、樓梯、工具等設(shè)施,也能夠適應(yīng)人類工作場景。
人形機(jī)器人在交互上也有天然優(yōu)勢(shì)。它們可以通過表情、動(dòng)作與人類交流,比如點(diǎn)頭、揮手,甚至模仿人類的情緒,更容易被用戶接納。
目前,有很多廠商正在研發(fā)人形機(jī)器人,用于家庭服務(wù)、醫(yī)療護(hù)理、工業(yè)生產(chǎn)、物流分揀、零售服務(wù)等場景。
各種各樣的機(jī)器人體育競賽,例如機(jī)器人拳擊、賽跑、足球,也是以人形機(jī)器人為主,非??简?yàn)產(chǎn)品和團(tuán)隊(duì)的技術(shù)水平。
●輪式機(jī)器人
輪式機(jī)器人主要依靠輪子進(jìn)行移動(dòng),常見于倉儲(chǔ)物流、巡檢安防等領(lǐng)域。
為了方便工作,制造廠商往往會(huì)開發(fā)那種“下面是輪子,上面是手臂”的輪式機(jī)器人,也叫做輪臂機(jī)器人。
輪式機(jī)器人的優(yōu)點(diǎn)主要是移動(dòng)速度較快,能夠快速穿梭在倉庫或工廠中,完成貨物的搬運(yùn)、分揀等工作。它們具備較好的環(huán)境感知能力,能夠在復(fù)雜環(huán)境中自主導(dǎo)航和避障。
●多足機(jī)器人
比較常見的機(jī)器狗,其實(shí)就屬于多足機(jī)器人(四足機(jī)器人)。
多足機(jī)器人模仿了昆蟲或爬行動(dòng)物的行走方式,具備較強(qiáng)的地形適應(yīng)能力,靈活性和穩(wěn)定性更強(qiáng),可以在崎嶇不平的山路、廢墟等環(huán)境中自由行走,執(zhí)行勘探、救援等任務(wù)。
像機(jī)器狗這樣的四足機(jī)器人,也適合扮演AI寵物這樣的角色,用于家庭服務(wù)或特殊人群服務(wù)(導(dǎo)盲)場景。
●智能汽車/無人機(jī)/無人船……
沒錯(cuò),智能汽車和無人機(jī)等設(shè)備,本質(zhì)上也屬于具身智能。
它們通過傳感器(攝像頭、雷達(dá)等)實(shí)時(shí)感知周圍環(huán)境,并利用AI算法進(jìn)行數(shù)據(jù)處理和分析,從而實(shí)現(xiàn)自動(dòng)駕駛、自主導(dǎo)航、自動(dòng)避障等功能,符合前面說的具身智能定義。
除了以上幾種常見類別外,具身智能還包括很多仿生形態(tài)。不同的形態(tài),會(huì)用于不同的使用場景。
具身智能的關(guān)鍵技術(shù)
業(yè)界現(xiàn)在經(jīng)常會(huì)將具身智能的技術(shù)體系分為環(huán)境感知模塊、運(yùn)動(dòng)控制模塊和人機(jī)交互模塊等多個(gè)模塊。從整體來看,也可以分為本體、大腦和小腦。
一個(gè)大致的結(jié)構(gòu)組成范例,如下圖所示:
我們來具體看看本體、大腦和小腦這三大核心部分:
●本體
本體,包括頭、軀干、四肢、關(guān)節(jié)、靈巧手等組成部分,本質(zhì)上就是機(jī)械結(jié)構(gòu)、傳感器、執(zhí)行器、驅(qū)動(dòng)與能源系統(tǒng)、通信系統(tǒng)等。
機(jī)械系統(tǒng)是本體的物理框架,決定了機(jī)器人的機(jī)械強(qiáng)度、運(yùn)動(dòng)能力和整體外觀。
傳感器負(fù)責(zé)獲取外部信息和自身狀態(tài)信息,包括外部傳感器和內(nèi)部傳感器,主要包括攝像頭、麥克風(fēng)、壓力傳感器、關(guān)節(jié)角度傳感器等。
驅(qū)動(dòng)和能源系統(tǒng)負(fù)責(zé)提供動(dòng)力,一般都采用電機(jī)、液壓等驅(qū)動(dòng)方式。能源則是鋰電池、燃料電池之類。
這塊的技術(shù)非常多,簡單羅列如下:
●大腦
大腦,負(fù)責(zé)感知、理解和規(guī)劃,主要通過大語言模型、視覺語言動(dòng)作(VLA)大模型來驅(qū)動(dòng)。
感知,是基于傳感器反饋的信息,實(shí)時(shí)監(jiān)測自身的位置、姿態(tài)、運(yùn)動(dòng)速度等狀態(tài),避免動(dòng)作失衡。這是一個(gè)多模態(tài)數(shù)據(jù)融合的過程,難度極大。
在感知的基礎(chǔ)上,再進(jìn)行決策。決策算法需要根據(jù)具身智能的結(jié)構(gòu)進(jìn)行設(shè)計(jì),常用的技術(shù)包括強(qiáng)化學(xué)習(xí)(讓智能體在交互中試錯(cuò)學(xué)習(xí))、模仿學(xué)習(xí)(模仿人類動(dòng)作)。
具身智能的算法方案也可以分為分層決策模型和端到端模型兩種路線。前者將任務(wù)分解成不同層級(jí),以多個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練,再以流程管線的方式組合。后者則只通過一個(gè)神經(jīng)網(wǎng)絡(luò),完成從任務(wù)目標(biāo)輸入到行為指令輸出的全過程。
大腦的本質(zhì)就是計(jì)算芯片和搭載的算法。因?yàn)閷?duì)算力的要求很高,有時(shí)候也會(huì)分為云端大腦和本地大腦兩個(gè)部分,協(xié)同完成計(jì)算任務(wù)。
●小腦
小腦,負(fù)責(zé)將決策轉(zhuǎn)化為具體動(dòng)作,也就是運(yùn)動(dòng)控制和動(dòng)作生成。
這些主要通過運(yùn)動(dòng)控制算法、反饋控制系統(tǒng)來實(shí)現(xiàn)。我們可以把小腦理解為是將大腦的一部分功能給獨(dú)立出來,減少大腦的工作負(fù)荷。
小腦的關(guān)鍵技術(shù)包括模型預(yù)測控制(MPC)、力控與柔順控制、實(shí)時(shí)響應(yīng)優(yōu)化等,技術(shù)實(shí)現(xiàn)難度同樣很大。
具身智能面臨的技術(shù)挑戰(zhàn)
具身智能目前的發(fā)展熱度很高,但它所面臨的挑戰(zhàn)也非常巨大。
首先,是技術(shù)方面的挑戰(zhàn)。
剛才,小棗君介紹了具身智能的一些關(guān)鍵技術(shù)。里面的很多細(xì)分領(lǐng)域,都有極高的實(shí)現(xiàn)難度。
例如,在傳感器方面,如何在復(fù)雜多變的環(huán)境中準(zhǔn)確地感知和理解外部信息,就是一個(gè)大難題。在光線變化、遮擋、噪聲等干擾因素存在的情況下,很難保證感知的準(zhǔn)確性和魯棒性。
再例如,在運(yùn)動(dòng)控制方面,涉及到力學(xué)、動(dòng)力學(xué)、控制理論等多個(gè)學(xué)科的知識(shí),是一個(gè)復(fù)雜而艱巨的任務(wù)。如何設(shè)計(jì)穩(wěn)定的運(yùn)動(dòng)控制算法,使具身智能能夠在各種場景下靈活、準(zhǔn)確地運(yùn)動(dòng),是實(shí)現(xiàn)具身智能應(yīng)用的關(guān)鍵。
我們經(jīng)常在網(wǎng)上看到有的機(jī)器人走路搖晃,步履蹣跚,甚至倒地不起、暴走,都說明產(chǎn)品在“感知-決策-執(zhí)行”環(huán)節(jié)仍然存在不少問題,背后還有很多的工作要做。
其次,是數(shù)據(jù)方面的挑戰(zhàn)。
AIGC需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練。具身智能也是一樣。
事實(shí)上,具身智能的真實(shí)環(huán)境數(shù)據(jù)獲取成本非常高昂,難以滿足廣泛、高質(zhì)量和多樣化的需求。
現(xiàn)在,除了基于真實(shí)環(huán)境的數(shù)據(jù)采集之外,業(yè)界也大量采用基于仿真世界的數(shù)據(jù)采集。也就是創(chuàng)造一個(gè)虛擬世界,在里面進(jìn)行場景建模,然后訓(xùn)練和學(xué)習(xí)。
這種方式的數(shù)據(jù)真實(shí)性雖然較差,但規(guī)模更大,成本也更低,適合起步階段使用。
第三,是安全方面的挑戰(zhàn)。
我們經(jīng)常會(huì)看到具身智能相關(guān)題材的電影。在有些電影中,具身智能也扮演了反派的角色,例如掌握了力量之后,開始反殺人類。
現(xiàn)在公眾對(duì)具身智能也同樣充滿顧慮。一方面,擔(dān)心它被壞人利用(被掌握控制權(quán)),竊取了我們的隱私。另一方面,也害怕它真的出現(xiàn)意識(shí)覺醒,危害人類生存。
沒有什么系統(tǒng)是絕對(duì)安全的。具身智能如果要規(guī)模普及,必須在安全上得到可靠保證。
第四,是資金和人才方面的挑戰(zhàn)。
這主要針對(duì)目前大量的具身智能創(chuàng)業(yè)企業(yè)。說白了,具身智能是一門燒錢的生意。技術(shù)研發(fā)需要長期的資金投入,需要招聘和維持高質(zhì)量研發(fā)團(tuán)隊(duì)。
現(xiàn)在行業(yè)熱度高,資本追捧,什么都好說。等到時(shí)間長了,技術(shù)遇到瓶頸,市場打不開局面,很多團(tuán)隊(duì)就會(huì)死掉,留下一地雞毛。
除了以上挑戰(zhàn)之外,具身智能在工具鏈、標(biāo)準(zhǔn)化、倫理道德、能源效率等各個(gè)方面,都面臨很多問題需要解決。這些問題都不是短時(shí)間內(nèi)可以搞定的,需要漫長的摸索和嘗試。所以,對(duì)于具身智能這個(gè)新興領(lǐng)域,切記不要頭腦發(fā)熱、盲目樂觀。
最后的話
好啦,以上就是關(guān)于具身智能的一些基本知識(shí)。大家都看明白了沒?
根據(jù)業(yè)界有關(guān)機(jī)構(gòu)的數(shù)據(jù),2023年,全球人工智能(AI)機(jī)器人市場規(guī)模達(dá)到143.0億美元,預(yù)計(jì)到2032年,將達(dá)到824.7億美元左右,復(fù)合年增長率為21.50%。
這是一個(gè)巨大的市場,充滿了機(jī)遇和挑戰(zhàn)。你是否打算躬身入局,去試一試呢?
參考文獻(xiàn):
1、《具身智能發(fā)展報(bào)告(2024)》,中國信通院;
2、《中國具身智能創(chuàng)投報(bào)告》,量子位智庫;
3、《人形機(jī)器人行業(yè)深度報(bào)告》,國元證券;
4、《具身智能,邁向廣闊藍(lán)海市場》,中泰證券;
5、百度百科、維基百科、廠商官網(wǎng)等。
文章來源于鮮棗課堂,作者小棗君
-
AI
+關(guān)注
關(guān)注
88文章
37138瀏覽量
291201 -
人工智能
+關(guān)注
關(guān)注
1812文章
49521瀏覽量
258919 -
具身智能
+關(guān)注
關(guān)注
0文章
218瀏覽量
729
發(fā)布評(píng)論請(qǐng)先 登錄
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+具身智能芯片

寫給小白們的FPGA入門設(shè)計(jì)實(shí)驗(yàn)
寫給小白們的FPGA入門設(shè)計(jì)實(shí)驗(yàn)

寫給小白的AI入門科普

廣和通榮登36氪具身智能創(chuàng)新應(yīng)用案例及2024年具身智能產(chǎn)業(yè)發(fā)展研究報(bào)告

廣和通榮登36氪具身智能創(chuàng)新應(yīng)用案例及《2024年具身智能產(chǎn)業(yè)發(fā)展研究報(bào)告》

評(píng)論