近期,人形機器人領(lǐng)域在全球范圍內(nèi)取得了多項進展。8月6日,F(xiàn)igure AI發(fā)布了第二代人形機器人Figure 02,通過與OpenAI合作訓練的定制AI模型,和借助機器人身上的機載麥克風與揚聲器,F(xiàn)igure 02已能與人類進行實時的語音與語音對話。8月5日消息,優(yōu)必選工業(yè)版人形機器人Walker S Lite“入職”極氪5G智慧工廠,這也是國內(nèi)首次全流程執(zhí)行料箱搬運任務的人形機器人,優(yōu)必選正加速推動人形機器人規(guī)?;瘧?。
人形機器人
據(jù)《人形機器人產(chǎn)業(yè)研究報告》預測,2024年中國人形機器人市場規(guī)模約27.6億元,到2035年規(guī)模有望達到3000億元。近日,中國電子學會理事長徐曉蘭表示:“在企業(yè)、政府、應用方等各方主體合力作用下,我國人形機器人產(chǎn)業(yè)正處于‘井噴前夜’”,我國人形機器人產(chǎn)業(yè)前景廣闊。如今,人形機器人到底應該具備哪些核心能力正在成為未來人形機器人產(chǎn)業(yè)發(fā)展的關(guān)鍵。
人形機器人發(fā)展核心是多場景泛化能力
在眾多關(guān)鍵技術(shù)中,多場景泛化能力無疑是推動人形機器人進步的核心驅(qū)動力。人形機器人通常具備擬人化的軀干、頭部、四肢以及相應的感知、驅(qū)動和控制系統(tǒng)。相較于傳統(tǒng)機器人的單一功能,通常只針對特定任務進行編程,缺乏靈活性和泛化能力,人形機器人能夠執(zhí)行多種任務并在不同場景下進行自主學習和適應。
從應用角度來看,具備泛化能力的人形機器人可以執(zhí)行多樣化的任務,從家庭服務到工業(yè)生產(chǎn),大大拓展了應用范圍,多場景泛化能力是滿足這些多樣化需求的關(guān)鍵;在不同工作環(huán)境中,泛化能力使機器人能更好地理解和配合人類,提高協(xié)作效率;此外,一臺能適應多種場景的機器人比多臺專用機器人更具成本效益,對于商業(yè)化推廣很重要。
多場景泛化能力首先體現(xiàn)在機器人對環(huán)境的感知和建模上。現(xiàn)實世界環(huán)境復雜多變,充滿了不確定性和動態(tài)變化,而復雜環(huán)境感知需要整合視覺、深度、觸覺、聽覺等多種傳感器數(shù)據(jù)、
快速構(gòu)建周圍環(huán)境的三維模型、進行語義理解,不僅感知物體的位置和形狀,還要理解其功能和意義。
其次是運動規(guī)劃與控制。多場景泛化能力能夠?qū)崟r調(diào)整運動軌跡,以應對移動的障礙物或突發(fā)情況;根據(jù)不同的地面條件進行自適應控制;以及在與環(huán)境交互時,精確控制力度,實現(xiàn)柔順操作。
第三是任務理解與執(zhí)行。多場景泛化能力能夠進行自然語言理解,理解人類描述的復雜任務指令;進行任務分解,將復雜任務分解為一系列基本動作;進行上下文推理,根據(jù)當前環(huán)境和任務背景做出合適的決策。
最后是學習與遷移能力。多場景泛化能力能將在一個領(lǐng)域?qū)W到的知識遷移到新的、相似的領(lǐng)域,并在執(zhí)行任務的過程中不斷優(yōu)化性能,提高學習效率。
人形機器人是AI大模型的重要應用場景
人形機器人的多場景泛化能力在很大程度上依賴于AI大模型,同時人形機器人也是AI大模型的重要應用場景。
日前,中國信息通信研究院人工智能所專家在8月初召開的“AI大模型應用場景”產(chǎn)學研融通創(chuàng)新活動——產(chǎn)業(yè)問題專家研討會上表示:“大模型雖然擁有強大的推理和計算能力,但缺乏實際應用,需要與智能體等結(jié)合,才能實現(xiàn)真正的產(chǎn)業(yè)賦能和改變使用場景”。談到最近很火的AI智能體,他說:“大模型必須和智能體或者其他的一些機器人結(jié)合,才能打通大模型落地的最后一公里”。
當前隨著AI智能體的快速發(fā)展,使人形機器人有望成為AI大模型應用落地的重要場景。
據(jù)不完全統(tǒng)計,截至目前,F(xiàn)igure AI、特斯拉、優(yōu)必選、銀河通用機器人、傅立葉智能、科大訊飛等企業(yè)人形機器人均已接入大模型技術(shù)。
3月,F(xiàn)igure公司首發(fā)了第一個OpenAI大模型加持的機器人,此后,F(xiàn)igure宣布與寶馬制造公司簽署商業(yè)協(xié)議,將AI和機器人技術(shù)整合到汽車生產(chǎn)中。4月,優(yōu)必選與百度官宣合作,其人形機器人Walker S已接入百度文心大模型。6月,銀河通用發(fā)布了首代泛化具身大模型機器人銀河通用G1,已具備超強泛化識別抓取及3D視覺導航能力。7月,優(yōu)必選與吉利和天奇股份達成戰(zhàn)略合作,工業(yè)版人形機器人Walker S Lite“入職”極氪工廠。
AI和機器人技術(shù)整合到汽車生產(chǎn)中
此外,AI大模型也在其他機器人領(lǐng)域廣泛應用。例如,擎朗智能與微軟Azure云服務合作,計劃將其基礎(chǔ)大模型能力接入到旗艦機型T10,科大訊飛的星火大模型已賦能400余家機器人企業(yè),覆蓋工業(yè)、公共服務、家庭等機器人類型。
人形機器人離不開AI大模型
AI大模型的能力正在成為提高人形機器人多場景泛化能力不可或缺的核心要素,尤其在以下幾個關(guān)鍵方面:
自然語言理解與生成
AI大模型在自然語言處理方面具有顯著的優(yōu)勢。它們能夠理解和生成復雜的自然語言文本,處理各種語義任務,如對話、問答、翻譯等。在人機交互中,特別是需要復雜指令理解和多輪對話的場景中,AI大模型的自然語言處理能力幾乎是不可或缺的,它們能夠顯著提升機器人與人類溝通的流暢性和智能化水平。
跨領(lǐng)域知識整合
AI大模型經(jīng)過大規(guī)模多領(lǐng)域數(shù)據(jù)訓練,能夠跨越不同領(lǐng)域的知識,并將這些知識整合應用到新的任務中,當機器人需要在未知環(huán)境中快速適應新任務時,AI大模型的這種跨領(lǐng)域整合能力可以提供關(guān)鍵支持,幫助機器人在多樣化的任務中表現(xiàn)出色。
復雜決策和推理
AI大模型在推理和復雜決策方面表現(xiàn)出色,特別是在非結(jié)構(gòu)化和多維度信息處理方面。例如,在需要理解復雜的文本或情景以做出合理決策時,AI大模型能夠表現(xiàn)出較強的推理能力。在涉及到高度復雜的決策任務時,AI大模型可以提供其他方法難以替代的深層次語義理解和決策支持能力。
大規(guī)模數(shù)據(jù)處理和生成
AI大模型能夠處理和生成大規(guī)模的數(shù)據(jù),這在某些需要大量數(shù)據(jù)輸入或生成復雜輸出的任務中是獨特的優(yōu)勢。例如,生成大量合成數(shù)據(jù)以訓練機器人,或通過對話生成各種可能的場景和解決方案。
持續(xù)學習和適應能力
AI大模型通過不斷更新和擴展,可以從新的數(shù)據(jù)中持續(xù)學習和適應,保持對最新信息和趨勢的理解,在需要長期應用且環(huán)境變化頻繁的場景中,AI大模型的持續(xù)學習能力是不可或缺的。
AI大模型作為提升人形機器人泛化能力不可或缺的核心要素,促使人形機器人具備了在多場景中實現(xiàn)環(huán)境感知和建模、運動規(guī)劃與控制、任務理解與執(zhí)行、學習遷移等更大突破的核心泛化能力。同時,作為AI大模型的重要應用場景,人形機器人也推動了AI大模型技術(shù)的實際落地與應用。
“AI大模型應用場景”產(chǎn)學研融通創(chuàng)新活動優(yōu)秀案例申報
-掃碼申報-
現(xiàn)誠邀AI大模型應用場景解決方案及數(shù)字化轉(zhuǎn)型企業(yè)踴躍申報參與由中國科協(xié)企業(yè)創(chuàng)新服務中心主辦的"產(chǎn)學研融通創(chuàng)新活動"——《AI大模型應用場景》案例集評選。
“AI大模型應用場景”產(chǎn)學研融通創(chuàng)新活動