在人工智能的諸多分支中,具身智能是近一年間被高頻提及的方向之一。
從工業(yè)機(jī)器人到服務(wù)機(jī)器人,從自動駕駛到人形機(jī)器,各條技術(shù)路線每隔一段時間就會被寄予一次“通用智能入口”的期待。
但與算法驅(qū)動的軟件革命不同,它始終被現(xiàn)實(shí)世界的摩擦力拖慢節(jié)奏。
如果只看公開視頻,具身智能的公共敘事幾乎被同一組類似的畫面占據(jù):機(jī)器人跑得更穩(wěn)了,抓得更準(zhǔn)了,動作更連貫,任務(wù)更復(fù)雜。融資在加速,模型在迭代,具身智能似乎正處在一條確定無疑的上升曲線。
成功被循環(huán)播放,失敗被剪掉——在實(shí)驗(yàn)室之外,另一種敘事同時存在:部署成本、穩(wěn)定性、維護(hù)復(fù)雜度,仍在反復(fù)拉長商業(yè)化的時間表。
2月10日,原力靈機(jī)的首次技術(shù)開放日在北京中關(guān)村國家自主創(chuàng)新示范區(qū)展示中心舉行。
原力靈機(jī)發(fā)布了三款核心產(chǎn)品:具身原生大模型 DM0、具身原生開發(fā)框架 Dexbotic 2.0、以及具身原生應(yīng)用量產(chǎn)工作流 DFOL。這也是原力靈機(jī)成立近一年來,公司核心團(tuán)隊(duì)第一次集體公開亮相。
在當(dāng)天的“Physical Al Next 圓桌論壇”上,來自產(chǎn)、學(xué)、研的五位嘉賓花了約一半的時間,討論一個問題:
具身智能的ChatGPT時刻何時到來?
具身智能的ChatGPT時刻——這是一個混合了技術(shù)突破、產(chǎn)品體驗(yàn)與商業(yè)想象的復(fù)合概念。它既指模型能力的躍遷,也暗含一種期待:像ChatGPT一樣,被非技術(shù)用戶快速理解、低成本使用,并形成規(guī)?;瘮U(kuò)散。
它帶著某種技術(shù)樂觀主義的興奮。畢竟,大模型在ChatGPT發(fā)布后迅速從實(shí)驗(yàn)室走向全球數(shù)億用戶,完成了一次清晰可辨的躍遷。
人們自然期待,當(dāng)人工智能擁有了身體——能行走、抓取、操作物理世界的實(shí)體——是否也會迎來類似的爆發(fā)點(diǎn)?
ChatGPT的成功,在于它提供了一種使用成本低、使用結(jié)果高度穩(wěn)定且可重復(fù)驗(yàn)證的體驗(yàn):任何人打開瀏覽器,輸入一句話,幾秒內(nèi)就能獲得輸出。這種“即開即用”的特性,使其迅速成為通用工具。
更重要的是,大模型的擴(kuò)散幾乎不依賴新增物理基礎(chǔ)設(shè)施:算力集中在云端,終端只是入口。對產(chǎn)業(yè)來說,這是一次典型的“輕資產(chǎn)躍遷”。
具身智能則完全不同。它是一個集硬件、算法、環(huán)境感知與運(yùn)維體系于一體的物理系統(tǒng)。
北京智源人工智能研究院院長王仲遠(yuǎn)認(rèn)為,即便模型能力在提升,也還遠(yuǎn)沒有到具身智能的ChatGPT時刻。“尤其當(dāng)具身智能的模型和硬件真機(jī)部署之后,我們發(fā)現(xiàn)離真正希望的大規(guī)模應(yīng)用還是有比較大的gap?!?/span>
這個差距,源于物理世界固有的不確定性——地面是否平整、光照是否有變化、零部件是否存在微小公差、傳感器是否會老化……任何一個變量都可能導(dǎo)致任務(wù)失敗。
這也是為什么,在當(dāng)前階段,具身智能還仍停留在“可演示”而非“可大規(guī)模復(fù)制”的狀態(tài):一次成功,并不等于系統(tǒng)性成功。
更關(guān)鍵的是,同一臺機(jī)器人,在不同時間、不同地點(diǎn)的表現(xiàn)可能截然不同。這意味著,它無法像ChatGPT那樣,為所有用戶提供統(tǒng)一、可預(yù)期的體驗(yàn)。而“時刻”的本質(zhì),恰恰依賴于這種集體可感知的突變。
清華大學(xué)電子工程系長聘教授汪玉認(rèn)為,當(dāng)前大多數(shù)機(jī)器人雖已有很大進(jìn)步,但還是“局限在一個工作臺上”,難以跨空間、跨模態(tài)完成連續(xù)復(fù)雜任務(wù)。
他甚至提出一個顛覆性設(shè)想:未來的住宅設(shè)計(jì),或許需要加入“機(jī)器人適配”維度。也就是說,與其“苛求”機(jī)器人適應(yīng)人類混亂的生活環(huán)境,不如讓建筑和基礎(chǔ)設(shè)施主動為機(jī)器優(yōu)化。
雪豹財經(jīng)社認(rèn)為,在工業(yè)史上,這種路徑并不陌生——流水線、電梯、自動門,都是先改變空間,再釋放自動化價值。具身智能或許也需要類似的“環(huán)境工程”。
汪玉的觀點(diǎn)也揭示了大模型和具身智能的一大不同:大模型運(yùn)行在高度標(biāo)準(zhǔn)化的數(shù)字世界,而具身智能卻要闖入一個為人類而非機(jī)器設(shè)計(jì)的物理世界。前者是規(guī)則清晰的棋盤,后者是充滿噪聲的曠野。
究竟該如何定義ChatGPT時刻?
在階躍星辰創(chuàng)始人、CEO姜大昕看來,一個標(biāo)志性的東西就是零樣本?!傲銟颖救プ龇夯o它任何一條指令,即使以前沒有見過,它也可以回答出問題,這和原來的自然語言處理是完全不一樣的,這是為什么ChatGPT時刻大家覺得非常興奮?!?/span>
如果對比自然語言和具身智能,姜大昕覺得,具身智能的“ChatGPT時刻”會更加困難一些。他進(jìn)一步解釋稱:具身智能的泛化涉及場景、任務(wù)、目標(biāo)等多個維度,在哪個維度上定義“突破”,本身就缺乏共識。
單純技術(shù)維度的突破,并不必然等價于產(chǎn)品或產(chǎn)業(yè)維度的拐點(diǎn)。這種錯位,正是“ChatGPT時刻”在具身智能領(lǐng)域被反復(fù)討論、卻難以實(shí)現(xiàn)的原因。
當(dāng)連“成功”的標(biāo)準(zhǔn)都無法統(tǒng)一,“時刻”自然淪為模糊修辭。
真正貼近商業(yè)落地的創(chuàng)業(yè)者,正在轉(zhuǎn)向更務(wù)實(shí)的定義。原力靈機(jī)聯(lián)合創(chuàng)始人、CEO唐文斌心中的具身智能ChatGPT時刻,是它變得有用、可信賴,并能夠在投資回報率(ROI)上算明白。
唐文斌坦言,“雖然行業(yè)非?;鸨?,繁花似錦,但我們實(shí)際上整個(具身)智能的能力還在蹣跚學(xué)步的階段?!?/span>
星海圖創(chuàng)始人、CEO高繼揚(yáng)則從產(chǎn)業(yè)鏈角度指出,大模型是“模型即產(chǎn)品”。大語言模型的終端是手機(jī)、電腦,渠道是社交媒體的傳播。模型好了,整個商業(yè)化、產(chǎn)業(yè)化的鏈條馬上就具備了。而具身智能的鏈條極長,從供應(yīng)鏈、整機(jī)組裝到數(shù)據(jù)閉環(huán)、售后服務(wù)等,算法反而是傳播周期較短的一環(huán)。
這意味著,具身智能的商業(yè)化節(jié)奏,更兼有制造業(yè)的特性:資本回收慢、失敗成本高,任何一環(huán)掉鏈子,都會放大整體風(fēng)險。單一技術(shù)的突破,很難撬動整個系統(tǒng)的商業(yè)化進(jìn)程?!叭绻麖臉I(yè)務(wù)產(chǎn)線的角度來說,具身智能的ChatGPT時刻,是我們真的看到它在某些限定范圍內(nèi)具備商業(yè)價值的一個時刻?!备呃^揚(yáng)說。
對具身智能而言,“ChatGPT時刻”更像一個外借的隱喻,而非可被復(fù)制的路徑。
具身智能真正的分水嶺,或許并不表現(xiàn)為一次全民圍觀的技術(shù)奇跡,而是某一天,它在工廠、倉庫、園區(qū)里悄然變成“離不開但不被討論”的存在。
但在這個終局來臨之前,它的成熟將更像基礎(chǔ)設(shè)施的演進(jìn)——緩慢、無聲,卻不可或缺。
如果說大模型證明了算法的爆發(fā)力,那么具身智能考驗(yàn)的,則是整個產(chǎn)業(yè)系統(tǒng)的耐力。
在這場沒有“神跡”的長跑中,勝出者或許不是算法最炫酷的那一家,而是最懂供應(yīng)鏈、最能跑通真機(jī)閉環(huán)、最愿意沉入具體場景的那一方。