午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

 
  • 臨近機器人GPT-3時刻,具身智能開源模型的加速演進

    作者:帥得毫無人性 來源:金華 瀏覽: 【】 發(fā)布時間:2025-09-13評論數:

    文 | 硅谷101

    作為人工智能和機器人交叉的前沿領域,具身智能是當今科技領域最具潛力和前景的方向之一。其中,機器人/具身大模型扮演著“中樞大腦”的角色,使機器人能夠在復雜多變的環(huán)境中實現自主學習和持續(xù)進化。因此,大模型的研發(fā)已成為推動機器人產業(yè)——尤其是通用型機器人突破發(fā)展的關鍵環(huán)節(jié)。

    9月8日,中國的具身智能公司自變量機器人開源了他們的具身模型WALL-OSS,緊接著的9月9日,美國的具身智能公司Physical Intelligence(簡稱PI、π)也開源了他們的π?.?模型。中美兩家公司幾乎同時開源了自己的模型,這并非偶然。2025年,具身大模型的開源生態(tài)正在進入百花齊放的發(fā)展階段。

    這一態(tài)勢讓人聯想到過去幾年里以ChatGPT為代表的語言大模型演進路徑:從2018年開源社區(qū)初步興起,到2020年5月ChatGPT-3引發(fā)全球矚目,語言大模型用了三年時間走向成熟。那么,機器人大模型距離屬于它的“GPT-3時刻”還有多遠?

    本期《硅谷101》,主播泓君邀請了自變量機器人的CTO王昊,以及Physical Intelligence的研究員柯麗一鳴(Kay Ke),她是π?、π?.?論文作者,一起來聊聊今年機器人模型領域重要的突破、當前還面臨著哪些挑戰(zhàn)、對比下中美的機器人發(fā)展路徑有何區(qū)別,以及還需要多久才能在全場景落地。

    以下是這次對話內容的精選:

    01 行業(yè)突破與泛化能力

    泓君: 你們認為整個2025年,機器人的模型領域最重要的突破是什么?

    柯麗一鳴:我搞機器人大概有七八年了,我覺得機器人大模型的紅火,也是在最近兩三年才開始集中爆發(fā)。

    我自己剛開始的研究中,沒有用到很多大模型這些東西,更多是做一些小而精的任務。當時我就發(fā)現:一套東西在一個場景下能解決特定的問題,雖然做出來效果不錯,但是很難便宜、便捷地復制到新的問題上去。

    所以在我探索大模型的途中,最大的一個驚喜發(fā)現就是,驗證了模型的通用性,這樣就可以開始做一些泛化、性能提升上的探索,這時才能開始討論機器人大模型的可能性。在機器人領域,我覺得現在比起兩三年前,對大模型這一種技術路線的信仰要濃厚得多。

    王昊:今年有一個非常明顯的現象,那就是在應用上呈現出了指數效應。這背后的驅動力,其實也是來源于通用機器人基礎模型的發(fā)展和進步。

    在2023年以前,我們很多人會專注在單個任務上,把它做到極致;但現在我們有了統一的基礎模型之后,就能夠同時學習并執(zhí)行成百上千種不同的任務,其實也就意味著:我們的優(yōu)化目標變了,重心放在了提升整個模型在所有任務上的平均成功率。這也是指數效應發(fā)展的基礎,我們現在可以開始去做復雜的長程任務(Long-Horizon Task,包含一系列連續(xù)步驟、需要機器人進行多步推理、規(guī)劃并執(zhí)行,最終才能完成的復雜任務),這是一個非常令人驚喜的現象。

    泓君:我總結大家剛剛的關鍵詞,一個是整個機器人模型泛化的探索,還有一個是復雜的長任務。請幫我們舉一些例子來說明下,比如有哪些任務機器人以前做不到,到了2025年就能做到了?或者以前機器人只能局限在某個場景的特定任務,現在可以遷移到其他的場景了?

    圖片來源:Physical Intelligence

    柯麗一鳴:2024年的時候,PI(Physical Intelligence,美國具身智能公司)發(fā)布了π?,當時就是想要推動泛化能力。其中最有代表性的一個例子就是疊衣服的任務。這個任務其實在機器人界做了十幾到二十年,有很多人都在研究。

    大家一般認為讓AI下圍棋很難,因為圍棋的復雜度很高嘛,每一把棋局都不一樣,其實在我們日常生活中,疊衣服這些看上去對人來說很簡單的小任務,它具體的復雜度也很高。比如衣服上面可能有兩個折、有三個折,或者某個折的角度不一樣,對機器人來說可能都是一個新的情況,它需要把這么多不同的情況解決。

    同時疊衣服有很多不同的步驟,要先疊什么再疊什么,有這樣的序列性,這種復雜的細分的情況和序列性,使得疊衣服這個任務在以前是比較難解決的。

    到了2025年,我們也開始探索了不少泛化的方向,比如說把π?.?模型放到一個移動機器人里,再把這個移動機器人放到不同的、沒有見過的家里,這些都不在模型的數據集里面,模型可能不知道會怎么反應,然后我們觀察它會怎么做。在這個過程中我們發(fā)現,要做到泛化性還是比較有希望的,雖然機器人的表現不是很完美,但它好像展現出了一點像人類的特性,比如拿東西,換到別的家場景里還是能拿。

    泓君:它拿的是哪一類的東西?在我的理解中,衣服是軟的布,但如果拿起一個杯子、一個碗,是不是就不太一樣?

    柯麗一鳴:是的,其實這一類問題在機器人內部術語就叫抓取問題,因為它要結合物體具體的形狀、擺放的位置,甚至你靠近過去的時候的角度來考量。

    所以抓取問題是既簡單又不簡單的一個問題,比如你要抓一個水杯,就算是完全一樣的水杯,在兩個不同環(huán)境中,也是一種泛化的體現,需要的策略會不一樣。甚至以后我告訴機器人要拿杯子,它不管去了一個新的家、拿了一個完全不一樣的杯子,都要能完成,徹底的泛化結果就需要這樣層層遞進的測試。

    圖片來源:Physical Intelligence

    泓君:所以π?.?相比π?,它的進化表現在哪?你剛剛提到了讓它去一個新的家,它依然能夠適應這種環(huán)境,這是一點。但比如說它做的任務是不是有一些局限性的?它的任務的可遷移性如何?哪些任務還不可遷移?它的規(guī)律是什么?請跟大家簡單地解釋一下。

    柯麗一鳴:當我們在開始推進π?.?的時候,我們強調的點就是泛化,這時會強迫自己去收集一些不同的數據。但這個“不同”的數據的“不同”,其實沒有那么好定義,因此我們決定把機器人放到外面不同的房子里去測試。

    而在這個過程中我們又發(fā)現,不知道要收多少個不同的房子的數據才算到頭了,我們得一邊收集、一邊檢驗,同時心里也會懷疑:今天收集了3個房子的數據,是不是就有幫助了?如果我們收集了30個都沒有幫助,是不是就意味著這條路走不通?

    但還好我們收集到了很多的不同的數據以后,最后訓練出來的模型在驗證時,確實發(fā)現它有比較強的泛化能力。也就是說π?.?在一些新的環(huán)境中的表現比以前更好了。當然并不是任意新環(huán)境都很好,目前還存在一些局限性,但大家還在慢慢地在感受和探索,未來落地時在性能上還有很多提升空間。

    泓君:你們覺得機器人模型在研發(fā)過程中,泛化問題最難的環(huán)節(jié)是什么?比如是因為數據量比較小,還是算法的問題?

    王昊:難點之一是物理世界中長尾效應的魯棒性(robustness的音譯,指事物可以抵御外部應力和影響并維持原有狀態(tài)的自身性質),比如因為環(huán)境、光照產生了一些視覺誤差。雖然可以通過用更好的傳感器、更強的算力、更好的生成模型幫你做數據合成、數據增強,來緩解這些長尾效應,但真正的難點就是,現實時間有太多種可能性了,我們沒法預測到所有可能的corner case(邊角案例)。

    圖片來源:自變量機器人

    所以這些情況就沒法讓機器去提前學習,比如機器人執(zhí)行任務的時候,桌布上可能有個小的褶皺、杯子可能放置不穩(wěn)、可能有一個透明物體反光剛好干擾了相機等等情況。人類可以憑直覺和豐富的經驗去瞬間適應這些微小的物理變化,但由于算法非常依賴于數據驅動,AI大模型面臨這些新的挑戰(zhàn)時,不一定能做好。

    另一個難點就是在長程任務上,很多微小的物理擾動會造成的各種微小誤差,它會像滾雪球一樣被放大,尾部的誤差到最后,可能就直接導致了任務的失敗。所以我們要解決的就是,怎么讓模型解決這些沒法在數據里包含的各種corner case,這個事的核心是要去構建一個能夠理解物理常識、能夠有物理直覺的模型基礎,讓模型能有空間的理解能力、推理能力。

    所以這個問題的核心就是,我們要把機器人真實的數據、人類的視頻數據等等都合在一起,讓數據的規(guī)模更大、來源更豐富、質量更高、更多樣,讓機器人從這個學習過程中能夠理解物理規(guī)律。但是這些和真實世界交互的高保真數據又是目前比較稀缺的,要得到這些數據并不意味著瘋狂地在現實世界去采就行了,這件事情遠比想象地更復雜,它不止是數據量的問題,還是數據工程、數據管線的問題,比如如何降低我們的數據采集成本。

    柯麗一鳴:我也覺得難點挺多的,并不是只有一兩個難點。王昊剛才說的長尾問題我覺得是難點之一。而從研究的角度來看,我認為是測試機器人模型的表現如何是很難的。

    大家經??吹叫侣劺镎f,哪家公司開放了新的大語言模型,它在某個榜單上面變成了第一名。而在機器人界,過去數十年來,一直沒有辦法在真機世界中做出這么一個榜單。沒有辦法非??陀^、公正、可重復地告訴你:在什么情況下,模型A比模型B的表現是要好的。 做這個榜單的難點就是一個模型,它可能在某些地方表現好、其他地方表現不好,你要包含多少種不同的情況呢?如果要有一些corner case的話,那可就無窮無盡了。同時如果你想做一個真機的榜單,還要考慮這些真機維護、細節(jié)、對于模型的表現會不會造成影響等等情況。

    因此到現在,機器人整個業(yè)界在發(fā)表論文的時候,很多時候都是依靠自己,既作為作者、又作為一個測評官,“我現在開發(fā)了一套算法,我們覺得它在這個任務上比之前的一些方法要好一些”。

    缺乏統一的評價機制使得具身智能領域的發(fā)展緩慢了一些,因為你真的很難去分辨模型A、模型B到底哪個好。理想的情況是評分高的模型表現非常明顯的好,而真實世界是菜雞互啄。你說在模型上做了一些數據、算法上的改動,那你怎么驗證?

    據我所知的話,業(yè)界里肯定有不少人在探索用模擬器,或者說一個第三方的、像打擂臺一樣的評測標準,我覺得這也是大家在這個難題上開始進行的一些探索。

    圖片來源:央視網

    泓君:之前我看中國有機器人運動會,還有首屆的機器人的展會,機器人有表現出很多的能力,比如說踢足球、賽跑,還有做一些具體的任務,怎么樣去評判一個機器人,它的技術是好還是不好?從這些Demo上能看出來嗎?

    王昊:我覺得是比較困難的。這也是我們具身領域大家感到的一個難點和一個痛點。很難有一個統一的評測標準,可以讓大家沒有那么高成本、且比較公平地去評測模型。最好的評測就是要到現實世界去評測,但是我們又很難搭建一個公平的決斗場,所以這個是比較困難的地方

    但我覺得還是有些辦法可以去評測的。比如說我們有一批開源模型,大家可以在自己的機器人本體上,去看不同的模型在學習相同的任務的時候所需要的數據量,它所展現出來的泛化能力、推理能力,是可以去評測的。那另外對于不同的機器人的公司,那可能合理且公平的是:我們把它的機器人應用到具體的場景里面,去看不同模型的表現怎么樣。因為在真實世界運用時,它所展現出來這種多樣性、泛化性或者環(huán)境是非常隨機的,所以它是最能體現你模型能力的。

    02 數據挑戰(zhàn)與硬件瓶頸

    泓君: 剛剛說到難點,Kay提到了第一點,還有兩點是什么?

    柯麗一鳴: 第二個難點剛才王昊也提到了,就是 數據的質量和數量,就算在2025年的今天,還是魚和熊掌不可兼得的事情。

    如果你想要數據質量非常高,是需要精心地去設計、勤勤懇懇地去清洗的,就比如大語言模型訓練,也是對數據的質量很敏感。我們做機器人的數據都是自己收集的,然后再做清洗,每個細節(jié)都要到位。而一旦要對細節(jié)有追求,追求更高數量就有些難度。所以問題變成了我們是需要又多、又好、又快的數據,才能讓我們的模型更好。

    第三個難點的話,就是真機的維護。做機器人、尤其現在還在奮斗做真機機器人的同行們,一定是對這個行業(yè)很熱愛的,但真機機器人硬件的維護,我覺得是很勸退的,尤其是很多新人,當我看到他們開始研究機器人的時候,會發(fā)現沒有一個比較好的、上手就能用的機器人。

    這可能不像一些純軟件的行業(yè),你可以下載些代碼就直接跑機器人,到現在依然沒有一個大家都非常認可、都愿意擁抱的一個硬件平臺,甚至這個硬件應該長什么樣,其實業(yè)界到現在也還是在爭論、在探索。我覺得這些客觀條件使得我們的研究和領域有了一些門檻吧。

    開源機器人數據集,圖片來源:Open X-Embodiment

    泓君:對,說到這個讓我想起來,我有時候跟機器人的研究員們一起聚會,大家問白天在干嘛,那就是一天啥都沒干,專門在修手,因為手不太穩(wěn)定。

    柯麗一鳴:是的,我剛開始讀博的時候不是搞機器人,是搞理論機器學習的。當時還很年輕,就覺得:哎呀,整個機器人的項目怎么會用這么長時間呢?等我自己做的時候就發(fā)現,天天都在擰螺絲。

    泓君:我覺得數據確實是挺重要的一塊的,我也知道王昊你們自變量機器人的模型,是有數萬小時的多模態(tài)數據積累的。Kay你剛剛提到了π的模型,你說需要采集這種高質量的數據,然后要自己去收集、自己去做數據的清洗。

    柯麗一鳴:稍微糾正一下,我覺得不光是π的模型想要大量高質量的數據,這可能是行業(yè)的共識,因為大語言模型的成功, 所以大家對數據的質量是比較敏感的。

    泓君:你們的數據是你們自己采集的,還是第三方公司做的?

    柯麗一鳴:我們有很多自己采集的數據。

    泓君:行業(yè)里面會有一些專門的第三方公司去提供數據嗎?

    柯麗一鳴:我倒是認識一些朋友,他們自己創(chuàng)業(yè)就是為機器人提供一些真機數據,但是這不是我們現階段研究的重點。

    泓君:你覺得多少的數據可以構成一個優(yōu)秀的大模型。

    柯麗一鳴:在這點上我有個暴論,也很好奇大家怎么看。我之前就經常和朋友聊天說,一個人的一生假設是100年的話,那我們很粗略地算就是100萬個小時,現在我在公開信息里,好像沒有看到有人做100萬小時的數據集。

    所以我會覺得,什么時候我們能夠收到100萬小時,等同于一個人一生的物理經驗的數據,可能才能開始后面的探索。之后如果真的能把機器人廣泛地部署在真實世界中的話,那也許收100萬小時的數據,也就是幾天的時間。

    這也是來自于和一些做語言、圖像、音頻生成的朋友的吐槽,因為他們動手就很豪氣的:我今天要做這個任務,給我來400萬小時的數據,明天就要收集,后天就要清洗,我就說,咱做了多少年機器人,好像都沒這個400萬這個量呢。

    圖片來源:Physical Intelligence

    泓君:為什么你的判斷是100萬小時?以前我們在說,人成為一個領域的頂級的學者專家,有個1萬小時定律。包括我觀察我家寶寶學吃飯的過程也是,她在非常小的時候,拿著勺子把飯喂到嘴邊都是喂不準的,但她每天練習這個事情就慢慢學會了。但為什么機器人要訓練出這樣的靈活度,就需要比人大得多的數據量?

    柯麗一鳴:我有一些很粗糙的想法,我們PI自己在做研究的時候,有個重心叫做跨本體遷移,就是希望在不同形狀、不同類別的機器人上收集的數據,能適用到別的機器人上,讓它更快地學會一個任務。

    人類能做到這點可能和基因、軀體有一些關系,畢竟人類有一個非常好用的感知器,就是眼睛,現在也沒有哪個相機敢對標人眼,還有我們的關節(jié),這些物理的、天生的東西,我覺得是人行動力的基石。

    我個人比較相信,可以用一些算法上的優(yōu)勢,去蓋過硬件上的不足。但羅馬不是一天建成的,咱也不能指望機器人馬上就能像寶寶一樣學得這么快。機器人如果要快速學習新任務的話,它之前還是得有非常多的積累。剛才王昊也提到、并且我在PI也看到的一點就是:某個機器人上收的一些任務數據,是可以幫助其他任務做得更好的,讓新的任務也許就不用那么多數據。

    王昊:其實和人比的話,我覺得對機器人來講還是太不公平,核心就是因為人其實有“預訓練”的。整個生物界在大規(guī)模的進化過程中,有兩個非常核心的點:一是在進化過程中,人積累了很多先前驗證的東西,比如跟世界交互的認知,關于物理世界的應對的策略,這些其實都寫到了基因里;另一方面,人其實在不停地進化自己的硬件,整個生物界都是這樣,大家能不用“智能”解決的東西,就盡量用“硬件”解決,所以很多生物體都會進化出一些結構,比如說大腸桿菌,它就不用長眼睛,只要對有化學、溫度敏感的一些感知,就可以去適應周圍的環(huán)境。

    我們現在正在做事,就是幫助機器人做它的預訓練模型,雖然看起來要覆蓋人類進化的幾億年的時間,但其實也不太一樣。第一是因為機器人是可以進行大規(guī)模復制的,不同機器人之間可以共享它們的經驗,我們就可以快速構建機器人的預訓練模型,讓它能夠具備對物理世界的感知、理解能力。當然這個過程也是讓機器人越來越熟悉自己的身體,就像剛才Kay說的“跨本體泛化”,我們就是讓不同的機器人(模型),適應不同的身體,并且讓它能夠互相感知到身體的不一樣,這個很重要。

    其次在人的學習里面,所謂1萬小時理論還是有很多不一樣。人并不是一定時間內專門去學這一個任務,學完了再學下一個新任務。你開始教寶寶去做某件事情的時候,比如說拿一個東西,他可能精確度也不夠、抓不準,所以就把這個東西扔到一邊就不管了,去玩別的玩玩具、搭積木什么的,而過一個月之后你會發(fā)現,拿東西這個任務他在并沒有花多少時間學習,但是他已經會了,這也體現了人在后天和環(huán)境交互過程中學習,其實也是一個多任務并行的學習。它可以從不同任務中學習到這種底層的、共同的物理結構,這種共同物理結構就會幫助它學習新任務時,減少它所需的數據量。

    所以現在我們訓練機器人時也是這么做的,我們用盡可能多樣的數據、覆蓋各種能力的任務,去構建這個大的數據體系、構建機器人能力,它也許在學習新的任務的時候,需要的數據量就會大大減少。所以剛才說機器人需要百萬小時數據,核心就是解決兩個問題,第一是覆蓋過去人類長時間進化這個預訓練的過程,我們需要通過多樣的數據,去幫助機器人構建這種基礎能力。第二就是在學習新任務的時候,我們也要利用它在舊任務學習中,形成的這種通用能力,讓他能夠泛化到新能力上。所以在數據上、時間長度上不能完全類比人類,但我覺得這個學習歷程和背后所反映的規(guī)律可能是一致的。

    圖片來源:自變量機器人-已開源的具身智能基礎模型WALL-OSS

    泓君:我很好奇大家在真實世界里面采集到的數據量有多大?訓練一個具身模型時,數據會占多少成本?或者說數據有多貴?

    柯麗一鳴:在π?的時候,我們做了一個比較簡單的統計:π?使用的數據,比谷歌研究院收集的所有數據加還要多,即使π?發(fā)表的時候,PI還是一個很年輕的初創(chuàng)企業(yè)。

    我覺得其實這是說明了兩件事:第一就是那個時間點采集的數據量確實是非常大,而且之后一直有往里面增加數據,而數據的成本、數據的量是在實時變化的。在谷歌研究院在開始探索的時候,要花很大的功夫才收到這些數據,但后來漸漸的有了經驗,PI或者其他公司再收就會越來越簡單,成本應該也是能夠得到控制和降低的。

    泓君:那你們現在合成數據用的多嗎?我知道業(yè)界很多都會用合成的數據,前幾周谷歌發(fā)布了Genie 3世界模型,我聽到了兩派不同的觀點:有一派認為的Genie 3對機器人有非常大的幫助,因為這種世界模型的數據是有用的,但是另一派就會覺得這個數據質量還是不夠好。

    圖片來源:Google

    柯麗一鳴:我覺得可以分成兩個問題,一個是我們之前做了什么,另一個是對整個領域來說什么東西很有用。

    π?.?應該有一篇后續(xù)的論文,探討了我們對π?.?訓練中的一些考量,其中有提到過,我們在π?.?的時候,引入了一些網絡數據,我不知道嚴格意義上這算不算合成數據,但確實是希望通過引入一些外界各種各樣的知識,去給它一種通用和通感,而不是直接告訴機器人應該什么動作。

    而合成數據對于領域有什么作用,我覺得沒有一個很清晰的定論。現在有些人覺得,如果能夠大批次的生成成本低廉、有可控性、而且對機器人有用的的數據,那會是很好的,但現在比較大的困難就是怎么弄出這些數據、怎么樣證明它有用,這還是比較前沿的研究問題。

    王昊:現在頭部的機器人公司的數據量,因為有真實物理世界限制,大家可能都集中在幾萬到幾十萬這個范圍內。但這個和訓練像GPT-4這樣級別的語言模型去比,數據量還是少很多。我們除了用最重要的現實世界真實數據、機器人上的數據,其實也會用一些其他方面的數據,但是每一類型的數據肯定都是有自己的問題的。 機器人的真實的數據是比較貴的,受限于機器人的硬件場地、操作員的收集速度等等因素,所以大家有了很多改進方法,不僅可以依靠真實機器人本體,也可以做一些低成本的本體,甚至不用做完整的本體,只有一些穿戴式的傳感器設備,都是可以去采集的。

    其實我們也用了很多生成模型去做合成數據,但合成數據主要是緩解一些視覺和現實的分布差異問題,它很難去生成帶有物理交互過程的數據,這種數據還是得來于現實世界的采集。 還有一類數據,就是人類的視頻數據。這個規(guī)模非常非常大,多樣性也很多,成本相對來講也比較低,我們也幫很多公司在做這方面的探索。但要靠這些數據幫機器人做動作級的生成還是很困難的,現在具身模型從視頻數據里學到的,還是在動作意圖上,我們從人類的視頻里,讓模型學到了一些高級的語義理解、一些任務規(guī)劃。

    但是這種規(guī)劃是通過視頻,而不是語言的方式機器去學習的。包括像Genie 3,我覺得它是非常好的一個工作方式,它就是從互聯網、從游戲環(huán)境里面得到了大量高質量的數據,所以通過視頻生成的方式,可以做一些動作控制,是未來是一個很好的方向。雖然這個環(huán)境相比于現實有些簡化,但它仍然可以作為訓練的環(huán)境,去幫你去做這種交互。 所以在數據上我們還有工作要做,我想每家公司在數據的投入占比可能都不太一樣,這也取于整個公司的綜合的實力,比如運營能力、硬件的水平,對數據的使用規(guī)劃不一樣,會讓你的數據成本也不一樣。

    中國和美國相比,可能硬件成本、人力成本是比較大的差異。就算在同一個地區(qū),運營能力、數據過濾、清洗、任務生成分發(fā)、不同的場景里面的數據采集能力、場景的快速搭建以及恢復的能力,這都會影響數據成本。

    泓君:所以你們公司的數據成本類比于其他機器人公司,大概是在什么水平?

    王昊:這個很難在不同公司之間進行比較,因為大家對數據質量、多樣性的要求可能不一樣。但是對于我們公司來講,數據肯定是在整個研發(fā)成本里占相當大的比例了。

    圖片來源:自變量機器人

    泓君:在今年的9月8日,你們WALL-OSS的開源模型是正好上線了,請你給大家簡單地介紹一下,你們的這個開源模型是什么?以及它的行業(yè)特點是什么?

    王昊:我們是持續(xù)地發(fā)揚開源精神,也吸收了很多經驗,所以是用了大概幾萬小時的真實世界的數據,訓練了一個具身的基礎模型。

    我們是在一個統一的框架下面,讓它可以既可以去做思維鏈、也可以做動作的生成。我們基于已經訓練好的基礎的視覺語言模型去做擴展,讓它具備比較強的視覺理解、空間推理、多語言的指令遵循能力,同時它的動作的生成精度也比較高。這是我們觀察到的,目前具身的開源模型上還比較欠缺的一些能力,我們也希望這次開源能夠對具身智能行業(yè)有比較好的補充,讓大家可以更好地用我們的基礎模型,去做一些長程任務、解決一些復雜任務。

    要解決這些長程任務,就需要更好的語言遵循、更好的空間以及因果的推理,也希望我們這種端到端的推理、規(guī)劃加動作的執(zhí)行模型,可以發(fā)揮作用,被社區(qū)用起來。

    泓君:所以你們模型主打的點是什么?我覺得行業(yè)里面做模型玩家們,方向都還挺不一樣的,比如有些是專注在精細的操作上的,像谷歌就很擅長于折紙的這些動作,像PI是希望有更強的泛化能力。如果用一句話去總結你們的優(yōu)勢,你覺得你們在機器人領域最關注的點是什么?

    王昊:我們最關注的點是機器人的泛化和它的長程任務的解決能力。解決長程任務就意味著,它一定得有比較強的泛化能力,因為解決任何一個長序列的任務,它背后面臨的都是變化的場景,這個任務可能遇到各種失敗情況、各種沒見過的操作對象,所以都需要它有很強的泛化。

    泓君:比如那些長而復雜的問題,請大家舉一個例子。

    圖片來源:自變量機器人-已開源的具身智能基礎模型WALL-OSS

    王昊:其實我們在現實中把機器人用到任何一個場景,都是長而復雜的。比如我要完整地把一個餐桌收拾好,它就是一個長而復雜的任務,因為你要操作對象的種類很多:你可能有硬的東西的操作,比如說餐具;也有一些液體需要去操作,比如把食物殘渣、流體倒到固定的地方;你還可能有很多不規(guī)則物體的處理,比如說垃圾、殘留物;有很多柔性的東西需要去處理,比如說擦桌子,折疊毛巾等等;可能需要把不同的東西放在不同的位置、還要比較小心地去處理可能灑出來或者其他的情況。

    所以在收拾餐桌這個任務中,它執(zhí)行起來并沒有固定的順序,說先做什么、后做什么,都是在一個長程任務里面,把各種子任務給穿插起來。人其實很難劃分每個任務的邊界是什么,這種任務就得靠模型端到端自主去決策、實時去規(guī)劃,把整個任務完全做完的。

    泓君:那在你們實驗室里面,評測機器人任務做得如何時,實際訓練是什么樣的場景?

    王昊:我們實際訓練雖然也包含了其他的一些場景,但還是以家庭的場景為主,因為家庭場景其實基本上已經包含了具身智能需要解決的所有任務。像收拾整個餐桌、布置餐具、收拾整個衛(wèi)生間、收拾房間,這些都是我們的訓練任務,我們也實實在在地看到,機器人在處理這些長序列的閉環(huán)任務時,體現出來了操作能力、泛化能力的進步,這點確實讓我們的信心大增。我們也希望能借助自變量的開源模型,讓大家看到現在的基礎模型,在解決長程任務這種泛化場景的時候所體現出來的能力。

    03 模型架構與技術路徑

    泓君:我注意到不管是PI還是自變量,都是在做開源模型,為什么大家想做開源?開源對整個生態(tài)的好處是什么?

    柯麗一鳴:我覺得能和業(yè)界、社區(qū)分享一下模型,并且能夠幫助到大家很快地上手,可能也是在變相地降低機器人模型研究的一個入門門檻吧。其實在公司內部,開源也是一種(研發(fā)的)過程,就是從決定要開源,然后抽調大家把剛剛發(fā)表的研究去重構代碼,然后做測試,再和社區(qū)的一些開發(fā)者溝通看能不能跑得起來。這是一項不簡單的工作,但是真的看到我們的模型,在一些我們自己都沒想到的機器人上面跑起來了、別人能用我們的模型做很多不同的實驗,還是很開心的,現在大家都很樂意去開源,我覺得是很好的氛圍。

    圖片來源:X.com

    泓君:我看得出來你很熱愛機器人。

    王昊:我一直都覺得開源是非常重要的事情,開源意味著我們可以站在巨人的肩膀上繼續(xù)前進。我們可以基于已有成果做更多的改進,社區(qū)開發(fā)者的反饋也會幫助到開源的公司,開源公司可以從中吸取到經驗,然后把這個技術路線思考得更加深入。一般的高校、或者一些小型的企業(yè),他們可能沒有能力去做基礎模型,但是如果能夠使用這些基礎開源模型,他們就可以去做應用,把它用到各個方向,豐富整個生態(tài),這也是一個非常重要的事情。

    AI 的研究我覺得跟大模型之前有很大不一樣。過去,我們可以看到AI和大模型的研究是非常離散的,在真正形成一個社區(qū)之前,可能做研究的只有兩、三個人,大家瘋狂地研究一個算法,更多是以論文發(fā)表作為第一要務,目的是占據技術的主動權。但有了社區(qū)和整個開源體系之后,大家更在乎的是,怎么在一個工程化的體系下,把這個工程基礎打好,讓這個社區(qū)更加繁榮?個人是通過什么方式給社區(qū)做貢獻?大家的榮譽反而來自于這樣的事情。這樣也就會促使開源模型的技術不停地發(fā)展。所以我覺得開源是一個非常好的事情,既可以從中學習到新的東西,也可以看到你的東西可能對別人幫助。

    泓君:大家覺得現在模型公司在判斷一個模型好壞的核心因素是什么?現在大家不僅在拼各自采集的數據質量,同時在模型層可能有非常多不一樣的技術路徑,比如說是不是用高頻控制的方式,是不是用 system 2+system 1的兩個system的架構?大家可以聊一下模型層上不同的技術路徑,以及你們看好的方式?

    圖片來源:自變量機器人-開源具身智能基礎模型WALL-OSS

    王昊:從自變量機器人公司的角度來講,我們是非常相信,數據驅動的端到端的模型搭建的方式的,我們開源了WALL-OSS模型,也是基于這樣架構去構建的。不管有多少模態(tài)、不管你是語言、視覺還是動作,它們都應該在同一個空間下被表征、被對齊,分層對它們來講就是一個非常不利的因素,所以我們應該盡可能避免人類的分層帶來信息的損失。

    但是從另外一方面來講,你都端到端訓練了,那模型可以做得很大,可以做到幾百億、千億的矩陣模型,那真正要去使用的時候怎么辦?不可能在端側需要非常高頻控制去部署這么大模型,所以在推理的時候,我們反倒覺得模型是可以分開的,可以把更慢的任務過程可以放在云端去處理,更快的任務過程放在物理端側,再由梯度回傳更新整個系統參數,這個過程是非常非常重要的。

    泓君:我們說其實兩層架構的模型,它有一點點類似于人腦的大腦跟小腦,比如說有一層負責理解與規(guī)劃,還有一層就是負責高頻輸出的控制,就像大腦去掌管認知跟決策,小腦去掌管運動控制。為什么你們不用這樣的一個架構?

    王昊:我們是一種端到端的訓練,很難在模型內部把某些參數完全分成system 2,比如把某些系統分成快系統、直覺系統等,但是我們可以訓出一個非常大的端到端模型,它可以具備非常強的具身通用能力,讓具身的通用能力既包含理解推理,也包含動作生成。

    但你實際在部署的時候可以有很多方式,比如把擅長動作部分給蒸餾壓縮出來,然后擅長語言推理、視覺推理的部分給它放在云端等等。利用類似的方式部署,在推理過程中做很多優(yōu)化,但訓練的時候它還是一個統一架構。

    泓君:就是推理跟控制在訓練的時候是在一起的。那Kay你們是怎么做的?

    圖片來源:Physical Intelligence

    柯麗一鳴:我們現在還是非常開放的一種態(tài)度,我們覺得現在機器人大模型還沒有達到像GPT-2的時刻,我們希望能夠盡快地達到這個地步,但是現有的模型和表現還是有一些差距。數據和數據驅動的算法是我們最看重的東西,但是具體怎么樣去設計這個算法?模型的架構如何搭建?甚至硬件系統怎么設計?數據怎么收集的?我覺得一切工作還是為了數據驅動在服務。

    泓君:所以它到底是把推理跟控制分開做成兩個,還是說端到端的解決是完全放在一起?你覺得這個其實反而不是現在最重要的問題,可能這幾種路徑都可以,我感覺現在整個機器人模型領域大家的技術路徑看起來也是沒有統一的。

    柯麗一鳴:我覺得這句話非常有意思,我最近在和一個學弟吃飯的時候還在聊,因為大概從三、四年前開始,我們能感知到整個行業(yè)是有變化的,之前學術界會更加的散一些,大家的方向、想法、算法還有關注的問題都非常的不一樣,而現在自從 VLA 就視覺語言動作模型出世以后,變得流行起來,而且很多人跟進,反而讓我覺得現在越來越多的方面開始趨同化了。

    泓君:你覺得趨同化表現在哪方面?從哪些各種各樣不同的方向變成了同一個方向?這個同指的是什么?

    柯麗一鳴:其中之一是模仿學習。我是2018年開始做模仿學習的,那個時候行業(yè)研究不多,也沒有很多真機的研究可以 follow ,在當時會覺得這是一個不那么主流或者大眾的一個想法,2018年當時是已經看到了波士頓這個跳,畢竟人形機器人跳即使到現在直接用模仿學習,可能也是一個比較難的挑戰(zhàn)。

    業(yè)內的很多人開玩笑的時候就會說, 60 年代咱機器人就把人類送上月球了,機器人就朝著火星去了,這是成功的機器人的方法,它就直接變成火箭學科了,只有我們這些機器人研究者還沒搞明白它怎么做成功的,還在這里搞機器人,雖然是玩笑,但也說明這個行業(yè)內,有一波又一波的接力探索,就包括 2000 年左右自動駕駛的探索,還有后面這些人形機器人,波士頓動力為首的這些力量。

    2000 年初,其實還有一個Willow Garage,也是在美國機器人學術界里面比較有名、當時很紅火的一家創(chuàng)業(yè)公司,當時他們就主推了一個叫PR 2 的機器人,也算是移動、但不是人形機器人的一個老祖宗。所以從之前那個時代看的話,我會覺得大家的研究方向都不一樣,有的人做車、有的人做手,這些都是散布在機器人行業(yè)里各處的,而現在確實因為大模型的紅火,模型的通用性被強調,很多人開始想說能不能把這些東西糅合在一起,這算是一個非常有意思的趨同化的發(fā)展吧。

    Willow Garage,圖片來源:Business Insider

    泓君:我看到現在業(yè)界,從創(chuàng)業(yè)方向看的話,大家又有很多的不一樣,比如說有足式機器人,下面是一個人形機器人自己走路的;還有輪式機器人,它可能就注重于手部的操作,走路的部分它用輪子滾就可以了。很多公司也在想,我能不能有一個上半身跟下半身都能同時操作的機器人?因為很多機器人它可能要么上半身,要么下半身,但整體上大家可能都想把模型做得更大、功能做得更通用。

    柯麗一鳴:我覺得“同”說的是,很多原來做在不同形態(tài)機型上的人,會用不同方法,現在大家都非常的開放,會說我們要不要試一試視覺語言的這種大模型,你說的這種上半身、下半身的形態(tài),其實 π?.?做的就是這個事。

    泓君:Kay覺得現在整個機器人模型連GPT-2它的水平都不夠,王昊你怎么看?

    王昊:我認為到GPT-2的水平了。用這個類比的話,GPT-1基本上是一個概念驗證,通過預訓練加數據的方式,可以處理一些任務。但到GPT-2的時候,我們開始驗證它規(guī)?;牧α浚ㄟ^大幅的增加模型參數和訓練數據,就可以展示出規(guī)模化帶來的能力提升??赡芪覀円?guī)模再做得更大,就能到GPT-3的水平了,大家就能看到很多能力的涌現了,所以我會覺得現在就是在GPT-2的這個階段。

    我們現在基本上已經知道:規(guī)模化是唯一的可靠路徑了,所以我們要在這個階段,瘋狂地積累數據,提升模型規(guī)模,同時搭建支持具身智能的各種基礎設施,所以說人形機器人目前是已經處于GPT-2的階段是比較客觀的。

    圖片來源:自變量機器人-已開源的具身智能基礎模型WALL-OSS

    泓君:那你覺得機器人領域到定義的GPT-3時刻,大概還有多長的一段路要走?

    王昊:現在在談我們在機器人領域的GPT-2到GPT-3 ,從語言模型來講,是有一個不一樣的地方。當年在做語言模型時候,大家不知道這條路線是否真的可以走通,中間產生了很多分散式的探索又匯聚的過程?,F在我們是明確的知道、而且看到了這種規(guī)?;瘞淼奶嵘詫τ谖覀儊碇v,路徑和目標更加明確、更加唯一,所以我預測會在1~2年的時間,我們完全可以達到GPT-3的這個水平。

    泓君:要1~2年的時間還挺快的。我注意到在美國,我們聊起機器人的話,大家都是想做這種通用機器人,然后再朝一個超大規(guī)模的模型做,如果類比于自動駕駛的話,就是美國上來就想做的是L4、L5級的自動駕駛。但是我們看到中國的發(fā)展方向,我感覺還是有很多的小而精的創(chuàng)業(yè)路線,就好比中國企業(yè)在做自動駕駛的時候,首先想到的是能不能在一個園區(qū)、一個碼頭,把這個場景先落地了,做一個非常垂直的小而精的產業(yè)。二位怎么看機器人的這兩種方式,以及在產業(yè)的發(fā)展上,最終結果會有什么不一樣?哪條路徑能跑出來?

    王昊:我覺得這個得結合中美各自的優(yōu)勢來看這個問題。確實美國的現在路徑就是自上而下的不計成本的,他們會優(yōu)先做一個接近于AGI的超大模型,有這個基礎之后,再去想應該怎么去做。這也是因為美國在算力上的優(yōu)勢,最頂級的芯片、最大量的算力集群都在美國,所以路徑更加傾向于用無限的算力,去探索能力的邊界。

    但中國其實芯片上確實有一定的限制,所以這也倒逼了中國的企業(yè),研究思考在有限的算力下如何實現更高的效率,但說中國企業(yè)現在在走小而精的技術路線,我倒不是很同意這一點。

    中國其實是擁有全球最大的互聯網生態(tài)移動應用場景,這個場景優(yōu)勢以及中國在硬件領域擁有非常完善的產業(yè)鏈,這個是美國其實沒法比的。其實國內有很多頂尖的研究機構和非常好的創(chuàng)業(yè)公司,都是非常深刻地去從第一性原理的角度去思考,非常深刻地去理解Scaling law這件事情,它其實是通往AGI的必經之路。

    我們堅信必須得有一個強大的、無所不能的基礎模型,才有可能把這基礎模型用到各種垂直領域,讓它得到更加高效的部署,但這個過程不能反過來,必須得有大而通用的基礎,才會有小而精的發(fā)展。在實現的路徑上,其實國內更像是上下結合,雙軌并行,一方面盡可能多的去考慮場景,尤其是考慮這種通用泛化的場景可能帶給我們什么,同時又去迭代我們自己的通用基礎模型的能力,才能更快地讓機器人在現實世界獲得更好的反饋,幫助大家實現商業(yè)閉環(huán)以及開始形成數據飛輪。

    圖片來源:自變量機器人

    泓君:所以你個人也是想做通用的模型的?

    王昊:對,我們一定會去做通用的模型,這個是很重要的。

    柯麗一鳴:我覺得現在兩邊各自的生態(tài)環(huán)境有很多的歷史因素。一方面國內經濟高速發(fā)展,經驗足夠,很多創(chuàng)業(yè)的成功,都是因為公司活下來了、公司商業(yè)化能夠做好,就促使了國內創(chuàng)業(yè)的人會從解決問題、解決用戶的需求來出發(fā),因此會有很多人去深耕垂直領域。之前我還在網上看到什么中國的除草機器人“暴殺”這個歐美家庭,看到它以后,我覺得我都要給我朋友去安利,我覺得中國企業(yè)是很擅長做這樣一個商業(yè)化的一個事情。

    同時,中國制造業(yè)擺在那里,機器人確實是有很大的硬件需求,在國內針對商業(yè)需求做硬件這個優(yōu)勢,現階段來看,就沒有誰能夠比得過國內。因此國內現在的生態(tài)里,很多人的創(chuàng)業(yè)都是一邊保證著商業(yè)的成功,一邊做一些其他探索。

    之前我說自己畢業(yè)的這一年比較幸運,因為如果早兩年畢業(yè)(可能我就做不下去了),當時有很多(早畢業(yè)的)朋友,他們機器人研究做得很優(yōu)秀,可是都轉行了,都轉去做大語言模型、做強化學習。做機器人能讓你鍛煉到技術,但并不是做機器人本身,與其說美國很多公司一直都在做大而通用的模型,而不如說是這個時代恰巧讓我們在2024年前后,涌現了一批相信這個道路的人。

    這個恰巧的因素也是歸功于OpenAI把大語言模型這件事做通了,給整個行業(yè)的一個反思和震撼。直到現在,我在加入PI的時候,和他們聊天討論要不要去做,我就在問:你們做人型機器人行嗎?你們要做人型的話是不是要燒很多錢?道路怎么走?商業(yè)化怎么走?這公司怎么活下來呀?從商業(yè)化的角度上來說,其實并不是那么明朗的一件事情,所以我才會感嘆這些公司真的是鳳毛麟角,能夠有這么一個時機成立,能夠有人去相信他也許能把事情做成。

    而在這樣的公司出現之前,其實美國的工業(yè)界是有很多機器學習的應用公司的,其中可能比較有名,也和我們公司淵源頗長的一個公司,就是Covariant Robotics,這個是伯克利的一位非常有名的教授所創(chuàng)立的,這些個人的創(chuàng)業(yè)的經歷啟發(fā)到了后面的人。因為在外界看來, Covariant就是因為深耕了一個商業(yè)的點,所以它商業(yè)做成了,但是它通用就沒有做得那么好。我們公司最大的目標是想要做通用、想要做數據驅動,所以我們是很小心地避免做一些短期的商業(yè)項目,有這么一個歷史因素,導致了現在的公司生態(tài)是這樣。

    圖片來源:Covariant Robotics

    泓君:我理解Covariant其實更多的是做靈巧手,而不是在研究模型。

    柯麗一鳴:這件事情有點好笑,因為他們公司剛剛起步的時候,創(chuàng)始人Peter Abbeel作為機器學習機器人的一個領軍人物,也表達過他們想把機器學習的機器人做到現實生活里,做到通用,當然可能是因為他們在物流上面做的太成功了,大家就記得他們的另一種模樣了。

    泓君:所以他們內部也是在研究通用的解決方案跟模型層的解決方案?

    柯麗一鳴:我相信他們在早期的時候應該是有這種探索的,因為當年他們開始做的時候,確實沒有人知道機器學習、機器人的應用能做成什么樣的,所以他們肯定是做了一些探索的,現在的很多企業(yè)和研究者就是受到他們的經驗的啟發(fā),選擇走了現在的路。

    04 商業(yè)化與落地前景

    泓君:我看大家在研究機器人的時候,都希望機器人能夠幫大家做一些家務,比如說疊床單、疊衣服,把碗塞進洗碗機,大家覺得未來真的能有個這樣的家用機器人幫我們做家務嗎?你們覺得還需要多久才能擁有這樣的通用型機器人?

    王昊:做家務看似簡單,但我覺得可以作為一個完美的機器人的圖靈測試了。因為這個過程包含了具身智能機器人領域所有的精細動作,比如切菜,要有精細的力道控制;一些易碎東西處理時,要有非常豐富的感知;也有一些長程規(guī)劃,比如得看菜譜去做菜、看說明書去使用某個電器、以及各種意外情況的處理等等,基本上已經包含了機器人的所有挑戰(zhàn)。

    要完全實現到這個程度,還是得分步走。我覺得在兩、三年以內,我們可以在半結構化的環(huán)境里面,讓機器人做一些簡單的事,比如僅限于廚房內,幫你做一些簡單的菜、洗碗等等,這些我覺得還行,但說如果要在完全開放的廚房里面、所有的事情能做到,我覺得還需要五年左右的時間。

    圖片來源:自變量機器人

    泓君:五年左右,實現機器人在廚房里面做飯、洗碗?

    王昊:對,我覺得是有可能去實現的。但那時還是有很多情況需要大家容忍,比如雖然機器人在各種任務上的成功率都比較高了,但也并不是100%,還是存在失誤的可能,所以如果我們允許機器人可以和人協作、獲得人類的幫助,我覺得5年是可以進入到家庭里面的。

    我現在是比較樂觀的,因為我覺得機器人領域的發(fā)展走在正確的道路上,有了Scaling law這樣快速發(fā)展的規(guī)律,這在整個人類的歷史演進中,我都覺得很幸運的事情,因為有一條看起來很明確路徑,可以告訴我們怎么做:你只要投入算力和數據、迭代模型的架構、提升機器的能力,那就能肉眼可見地看到機器人的提升。

    所以雖然現在有很多問題,讓我們覺得很困難,但放在5年后再去看,都是可以被解決的,而且模型一定可以跨越到一個閾值、進入到新的階段,所以我預測5年這個時間是非常合理的。

    另外關于5年這個時間點,其實也需要審慎一點,因為機器人不像純軟件那樣可以輕資產快速迭代,機器人還是受限于物理世界的物理定律,硬件得發(fā)展,還要全方位突破數據、算法、供應鏈、商業(yè)模式等等因素,才有可能真正做到那個地步。

    泓君:我覺得是一個蠻大膽的預測。

    柯麗一鳴:我覺得5~10年落地應該是可以的?,F在的模型能力和算法顯然還沒有達到“我們只要商業(yè)化它就能做出產品”的這個地步,但行業(yè)的迭代速度確實非常快,再加上大家有這么多的熱情和投入,我相信在兩、三年里,甚至可能每一年,都會有新的很大的變化。

    另外,我們具身智能行業(yè)其實和自動駕駛、甚至火箭升天這些傳統的機器人行業(yè)有些不一樣的地方。我們可能更像掃地機器人,就是最早的掃地機器人其實不完美,需要用戶明白它能做什么、不能做什么,這就是一個比較好的商業(yè)化典范。以這個為目標的話,我保守估計是需要5~10年做出這樣的產品,它可能偶爾會出錯,但是它犯的錯是在用戶的范圍里的,這樣也能成為一個可以幫到用戶的產品。

    我有個問題很好奇,有的機器人公司是以“產業(yè)化”為目標的,想要做一些商業(yè)化應用的東西,這些公司該如何兼顧商業(yè)化與研發(fā)?

    圖片來源:自變量機器人

    王昊:我覺得這個問題挺好的。因為作為創(chuàng)業(yè)公司,從第一天我們就在思考,怎么做既能仰望星空,也能腳踏實地?由于現實的因素,不可能達到AGI再去思考商業(yè)化,我們現在的策略就是,盡可能在我們通用模型的基礎上,讓它進入一些場景里做一些事情,這個場景必須和最終想實現的通用場景是比較接近的、它是可以去泛化的,所以我們盡可能的不去碰那些比較封閉的場景。

    像一些公共服務、養(yǎng)老服務的場景就非常好,這樣場景和通用機器人的最終應用場景有一些類似的地方,能涉及一些復雜的任務,比如和人的接觸,也涉及到沒有那么復雜的,比如只是打掃衛(wèi)生、拿東西、處理食材等等。從這個角度來看,這些就是好的場景,因為和最終的目標接近,你可以在這些場景里,不斷地迭代、檢驗通用模型的能力,也可以獲得非常寶貴的數據反饋。但要保持這個選擇初心,很重要的一點是:得有很強的商業(yè)化路徑的定力。

    另外一個比較重要的點,是公司的組織能力。因為一個公司的組織能力、組織結構,決定了這個公司的上限,我覺得公司一定要以通用模型、以基礎模型作為目標,達到一個完全沒有壁壘、高效協同的一個組織,才可能促使你在中間邁出的每一步都不會走錯,最終能使你達到終極目標。

    泓君:所以你是比較注重訓練的場景是否能有商業(yè)化應用的,而不是一個在封閉化場景里面就能實現的一個需求。剛剛說的家用機器人幫我們做飯、洗衣、疊被子,這樣的使用場景能不能讓機器人有足夠銷量,去養(yǎng)活一個機器人公司?

    王昊:我覺得是很有希望的。因為現在整個機器人的產業(yè)的規(guī)模還沒有起來,所以等規(guī)模起來后,硬件成本還有非常大的降低空間。隨著模型水平的提升、加上硬件成本降低,幾年后的價格,會讓用戶的接受度更高。

    其次從這個功能角度來講,如果我們可以幫普通用戶去做很多事,大家會非常樂意接受這樣的產品?,F在大家難以接受機器人,是因為機器人似乎只能跳跳舞、做一些情緒價值的陪伴,好像沒有其他功能,以前機器人沒機會向普通用戶展示各種應用,但未來我覺得是有很多展示機會的,這個想象的空間是很大的。