傳統(tǒng)機器人的硬傷
傳統(tǒng)工業(yè)機器人的痛點,是每一個想要做智能機器人創(chuàng)業(yè)公司的機會。
目前,工業(yè)機器人的硬件水準是無可挑剔的。市面上大部分機器人都可以達到百分之一毫米的精確度,而且一個三五十萬的機械臂的耐久度至少是五至十年的時間。機器人可以完成批量地、重復的動作、在生產線上進行裝配,滿足剛性制造所需的大批量生產。
但機器人的每一個動作都需要工程師在背后進行精細的編程,從拿起一個元件,到裝配到另一個元件上,編程的過程都需要考量諸如距離、角度這樣的條件。很多在人類看來非常簡單的動作,對機器人來說卻是很大的挑戰(zhàn)。
比如,將兩個齒輪合在一起,人類只要擰一擰調整一下角度就可以輕松地將齒輪卡住,但機器人不這么覺得。如果用傳統(tǒng)機械的方法,工程師需要準確的監(jiān)測到兩個齒輪之間的角度差異,然后來回進行轉動讓它完美地契合在一起,這立刻就變得變成一個很困難的工程問題。
「任何需要用眼來看,然后用手來去進行適應性的操作,都是對傳統(tǒng)機器人的挑戰(zhàn),」Chen 說。越來越多年輕人不愿意在工廠或者倉庫里做這些枯燥的、重復的動作,但傳統(tǒng)機器人又無法適應柔性的、可以隨時變化操作的工業(yè)制造。Chen 想要在短時間內解決的就是,讓機器人既可以組裝齒輪,下一秒也可以去裝備其他的元件或者完成其他的動作。
智能機器人的解決方法可以有很多。今年受機器人公司關注的有谷歌提出的自我監(jiān)督模仿(Self-Supervised Imitation)。通過一種叫做時間對比網絡(Time-Contrastive Networks)的神經網絡,機器人能夠自我學習視頻里的動作,比如倒水,或者站立。
Chen 則將希望寄托于深度強化學習。這種基于環(huán)境而行動、從而獲得最大化利益的機器學習方法,在過去的兩年時間里成功地讓電腦學會了下圍棋和打游戲。
2015 年,Chen 過去所在的伯克利機器人實驗室,已經通過深度強化學習讓機器人獲得了一種類似于視覺肌肉記憶 的能力(Visual Motor Skills)。人類在做很多動作時不會認真經過大腦思考。比如在人喝水前,并不會在腦海里提前畫上一個從拿起杯子——轉動杯子角度——將水倒入嘴里的草圖,而是根據條件反射直接拿起杯子喝水。
這個過程并不復雜:深度神經網絡就像人類的大腦一樣,它能夠處理視覺數據,讓機器擁有模擬人類條件反射的能力;模擬之后,接下來就是訓練機器的方法。利用深度強化學習,機器人能通過不斷地試錯和獎勵機制找到學習這個動作的「竅門」。這種學習動作的過程不需要手把手的編程。
但是,兩年前的方法最終只停留在理論階段。機器人的深度強化學習需要一個引導設置,而不是漫無目的地試錯,這就需要擁有強化學習知識的人才(主力是博士生)完成前期的編程和調試。一個大學里的實驗室可以讓幾個博士生沒日沒夜的埋頭苦干,但這顯然不適用于工業(yè)界。
因此,直到兩年后,Chen 的團隊找到了能夠落地的解決方案——模擬學習(Imitation Learning)。
模擬學習搭配強化學習
消費級 VR 設備的出現,為很多 AI 公司提供了意外驚喜。Embodied Intelligence 使用了 VR 設備實現了機器人模擬學習的能力。據 Chen 介紹,模擬學習的主要研究出自另一位聯合創(chuàng)始人 Tianhao Zhang 之手。
任何人帶上 VR 設備,拿上遙控器,就相當于人在實時遙控一個機器人。機器人只需實時追蹤 VR 設備的手的運動軌跡,VR 中的示范數據則將用來訓練深度神經網絡。在這個過程中,機器人持續(xù)地學習,直到它表示:「我學會了?,F在我可以自己接手了?!拐麄€過程只需要 30 分鐘。按照 Chen 的話說,即使是這 30 分鐘再乘上 100 倍,也比過去訓練機器人動作的成本要小。
這種方法具有很好的遷移性或者說適用性。即使是不同的動作,它背后的代碼是一模一樣的,包括 VR 的代碼、收集示范動作的代碼、訓練的代碼,以及神經網絡學習的代碼,都是一樣的。唯一的不同只是示范的動作而已。
目前,Embodied Intelligence 的機器人學過時間最長的動作是將近一分鐘,學習動作并沒有明確的規(guī)定,大部分人類憑條件反射就能完成的動作,機器人都可以學習。但還不知道機器人是否能學習一些非常規(guī)的動作,比如上周波士頓動力機器人 Atlas 的后空翻。
完成模擬學習后,機器人依然需要強化學習的介入,讓它能夠繼續(xù)進行自我學習。人類的動作有些時候并非最有效的,比如在走路時沿著一個弧線,這可能不是最優(yōu)的結果,或者人在走路的時候會有一些顫抖也是很有可能的,但對一個機器人來說,通過強化學習可以讓動作變得更加高效。
「近段時間 AI 領域的突破性進展已讓機器人學會行走,通過反復試錯學習操縱物體,以及從 VR 收集的示范數據來學習新的技能。但是,這些進展都局限于仿真或實驗室環(huán)境。」Amplify Partners 合伙人Sunil Dhaliwal 說,「Embodied Intelligence 團隊推動了很多這些進展,而現在他們將把這些最前沿的人工智能和機器人領域的進展引進具體的應用場景中。」
據 Chen 透露,這套基于模擬學習和強化學習的機器人應用將在明年投身工業(yè)界,通過這套流程,機器人可以輕松地學會廣泛的技能,尤其在那些傳統(tǒng)解決方案望而卻步的應用領域,比如操縱可變形的物體——電線、絲料、布料、服裝、液體包裝、食品等,在不規(guī)則、雜亂環(huán)境中分揀、整理物品,復雜的拼裝任務。而隨著材料不規(guī)整程度的增加,以及個性化訂單的增長,傳統(tǒng)硬編碼的方式尤其展現出其局限性。
只不過,Embodied Intelligence 的藍圖并不盡于此。
五到十年,實現元學習
模擬學習+強化學習是一個 Embodied Intelligence 能夠短期內提供的智能解決方案,元學習(Meta Learning)才是這家公司放眼未來五年到十年的核心?!笝C器人和人力的關鍵區(qū)別是『教』的成本,我們想把機器人變得和人一樣可教?,F階段,我們只是在減少教的時間?!?/P>
什么是元學習?簡答來說,就是讓機器人學會一個學習策略。過去的深度學習是通過輸入大量的數據得到一個結果,而元學習則是從少量數據中獲得學習這類任務的方法。換言之,這也是一種體現在機器人上的通用人工智能(Artificial General Intelligence),也是為什么Chen會將公司取名為Embodied(具現) Intelligence(智能)。
Chen 在元學習上已經有了一些研究上的成果。今年,Chen 聯合他的導師在 arXiv 上發(fā)表了兩篇關于元學習的論文。Meta Learning Shared Hierarchies 研究了一種用于學習層次結構化策略的元學習方法,通過使用共享基元提高未見任務的樣本效率;另一篇 Meta-Learning with Temporal Convolutions 則提出了一類基于時間卷積的簡單和通用的元學習器體系結構,這個結構不限領域,而且沒有使用特定的策略或算法進行編碼。
在 Chen 設想的藍圖里,Embodied Intelligence 最終實現的智能機器人將同時擁有元學習和強化學習的能力。「強化學習在單一任務上表現的很好,元學習是讓機器人掌握快速學習,這兩者在未來是可以互補的?!?/P>
身在硅谷的 Chen 面臨的壓力不小,除了像谷歌這樣的科技巨頭發(fā)力智能機器人外,不少初創(chuàng)公司也有這樣的野心,在距離埃默里維爾市開車 20 分鐘的聯合城市(City),同樣一家機器人公司Vicarious.ai 在為實現具有人類智能的機器人夜以繼日。該公司的 CTO Dileep George 曾告訴機器之心,他們選擇了一條完全不同于深度學習和強化學習的路徑——通過模擬人類的視覺皮質,結合生成模型,讓機器能夠模擬物體的結構,從而獲得對物體本身的理解能力。而他們預期在 2040 年前后實現。
沒有人能確定哪一條路能通往人工智能的終極圣杯。但從現在來看,帶著伯克利和 OpenAI 最新研究出走的 Embodied Intelligence 是走在了機器人科研的最前沿。
2025-05-22 15:01
2025-05-21 20:49
2025-05-21 13:31
2025-05-18 16:04
2025-05-17 11:32
2025-05-15 19:02
2025-05-12 08:39
2025-05-12 08:33
2025-05-12 08:30
2025-05-12 08:23