2024年4月2日,越疆推出 X-Trainer AI 機(jī)器人操作平臺。越疆對外展示雙臂機(jī)器人協(xié)同刷盤子視頻,以及在4月22日對外展示機(jī)器人自主疊衣服視頻,本質(zhì)上都是神經(jīng)網(wǎng)絡(luò)端到端控制能力的技術(shù)體現(xiàn)。
在最新的疊衣服視頻中,越疆展示了AI 機(jī)器人操作平臺 X-Trainer的技術(shù)內(nèi)核,即雙臂遙操作模仿學(xué)習(xí)系統(tǒng)。借助該技術(shù),機(jī)器人能夠加快模仿學(xué)習(xí)基礎(chǔ)量累計(jì),結(jié)合強(qiáng)化學(xué)習(xí)后能快速實(shí)現(xiàn)機(jī)械臂訓(xùn)練后的自主運(yùn)行。
此前 Figure 最早推出的機(jī)器人制作咖啡視頻就被人猜測為模仿學(xué)習(xí),特斯拉更是公開表示此前采取類似遙操作的訓(xùn)練方式,以提升機(jī)器人抓取衣物動作軌跡的柔性。而斯坦福此前展示的家務(wù)機(jī)器人,也是試圖通過遙操作協(xié)同訓(xùn)練,提升機(jī)器人在自主完成炒蝦、存放鍋具、呼叫電梯等復(fù)雜移動和操作任務(wù)時的成功率。
本次越疆進(jìn)一步展示端到端能力并公開背后技術(shù),機(jī)器人大講堂獨(dú)家采訪到了越疆聯(lián)合創(chuàng)始人郎需林,他對我們披露了越疆這套軟硬件系統(tǒng)背后的技術(shù)運(yùn)行邏輯和具體參數(shù)情況。
技術(shù)框架內(nèi)核拆解
此類機(jī)器人的控制框架其實(shí)可以簡單分為大模型(上層)+神經(jīng)決策網(wǎng)絡(luò)NNP(中層)+全身控制WBC(下層)。如今,這種多層級架構(gòu)配合大模型賦能價(jià)值初顯,正為機(jī)器人帶來強(qiáng)大的感知及運(yùn)動任務(wù)能力水平,讓機(jī)器人直接將看到的、聽到的信息,實(shí)現(xiàn)多模態(tài)融合并轉(zhuǎn)化為語言和行為結(jié)果,中間不需要經(jīng)過其他程序處理。
在這套機(jī)器人動作執(zhí)行的控制框架中,想要機(jī)器人實(shí)現(xiàn)低時滯、高魯棒性、高軌跡靈活性,就需要進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練持續(xù)優(yōu)化動作,而模仿學(xué)習(xí)的訓(xùn)練關(guān)鍵來源于數(shù)據(jù),數(shù)據(jù)則來源于采集。這使得能夠收集雙臂運(yùn)動數(shù)據(jù)的低成本全身遙操作系統(tǒng),正在得到越來越多科研和產(chǎn)業(yè)研發(fā)人員的認(rèn)同以及使用。
成熟的遙操作軟硬件體系,一方面可以驗(yàn)證現(xiàn)階段硬件能否端對端靈活完成各項(xiàng)軟件算法和任務(wù)規(guī)劃,另一方面可以更好收集端到端神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練數(shù)據(jù),從而讓未來的機(jī)器人能夠自行執(zhí)行任務(wù),為更多細(xì)分場景開拓帶來了新的可能性。
剝香蕉
切黃瓜
水果擺盤
打雞蛋
煎雞蛋
在越疆發(fā)布的視頻中,機(jī)器人根據(jù)語言命令自主刷盤子、疊衣服,背后同樣采用了視覺大語言模型+模仿學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的上層架構(gòu),其中的數(shù)據(jù)來源,則是借助遙操作系統(tǒng)訓(xùn)練而來。
人們看到的視頻背后,首先由人類遠(yuǎn)程控制機(jī)器人進(jìn)行動作演示,使得機(jī)器人能夠根據(jù)動作快速模仿學(xué)習(xí),大幅降低訓(xùn)練時間,最終由雙臂機(jī)器人作為驗(yàn)證平臺進(jìn)行執(zhí)行,提升整個端到端訓(xùn)練的質(zhì)量,最終實(shí)現(xiàn)行為克隆。
動作軌跡優(yōu)化秘訣
這種更強(qiáng)大的端對端響應(yīng)能力,與X-Trainer 主從遙操作系統(tǒng)帶來的高質(zhì)量數(shù)據(jù)采集能力有較大關(guān)系。
一般而言,人工智能的強(qiáng)弱表現(xiàn),與數(shù)據(jù)量和數(shù)據(jù)質(zhì)量正相關(guān),而二者都依托于數(shù)據(jù)采集能力。能否在短時間內(nèi)采集到更多的高質(zhì)量數(shù)據(jù)并快速訓(xùn)練,是機(jī)器人實(shí)現(xiàn)高效動作執(zhí)行的基礎(chǔ)。
越疆聯(lián)合創(chuàng)始人郎需林透露,越疆采用了同構(gòu)型主從手設(shè)計(jì),能直接復(fù)現(xiàn)記錄人類進(jìn)行任務(wù)時的關(guān)節(jié)運(yùn)動和軌跡,這使得X-Trainer 平臺模仿學(xué)習(xí)的數(shù)據(jù)采集,可通過熟練的示范操作中學(xué)習(xí)而來,大幅提升機(jī)器人的圖像采集質(zhì)量,從而使得關(guān)節(jié)映射的精度、準(zhǔn)確度、抖動、柔順性等表現(xiàn)都非常優(yōu)質(zhì),應(yīng)對一些干擾的能力強(qiáng)勁。
低時延是越疆 X-Trainer平臺的顯著優(yōu)勢之一。根據(jù)郎需林介紹,這是由于X-Trainer 平臺采用25Hz 頻率接收頂部和手部的三個攝像頭圖像并完成推理,通過高性能的在線運(yùn)動規(guī)劃接口生成 250Hz 的雙臂運(yùn)動,圖像到關(guān)節(jié)驅(qū)動響應(yīng)非常高效。
根據(jù)公開信息,F(xiàn)igure 01 接收機(jī)載圖像網(wǎng)絡(luò)頻率為 10Hz,即100毫秒一張圖片,而X-Trainer 端到端高性能運(yùn)動接口頻率是25Hz ,相當(dāng)于40毫秒一張圖片,這意味著運(yùn)行響應(yīng)速度本質(zhì)上提升了150% ,強(qiáng)大的即時響應(yīng)能力帶來更顯著的運(yùn)行平穩(wěn)性。
從越疆發(fā)布的幾個視頻來看,無論是盤子上不規(guī)則污漬的擦凈,還是應(yīng)對衣服折疊的過程中出現(xiàn)的不規(guī)則褶皺,機(jī)器人都能快速調(diào)整,高動態(tài)響應(yīng)能力大幅提升了機(jī)器人的適應(yīng)性。這背后源于越疆強(qiáng)大的模仿學(xué)習(xí)方式,更接近于人類視覺網(wǎng)絡(luò)的即時性反應(yīng),執(zhí)行路徑和方式是人腦驅(qū)動人手的動作機(jī)理,因此相較單獨(dú)的圖神經(jīng)網(wǎng)絡(luò)識別的質(zhì)量更高。
X-Trainer 之所以能夠做到高質(zhì)量的數(shù)據(jù)采集,據(jù)郎需林介紹,因?yàn)樵浇谶@套遙操作系統(tǒng)中,主手硬件上采取了高性能低摩擦的電機(jī),并且在結(jié)構(gòu)的輕質(zhì)和傳動的摩擦力方面進(jìn)行了大量的迭代和優(yōu)化,從而帶來了優(yōu)質(zhì)的柔順性和摩擦阻力,使得操作更為輕便,用戶疲勞感更弱,操作動作完成度也更高,大幅提升了機(jī)器人還原度,數(shù)據(jù)量和數(shù)據(jù)質(zhì)量。
這套遙操作的從手,則是采取了高精度的 Nova 雙臂,這個工業(yè)級的訓(xùn)練平臺,讓數(shù)據(jù)采集與動作的精度大幅提升,保證了任務(wù)的效率和質(zhì)量,從而提供了保證了模仿學(xué)習(xí)的軌跡復(fù)現(xiàn),為訓(xùn)練數(shù)據(jù)在各類場景落地提供了保證,最后才呈現(xiàn)出視頻里機(jī)器人驚人的執(zhí)行力效果。
高初值帶來強(qiáng)化學(xué)習(xí)新范式
據(jù)悉,X-Trainer 這種高性能模仿學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)遷移實(shí)現(xiàn)到機(jī)器人平臺,完成端到端圖像到動作映射的算法,目前也具有一定泛化能力。
由于基于真實(shí)物理環(huán)境數(shù)據(jù)采集,這種模仿學(xué)習(xí)為強(qiáng)化學(xué)習(xí)提供了一個優(yōu)質(zhì)的訓(xùn)練初值。不同于傳統(tǒng)強(qiáng)化學(xué)習(xí)需要經(jīng)過長時間訓(xùn)練、糾偏、優(yōu)化,才能在隨機(jī)環(huán)境獲取較好初始值的方法,高性能模仿學(xué)習(xí)本質(zhì)上加速了強(qiáng)化學(xué)習(xí)初值的獲取速度。例如Figure 01此前神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間為 10 小時,而X-Trainer 通過人類示范模仿學(xué)習(xí),僅需2小時訓(xùn)練即可自主刷盤子,并對實(shí)時干擾快速糾正。
這就是越疆在模仿學(xué)習(xí)的基礎(chǔ)上,通過物理引擎仿真以及環(huán)境建模,更快實(shí)現(xiàn)了初始軌跡的空間結(jié)構(gòu)位置信息獲取,再加上強(qiáng)化學(xué)習(xí)后,能夠疊加隨機(jī)物理真實(shí)信息紋理等參數(shù),從而實(shí)現(xiàn)多層級任務(wù)的學(xué)習(xí),強(qiáng)化了算法在不同場景的泛化能力。
目前,機(jī)器人端到端任務(wù)執(zhí)行的算法框架已經(jīng)基本穩(wěn)定,但機(jī)器人從0-50基礎(chǔ)數(shù)據(jù)集的獲取依然耗費(fèi)了研究者大量的時間。
模仿學(xué)習(xí)是一個機(jī)器人數(shù)據(jù)基礎(chǔ)框架和基礎(chǔ)能力獲取的加速器,可以說是機(jī)器人學(xué)習(xí)的基石。因?yàn)樵诖嘶A(chǔ)上,軌跡數(shù)量更加豐富且精確,數(shù)據(jù)集獲取也更為容易,研發(fā)者能夠聚焦場景泛化能力,注重機(jī)器人從50~10000強(qiáng)化學(xué)習(xí)能力的訓(xùn)練。
據(jù)悉,X-Trainer 系統(tǒng)包括兩只主手、兩只從手,每臺機(jī)械臂上有一個3D攝像頭和夾爪,頂部也有一個3D的攝像頭,越疆自研的高性能主從控制和雙臂協(xié)同框架,保證了高數(shù)據(jù)量傳輸,全棧式提升這套端到端框架的運(yùn)行可靠性。
在具體場景上,這套系統(tǒng)除了有望助力科研院所相關(guān)算法科研驗(yàn)證,快速將學(xué)術(shù)研究的成果與下游應(yīng)用需求鏈接,還有望幫助工業(yè)場景企業(yè),加快對于3C電子、電池組裝等線束扎帶、柔性插拔等工藝的學(xué)習(xí)訓(xùn)練效率,推動人形機(jī)器人的進(jìn)化,真正做到從實(shí)驗(yàn)室走向?qū)嶋H場景應(yīng)用。
結(jié)語與未來
國際上,斯坦福等高校已針對模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)能力展開了大量相應(yīng)研究,國內(nèi)包括越疆等企業(yè)也找到了正確路徑。X-Trainer 這套系統(tǒng),非常有望幫助國內(nèi)更多科研機(jī)構(gòu)、應(yīng)用企業(yè),加入數(shù)據(jù)基石建設(shè)的進(jìn)程中,加速國內(nèi)人形機(jī)器人在多場景任務(wù)落地的可行性。
“我們正處于時代的風(fēng)口浪尖,中國企業(yè)正嘗試克服種種困難去迎接這個時代的挑戰(zhàn),越疆希望用自己的努力,助力更多的人參與到中國機(jī)器人和具身智能的發(fā)展浪潮中,共建這個充滿想象力的未來。”郎需林對未來充滿信心。