【
智慧城市網(wǎng) 企業(yè)關注】具身智能領域長期受限于高質量、多場景數(shù)據(jù)的缺乏,嚴重制約模型訓練及產(chǎn)業(yè)應用。為破解這一瓶頸,我司在上海啟動AgiBot?World百萬真機數(shù)據(jù)集項目,搭建標準化工業(yè)級數(shù)據(jù)采集工廠,覆蓋家居、工業(yè)、商超、辦公等多場景,遵循標準化采集流程,全程質量管控,累計采集超百萬條原子動作軌跡,數(shù)據(jù)規(guī)模達到850TB,支撐具身智能大模型訓練與產(chǎn)業(yè)落地。
方案和成效
一是構建全域真實場景與全流程質控體系,筑牢數(shù)據(jù)集質量根基。項目依托自建的2000平真實采集場景,覆蓋217個復雜操作任務,3000+操作物品。相比Google的Open X-Embodiment 數(shù)據(jù)集,AgiBot World 長程數(shù)據(jù)規(guī)模高出10倍,場景范圍覆蓋面擴大100倍,數(shù)據(jù)質量從實驗室級上升到工業(yè)級標準。同時構建“標準化采集流程+自動化質檢+人工在環(huán)審核”三維質控機制,數(shù)據(jù)準確性達到99%以上。
二是制定成熟的數(shù)據(jù)生產(chǎn)標準并搭建配套技術平臺,全面支撐大規(guī)模數(shù)據(jù)量產(chǎn)。項目構建了成熟的多模態(tài)數(shù)據(jù)采集與結構標準體系,覆蓋任務設計、數(shù)據(jù)采集、審核標注與格式規(guī)范四大技術環(huán)節(jié),形成高度工程化的技術鏈路,使數(shù)據(jù)生產(chǎn)效率提升約40%。項目僅用2個月時間即完成百萬條原子軌跡,數(shù)據(jù)格式標準化率達100%。
三是構建生態(tài)培育機制,推動數(shù)據(jù)共享與標準協(xié)同。數(shù)據(jù)集堅持開源共享原則,已上線魔塔社區(qū)、OpenDataLab、Huggingface、GitHub等國內(nèi)外平臺,成功吸引全球研究者的廣泛參與,累計下載量達29K。2025年3月,英偉達在GTC大會上推出的具身基座模型GROOT N1與
機器人推理模型Cosmos Reason,其80%的訓練數(shù)據(jù)均源自我司開源的AgiBot World數(shù)據(jù)集。
創(chuàng)新點
一是數(shù)據(jù)任務體系創(chuàng)新。首創(chuàng)“原子動作結構化拆分+場景多維變體+三級難度覆蓋”的方法體系,實現(xiàn)復雜操作流程的標準化建模與多場景適應性增強,確保數(shù)據(jù)任務具備高泛化能力與工業(yè)級質量標準。
二是數(shù)據(jù)采集生態(tài)創(chuàng)新。項目采用“開源數(shù)據(jù)集+聯(lián)合實驗室+區(qū)域采集中心”三位一體模式,賦能不同行業(yè)與地域主體靈活參與真機數(shù)采,顯著提升數(shù)據(jù)采集體系建設的可復制性與推廣效能,加速通用智能系統(tǒng)的落地進程。
三是數(shù)據(jù)應用體系創(chuàng)新。項目構建“開源驅動-模型賦能-工具支撐-生態(tài)激活”四維一體的全鏈條應用體系,智元基于數(shù)據(jù)集發(fā)布具身基座大模型,可支持模型微調(diào),賦能千行百業(yè);發(fā)布全套工具鏈,實現(xiàn)采集、訓練和評測完美閉環(huán);同時舉辦AgiBot World Challenge開發(fā)者大賽,激發(fā)創(chuàng)新的無限潛能。
版權與免責聲明:
凡本網(wǎng)注明“來源:智慧城市網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-智慧城市網(wǎng)合法擁有版權或有權使用的作品,未經(jīng)本網(wǎng)授權不得轉載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內(nèi)使用,并注明“來源:智慧城市網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關法律責任。
本網(wǎng)轉載并注明自其它來源(非智慧城市網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉載時,必須保留本網(wǎng)注明的作品第一來源,并自負版權等法律責任。
如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。