Copyright 2012-2025 家電庫(kù) 版權(quán)所有 京ICP備20132067號(hào)-1
北京智在無(wú)界科技有限公司(以下簡(jiǎn)稱「智在無(wú)界」,英文為BeingBeyond)近日完成數(shù)千萬(wàn)元融資,聯(lián)想之星領(lǐng)投,智譜Z基金、燕緣創(chuàng)投、彬復(fù)資本跟投,勢(shì)能資本擔(dān)任獨(dú)家財(cái)務(wù)顧問。資金將用于加大核心技術(shù)研發(fā)投入,加速現(xiàn)有模型迭代與產(chǎn)業(yè)化驗(yàn)證,以持續(xù)提升技術(shù)壁壘與產(chǎn)品競(jìng)爭(zhēng)力。
「智在無(wú)界」成立于2025年1月,專注人形機(jī)器人通用大模型的研發(fā)與應(yīng)用。創(chuàng)始人盧宗青是北京大學(xué)計(jì)算機(jī)學(xué)院長(zhǎng)聘副教授,曾任智源研究院多模態(tài)交互研究中心負(fù)責(zé)人,負(fù)責(zé)過(guò)首個(gè)國(guó)家自然科學(xué)基金委原創(chuàng)探索計(jì)劃通用智能體項(xiàng)目;多位核心成員均來(lái)自智源研究院,在強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺、機(jī)器人控制和多模態(tài)等領(lǐng)域有豐富的技術(shù)研發(fā)積累和應(yīng)用落地經(jīng)驗(yàn)。
當(dāng)前,數(shù)據(jù)規(guī)模與泛化能力是制約具身大腦性能提升的核心矛盾。一方面,具身智能機(jī)器人要實(shí)現(xiàn)高度擬人化的行動(dòng)與決策能力,依賴海量且多樣化的數(shù)據(jù)進(jìn)行深度訓(xùn)練。這些數(shù)據(jù)覆蓋了日常瑣碎操作、復(fù)雜環(huán)境交互等各類場(chǎng)景,數(shù)據(jù)規(guī)模呈指數(shù)級(jí)攀升態(tài)勢(shì)。然而,數(shù)據(jù)采集過(guò)程仍面臨技術(shù)、資源等多重門檻,依賴大量人力且難度大,存儲(chǔ)成本更是隨著數(shù)據(jù)量激增而迅速攀升。
另一方面,即便有海量的數(shù)據(jù)支持,機(jī)器人在未知環(huán)境中要靈活應(yīng)對(duì)新任務(wù)、新物體與新干擾,仍依賴于強(qiáng)大的泛化能力。然而,現(xiàn)有模型面對(duì)存在顯著差異的場(chǎng)景時(shí),表現(xiàn)差強(qiáng)人意,難以將所學(xué)知識(shí)有效遷移至新情境,實(shí)際應(yīng)用中適應(yīng)性欠佳。
因此,如何在有限數(shù)據(jù)規(guī)模下提升泛化能力,成為具身大腦突破性能瓶頸、邁向?qū)嵱没年P(guān)鍵挑戰(zhàn)。
「智在無(wú)界」所使用的預(yù)訓(xùn)練數(shù)據(jù)(圖源/企業(yè))
面向人形機(jī)器人的操作和運(yùn)動(dòng)兩大核心能力,「智在無(wú)界」將其通用大模型系統(tǒng)分為具身多模態(tài)大語(yǔ)言模型、多模態(tài)姿態(tài)大模型和運(yùn)動(dòng)模型三層,并搭建了自學(xué)習(xí)具身智能體框架。
盧宗青告訴硬氪,區(qū)別于其他模型,「智在無(wú)界」的預(yù)訓(xùn)練數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)端的人類運(yùn)動(dòng)和手部操作視頻,通過(guò)解析這些自然場(chǎng)景下的動(dòng)作序列,構(gòu)建機(jī)器人運(yùn)動(dòng)操作能力的預(yù)訓(xùn)練基礎(chǔ)。這種以公開視頻數(shù)據(jù)為驅(qū)動(dòng)的技術(shù)路線,突破了傳統(tǒng)方案對(duì)機(jī)器人真機(jī)數(shù)據(jù)的強(qiáng)依賴,可實(shí)現(xiàn)從 “人類行為示范” 到 “機(jī)器人動(dòng)作生成” 的跨模態(tài)遷移。
具體而言,「智在無(wú)界」提出了多模態(tài)姿態(tài)模型,通過(guò)互聯(lián)網(wǎng)上豐富的視頻資源,包括如行走、舞蹈等人體全身運(yùn)動(dòng),抓取物體、工具使用等第一人稱視角的手部精細(xì)操作數(shù)據(jù),能夠?yàn)槟P吞峁┴S富且多元的動(dòng)作樣本。通過(guò)這些視頻-動(dòng)作數(shù)據(jù),模型可學(xué)習(xí)到各種動(dòng)作在不同環(huán)境下的表現(xiàn)形式,能依據(jù)實(shí)時(shí)的環(huán)境信息與任務(wù)要求,實(shí)現(xiàn)具有泛化性的端到端運(yùn)動(dòng)操作。
在具身多模態(tài)大語(yǔ)言模型方面,「智在無(wú)界」自主研發(fā)了Video Tokenizer技術(shù),其強(qiáng)調(diào)時(shí)空環(huán)境的理解與推理能力,尤其是針對(duì)第一人稱視角視頻內(nèi)容的解析。通過(guò)將連續(xù)視頻流解構(gòu)為兼具時(shí)間序列與空間語(yǔ)義的視覺token單元,使得該模型能精準(zhǔn)捕捉動(dòng)作的時(shí)序邏輯,比如伸手、抬升手臂到抓起物體的連貫過(guò)程,并基于物體方位、肢體相對(duì)位置等空間特征理解物理世界和人類行為。
目前,雖然簡(jiǎn)單的多模態(tài)大語(yǔ)言模型+運(yùn)動(dòng)操作策略已具備商業(yè)落地條件,但受真實(shí)場(chǎng)景中的動(dòng)態(tài)環(huán)境變化影響,機(jī)器人的泛化能力難以適應(yīng),如何讓人形機(jī)器人具備自主學(xué)習(xí)能力,成為其實(shí)現(xiàn)商業(yè)化落地的關(guān)鍵突破點(diǎn)。
為此,「智在無(wú)界」提出Retriever-Actor-Critic框架,通過(guò)對(duì)真實(shí)交互數(shù)據(jù)的RAG(檢索增強(qiáng)生成)與強(qiáng)化學(xué)習(xí),二者的協(xié)同應(yīng)用,不僅能提升模型的響應(yīng)準(zhǔn)確性與用戶體驗(yàn),形成 “數(shù)據(jù)收集-模型優(yōu)化-效果反饋” 的閉環(huán),使機(jī)器人具備了動(dòng)態(tài)適應(yīng)多變場(chǎng)景的能力,為其規(guī)模化落地提供了可行的技術(shù)路徑。